学术科研

当前位置: 首页 - 校园动态 - 学术科研 - 正文

兰州大学在多模态大模型视频分割与推理领域取得重大技术突破 相关成果在国际顶级期刊IEEE TPAMI发表

来源:信息科学与工程学院 2026-05-18 浏览:

近日,兰州大学信息科学与工程学院的一篇关于多模态大模型视频分割/推理研究论文“Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder” 正式被《IEEE Transactions on Pattern Analysis and Machine Intelligence》录用。兰州大学为第一单位,党吉圣副教授为第一作者,胡斌教授为通讯作者,论文合作者还包括新加坡国立大学蔡达成院士、中山大学赖剑煌教授、郑伟诗教授等。

近年来,随着自动驾驶、智能安防、机器人导航、视频理解、具身智能等前沿应用飞速迭代,多模态视频分割与推理技术已成为人工智能领域核心攻坚方向。现有主流的多模态大模型普遍存在动态视觉信息与静态语义纠缠、语义感知薄弱、细粒度引导不足等痛点,导致感知和推理精度受限、跨场景泛化能力弱,难以适配复杂真实场景需求。为破解行业瓶颈,团队聚焦模态解耦与增强提示核心思路,提出DeSa2VA(解耦语义感知视觉增强框架),构建全新多模态大模型视频感知和理解大统一新范式。研究从三大核心维度实现突破:构建文本预训练范式,将文本真值标签转化为点级提示并生成文本掩码,强化分割感知基础大模型语义接地能力;设计双线性解耦模块,通过线性投影将大语言模型隐藏状态拆解为独立文本、视觉特征子空间,彻底打破多模态纠缠;创新动态掩码融合策略,融合文本/视觉预测掩码与真值标注三重监督,实现大模型精准特征互补。

6D7D2D4547

胡斌教授团队的党吉圣副教授与彭宏教授创办的大模型科研创新社团聚焦于国际前沿课题,GPU计算资源充足,与国内外大厂以及知名高校保持长期合作,深耕多模态大模型构建、视频感知、视频推理、生理心理健康大模型、世界模型、具身智能机器人等国际前沿领域,持续产出顶刊顶会科研成果,为自动驾驶、机器人导航、具身智能、健康计算等实际应用提供坚实算法支撑。社团自2025 年成立以来,社团本科生已发表CCF-A类会议ICLR、AAAI、KDD、 CCF-A类期刊IEEE TIP、中科院1区Top期刊Pattern Recognition等10多篇顶刊顶会,陆续获得了新加坡国立大学、南洋理工大学、香港大学、北京大学、中科院计算所、上海交通大学等国内外知名高校的录取通知。

【新闻背景】

IEEE TPAMI是人工智能、模式识别、图像处理和计算机视觉领域公认的顶级国际期刊,SCI 1区Top,也是目前影响因子最高的计算机学会CCF-A类期刊。

编辑:陈家兴
  • 标题:

    学校召开校企深度融合暨自然科学类科研工作例会

  • 联系方式:
  • 错误内容:
  • 修正建议: