北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人

来源：网络　浏览：73次　时间：2023-11-30

11月29日消息:近日，北京大学和中山大学等机构的研究者提出了一种名为Chat-UniVi的视觉语言大模型，实现了统一的视觉表征，使其能够同时处理图片和视频任务。这一框架的独特之处在于，它不仅在深度学习任务中表现卓越，而且仅需短短三天的训练时间，就能够训练出具有130亿参数的通用视觉语言大模型。

项目地址:https://github.com/PKU-YuanGroup/Chat-UniVi

Chat-UniVi的核心方法是采用动态视觉token，通过最近邻的密度峰聚类算法来获取这些动态token。这一方法极大地减少了视觉token的数量，降低了模型的训练和推理成本。研究人员通过实验证明，Chat-UniVi在图片理解、视频理解、问答等多个任务中都表现出色，甚至在较小的参数量下也能超越其他大型模型。

文章还详细介绍了Chat-UniVi的训练过程，分为多模态预训练和联合指令微调两个阶段。这一两阶段的训练策略使得模型能够在混合数据集上进行训练，无需对模型结构进行修改，展现了其在多任务学习上的灵活性和高效性。

Chat-UniVi的成功实验结果包括在图片理解、视频理解、问答等多个任务中都超越了先进的方法。而其在幻觉评估上的优越性更是引人注目，证明了采用动态视觉token和多尺度表征的有效性。

综合而言，Chat-UniVi的提出为视觉语言模型的研究领域带来了新的思路，通过统一的视觉表征实现了对多模态数据的高效处理，为深度学习模型的训练和推理提供了更加便捷和经济的解决方案。

上一篇：中国团队开源大规模高质量图文数据集ShareGPT4V(开源策略团队)
下一篇： GAIA基准测试揭示人类胜过GPT-4的惊人差距(基准测试是)

推荐站点

88分类目录
88分类目录专业提供网站网址免费提交收录,88分类目录是采用开放导航式的网站大全,收录国内外各行业优秀的网站网址,让网站在各大搜索引擎收录快排名靠前。
www.88dir.com
66网站目录
66网站目录是免费收录各行业优秀网站,提供网站分类目录检索,关键字搜索,提交网站即可免费推广,增加外链,提升网站流量。
www.66dir.com
265分类目录
网址目录网站网址大全,收集正规的中文官方网站,用户自主提交网站,265分类目录努力打造互动新颖的网站分类目录导航收录平台
www.265dir.com
YY分类目录
YY分类目录全人工编辑的开放式网站分类目录，收录国内外、各行业优秀网站，旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。
www.yydir.com
名人百科网
名人百科网(mrenbaike.net)--为大家提供各行各业的名人资料、资讯、图片等,致力于打造国内专业的名人百科平台！
www.mrenbaike.net
菜鸟教程
菜鸟教程提供了基础编程技术教程。菜鸟教程的 Slogan 为：学的不仅是技术，更是梦想！记住：再牛逼的梦想也抵不住傻逼似的坚持！本站域名为 runoob.com, runoob 为 Running Noob 的缩写，意为：奔跑吧！菜鸟。本站包括了HTML、CSS、Javascript、PHP、C、Python等各种基础编程教程。同时本站中也提供了大量的在线实例，通过实例，您可以更好地学习如何建站。本站致力于推广各种编程语言技.
www.runoob.com
中国社会公益网
陕西省社会公益基金会是经陕西省民政厅批准的公募基金会，下设秘书处、公益项目部、筹款募捐部、宣传策划部、社会活动部、专项基金部、资金管理部、公关联络部、青年志愿者工作委员会、青年志愿者爱心乐团等部门机构
www.cpf.net.cn
CNMO科技新媒体
CNMO=Connect More,致力于通过内容成为人与科技、人与产品、人与品牌、人与服务对接的桥梁,让产业、产品的价值与服务得到专业且有趣的解读和适配,引领用户畅享科技带来的美好生活!
www.cnmo.com
国外主机测评
国外主机测评，国外VPS、云服务器，国外服务器，国外主机的相关优惠信息、商家背景、网络带宽、线路走法、售前和售后技术支持等，是目前最好的一家国外主机评测平台。
www.zhujiceping.com

北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人

推荐文章

推荐站点