Meta首发“变色龙”挑战GPT-4o34B参数引领多模态革命10万亿token

当前位置： > 凯时运营商 >

2024-05-26 05:53作者:admin

　　【新智元导读】GPT-4o发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10万亿token训练的34B参数模型性能接近GPT-4V，刷新SOTA。

　　OpenAI将其称为「首个『原生』多模态」模型，意味着GPT-4o与以往所有的模型，都不尽相同。

　　传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分离开。

　　官博介绍，GPT-4o是「首个端到端」训练的，跨越文本、视觉和音频的模型，所有的输入和输出，都由单个神经网络处理。

　　最近，来自Meta团队的研究人员发布了「混合模态基座模型」——Chameleon（变色龙）。

　　与GPT-4o一样，Chameleon采用了统一的Transformer架构，使用文本、图像和代码混合模态完成训练。

　　以类似文本生成的方式，对图像进行离散「分词化」（tokenization），最终生成和推理交错的文本和图像序列。

　　这种「早期融合」的方法，所有的pipeline从一开始就被映射到一个共同的表示空间，因此模型可以无缝处理文本和图像。

　　结果表明，在纯文本任务中，340亿参数Chameleon（用10万亿多模态token训练）的性能和Gemini-Pro相当。

　　不过，不论是GPT-4o，还是Chameleon，都是新一代「原生」端到端的多模态基础模型早期探索。

　　GTC 2024大会上，老黄描述了迈向AGI最终愿景的重要一步——各种模态互通有无。

　　甚至还有人称，在GPT-4o诞生之后发布的非常扎实的研究，OOS将迎头赶上。

　　不过，目前Chameleon模型支持生成的模态，主要是图像文本。缺少了GPT-4o中的语音能力。

　　网友称，然后只需添加另一种模态（音频），扩大训练数据集，「烹饪」一段时间，我们就会得到GPT-4o...?

　　Meta的产品管理总监称，「我非常自豪能够给予这个团队支持。让我们朝着让GPT-4o更接近开源社区的方向迈进一步」。

　　Meta在Chameleon的论文中首先表示：很多新近发布的模型依旧没有将「多模态」贯彻到底。

　　这些模型虽然采用了端到端的训练方式，但仍然单独对不同模态进行建模，使用分开的编码器或解码器。

　　如开头所述，这种做法限制了模型跨模态信息的能力，也难以生成包含任意形式信息的、真正的多模态文档。

　　为了改进这种缺陷，Meta提出了一系列「混合模态」的基座模型Chameleon——能够生成文本和图像内容任意交织在一起的内容。

　　所谓「混合模态」基座模型，指Chameleon不仅使用了端到端的方式从头开始训练，而且训练时将所有模态的信息交织混合在一起，并使用统一的架构处理。

　　只要全部表示为token，就可以把所有所有模态的信息映射到同一个向量空间中，让Transformer无缝处理。

　　为了解决这些问题，论文相应地对模型架构进行创新，并使用了一些训练技巧，包括QK归一化和Zloss等。

　　为此，Chameleon的团队在Meta之前一篇论文的基础上开发了一种新的图像分词器，基于大小为8192的codebook，将规格为512×512的图像编码为1024个离散的token。

　　文字分词器则基于谷歌开发的sentencepiece开源库，训练了一个同时含有65536个文本token与8192个图像token的BPE分词器。

　　为了彻底激发「混合模态」的潜力，训练数据也是将不同模态打散、混合呈现给模型的，既有纯文本、文本-图像对，也有文本、图像交错出现的多模态文档。

　　纯文本数据囊括了Llama 2和CodeLlama所使用的所有预训练数据，共计2.9万亿个token。

　　对于文本和图像交错的数据，论文特意强调没有包含来自Meta产品的数据，完全使用公开数据来源，整理出共4000亿个token。

　　Chameleon的预训练分两个单独的阶段进行，分别占总训练比例的80%和20%。

　　训练的第一阶段就是让模型以无监督的方式学习以上数据，第二阶段开始时，先将第一阶段得到的权重降低50%，并混合更高质量的数据让模型继续学习。

　　在模型扩展到超过8B参数和1T token时，训练后期会产生明显的不稳定问题。

　　由于所有模态共享模型权重，每个模态似乎都有增加norm的倾向，与其他模态「竞争」。

　　这在训练初期不会产生太大的问题，但随着训练的进行、数据超出bf16的表达范围时，就会有loss发散的现象。

　　研究人员将其归因于softmax函数所具有的平移不变性，这种现象在单模态模型中也被称为「logit 漂移」（logit drift）。

　　硬件型号为80GB内存的英伟达A100，7B版本并行使用1024个GPU训练了约86万个GPU小时，34B模型所用的GPU数量则扩大了3倍，GPU小时数超过428万。

　　作为曾经开源Llama 2的公司，Meta的研究团队确实大方，相比连技术报告都没有的GPT-4o，这篇有数据有干货的论文可谓「仁至义尽」。

　　Chameleon-34B使用了比Llama 2多四倍的token进行训练后，在各种单模态的基准测试中都取得了惊艳的效果。

　　在纯文本任务生成中，研究人员将预训练（非SFT）模型的纯文本功能与其他领先的纯文本LLM进行比较。

　　评估内容包括，常识推理、阅读理解、数学问题和世界知识领域，评估结果如下表所示。

　　尽管进行了其他模态的训练，但两个Chameleon模型都表现出很强的数学能力。

　　同时，为了进一步评估模型生成多模态内容的质量，论文也在基准测试之外引入了人类评估实验，发现Chameleon-34B的表现远远超过了Gemini Pro和GPT-4V。

　　下图展示了，对于一组多样化的、来自人类标注者的prompt，Chameleon与基线模型在理解和生成内容方面的性能对比。

　　为了了解人类标注者的质量，以及问题的设计是否合理，研究人员还检查了不同标注者之间的一致性程度。

　　表5是对20,000个众包提示和445个红队交互进行的安全测试，引发模型产生不安全内容。

　　与Gemini和GPT-4V相比，Chameleon在处理需要交错、混合模态响应的提示时，非常有竞争力。

　　从示例中可以看到，在完成问答任务时，Chameleon既能理解输入的文本+图像，也能为模型输出内容加上合适的「配图」。

　　并且，Chameleon生成的图像通常与上下文相关，这样一来，这种交错内容的输出对用户来说，极具吸引力。

　　其中，*表示共同一作，†表示关键贡献者，‡表示工作流程负责人，♯表示项目负责人。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

(责任编辑：admin)

上一篇：中国移动千亿多模态大模型发布「九天-九九」风趣畅聊堪比GPT-4o
下一篇：我国国际重要湿地生态保护成效显著

栏目导航

联系我们

010-88888888

8888@8888.cn

<a href='http://www.169city.com/'></a> > <a href='/3vo5ja1j/'>凯时运营商</a> >