当前位置: 首页 > 科技赋能

两行代码解决大语言模型对话的局限性!香港中文贾佳亚团队联合MIT发布超长文本扩展技术

时间:2024-05-19 15:58:22 科技赋能

迷失在中间,模型偷懒,上下文越大,模型越笨……如果体验过大型语言模型产品的用户,会对文本输入的长度有一些担忧。

例如,当你想与大模型讨论一些稍长的内容时,你需要对输入进行分割,而之前输入的关键点很快就会被大模型遗忘。

这是大语言模型中典型的对话缺陷,就像一个天生注意力缺陷的孩子,很难集中注意力阅读一本新书。

关键缺陷在于模型缺乏长文本处理能力。

如今,在方向上的这篇突破性长文中,又有了新的研究成果。

近日,贾佳亚团队联合麻省理工学院发布的新技术、新模型悄然出现在各大开源网站的热榜上:huggingface位居热榜第一,paperwithcode位列第一,Github在所有python项目中排名第五,而github star一周突破1000。

,Twitter 相关技术帖子浏览量近 18 万... github star 已达 1.3k Twitter 相关技术帖子浏览量近 18 万。

这项名为 LongLoRA 的技术很实用,但非常简单:只需要??两行代码和一台 8 卡 A 机,就可以将 7B 模型的文本长度扩展到 k 个令牌,而 70B 的文本长度模型可扩展至32k个代币;同时,研究团队还发布了第一个70B参数的长文本。

对话大语言模型LongAlpaca。

代码及Demo地址:70B长文本大语言模型发布LongLoRA首次解决了全局大语言模型的会话性缺点。

从此,几十页的论文、上百页的报告、庞大的著作不再成为大问题。

模型盲点。

它代表了业界对长文本大语言模型的重新思考和关注。

它有效地扩展了大型语言模型的上下文窗口,并允许模型考虑和处理更长的文本序列。

它是大语言模型的创新发明。

除了技术创新之外,大语言模型处理长文本问题的一大难点是缺乏公开的长文本对话数据。

为此,研究团队专门收集了9k长文本问答语料对,包括名著、论文、深度报告甚至财务报表的各类问答。

仅仅能够回答长问题是不够的。

团队还选取了3k短问答语料库和9K长问答语料库进行混合训练,让长文本大模型也能具备短文本对话能力。

完整的数据集称为 LongAlpaca-12k,现已开源。

研究团队基于LongAlpaca-12k数据集,对不同参数大小7B、13B、70B进行了训练和评估。

开源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。

阅读小说、修改论文、提供经济建议都是全能的。

话不多说,我们盲选几个demo,来看看应用LongLoRA技术、叠加12K问答语料库的大模型LongAlpaca的效果。

让系统阅读一篇新论文并根据ICLR的审稿指南对其进行修改,从而提高论文的接受率。

LongAlpaca的意见是:通过更精准地阐明新颖性,提供更严谨、更具对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来的发展方向,重点呈现关键贡献和影响,你的论文被接受的机会将会增加。

得到改善。

现在,让系统阅读两篇新的、不同的论文,并让 LongAlpaca 总结一下两个会议 ICLR 和 CVPR 之间的文体差异。

LongAlpaca 总结道,CVPR 论文在风格上更倾向于结构化和实验性,注重实用性和技术。

ICLR的论文风格更加灵活,注重关键理论分析和数学推导,而不是标准格式。

可以看出,训练后的LongAlpaca模型可以轻松接受新的长学术论文,并且在回答学术相关问题时相当准确。

接下来我们就来看看LongAlpaca模型在阅读理解门槛较高的经济领域的解读表现。

根据国际货币基金组织2010年至2018年全球经济展望综述收集,逐年总结经济形势,并对未来经济走势进行预测。

LongAlpaca告诉我们,2020年全球经济形势存在不确定性,增速预计较去年放缓;未来几年,全球经济增速温和且低于预期,但地缘政治紧张、金融市场波动等重大挑战依然存在,需要通过多边合作和结构性改革谨慎应对。

LongAlpaca还可以阅读新小说,并在阅读后分析内容。

下面选取的对比模型是参数为13B的LongAlpaca和Llama2,我们来看看它们各自的表现。

名著《西游记》中,为何孙悟空在天宫肆虐时如此强大,却在取经路上屡屡受挫?龙羊驼给出了5个理由,可以概括为“孙悟空的不成熟、对手的强大、实力的限制、敌人的欺骗以及最初缺乏同伴,导致了他旅途的失败。

”但随着时间的推移,他获得了智慧、经验和战友,使他能够击败最强大的敌人。

” Llama2 的答案更简单。

“虽然他确实祸害了天宫,但说他代表不败之力也不一定准确,事实上,他最终还是被西游记中强大的唐三藏打败了。

” Llama2没有给出正确答案,还要求需要更多内容信息。

这次让系统再读一次《三体》,然后问叶文杰为什么在第一部里接触了外星人,为什么后来又后悔了?龙羊驼认为,叶文洁最初是出于理想主义和复仇而接触外星人,但随着时间的推移,她对人类的看法发生了变化,她意识到自己能给全人类带来的危险,她的悔恨与日俱增。

答案非常明确。

Llama2的回答是:“通过与外星人的互动,她希望能够更深入地了解宇宙的本质以及她在宇宙中的位置。

叶文洁逐渐意识到外星人及其技术无法解决问题。

她的问题得到了笼统的回答。

”方式,然后她开始对小说进行整体评论,但她没有回答问题,从模型给出的答案中我们可以发现,一些模型如Llama2[2]可能在期间看过相关小说。

预训练过程中,但如果他们只根据小说的标题提出简短的文本问题,答案并不理想。

比较两个模型的答案,你可以立即看出LongAlpaca是复习学术的高手。

论文、评论全球经济趋势、阅读小说,两行代码和三个关键结论大幅击败Llama2,Llama2可以说是AI社区最强大的开源大型模型之一。

它引领行业,LongAlpaca 实际上可以获胜。

其背后的LongLoRA技术成功引起了网友的关注。

它是怎么做到的?事实证明,当大型语言模型处理长文本时,主要的计算成本集中在自注意力机制上,并且其成本随着文本的长度成正比增加。

针对这一问题,研究团队提出了LongLoRA技术,利用分组和偏移的方法来模拟全局自注意力机制。

简单来说,就是将长文本对应的token分成不同的组,在每个组内进行自注意力计算,通过不同的注意力头来抵消分组方式。

该方法不仅可以大大节省计算量,而且可以保持全局感受野的传输。

这个实现方法也非常简单,只需要两行代码就可以完成! LongLoRA还探索了低秩训练方法。

原有的低秩训练方法,如LoRA[5],在文本长度迁移方面无法取得良好的效果。

LongLoRA在低秩训练的基础上,引入嵌入层(Embedding层和Normalization层)进行微调,从而达到接近全参数微调(Fullfine-tune)的效果。

在进行不同长度的文本扩展和训练时,可以从三个维度看到LongLoRA、LoRA和全参数微调的具体效果:在困惑度-困惑度方面,原始LoRA方法的性能不断恶化,而LongLoRA和全参数微调可以在各种文本长度下保持良好的效果;在显存消耗方面,与全参数微调相比,LongLoRA和原始LoRA都节省了很多。

例如,对于长度为8k的模型训练,LongLoRA相比全参数微调,将内存消耗从46.3GB降低到25.6GB;训练时间方面,对于长度为64k的模型训练,与传统LoRA相比,LongLoRA减少了训练时间。

从约90~小时下降到52.4小时,而全参数微调则超过了小时。

极简的训练方法、最少的计算资源和时间消耗以及出色的精度,使得LongLoRA的大规模推广成为可能。

目前相关技术和模型均已开源,感兴趣的用户可以自行部署体验。

值得一提的是,这是继8月9日发布“能分一切”的大型多模联运车型LISA之后,贾佳亚团队的又一力作,相隔仅2个月。

帐户[1] LLaMA 团队。

呼吁:开放高效的基础语言模型。

存档,.1,a.[2]呼叫 2 团队。

Flame 2:开放的基础和微调的聊天模型。

档案,.8,b.[3]陈寿元、Sherman Wong、陈亮建和田远东。

通过位置插值扩展大型语言模型的上下文窗口。

存档,.5,.[4] Szymon Tworkowski、Konrad Staniszewski、Mikolaj Pacek、Yuhuai Wu、Henryk Michalewski 和 Piotr Milos。

聚焦变压器:上下文缩放的对比训练。

Arxiv, .0, .[5] Edward J. Hu、Yelong Shen、Phillip Wallis、Zeyuan Allen-Zhu、Yuanzhi Li、Shean Wang、Lu Wang 和 Weizhu Chen。

Lora:大型语言模型的低阶适应。