不用RLHF,匹敌GPT-4,Meta发布LIMA65B,1000个样本

来源:IT之家   阅读量:7002   

RLHF 并没有那么重要!Meta 最新 650 亿参数模型 LIMA,仅用 1000 个样本,实现与 GPT-4 相匹敌的性能。

人人都知,让 ChatGPT 称霸天下的秘密武器,就是人类反馈强化学习。

而现在,Meta AI 等机构的爆火研究 LIMA 直接打破这一规则,直言 RLHF 并没有那么重要!

论文一出,直接在 AI 圈炸了锅!

就连 LeCun 忍不住发推炫一番:LIMA:LLaMa-65B+1000 监督样本 = GPT-4 / Bard 级别的性能。

正如标题所称,LIMA 是「Less is More for Alignment」,暗示着一个强大的预训练 AI 模型,通过几个样本就足以实现高质量的结果。

而 LIMA 仅在 1000 个精心挑选的样本上微调 LLaMa-65B,而且无需 RLHF,就实现了与 GPT-4 和 Bard 相媲美的性能。

论文中,研究人员将这一突破称为「表面对齐假设」。

实验证明了,大语言模型在预训练阶段就已习得大部分知识,仅用有限的指令微调数据,足以教会模型产生高质量的内容。

高质量的数据就可以克服小样本量?训练这样模型的成本是多少,这是否意味着小型 LLM 玩家可以与 OpenAI / 谷歌竞争?

还有网友质疑,GPT-4 在 57% 情况中击败 LIMA,还能说性能相当?

RLHF 并非王者?

大语言模型经过预训练,能在大规模上预测下一个 token,让其学习通用表征。这些表征可以转移到几乎任何语言理解或生成任务中。

为了实现这种转移,人们已经提出各种「对齐」语言模型的方法,主要侧重在百万级 token 上进行指令调优。

而最近采用较多的是,从人类反馈中进行强化学习。这些反馈便是在与人类标注者进行数百万次互动中收集的。

ChatGPT 令人深刻的表现,主要归功于 RLHF。根据 OpenAI 的思路,RLHF 分为三步。

然而,现有的对齐方法代价是高昂的,需要大量算力,以及专门的数据才能实现像 ChatGPT 一样的性能。

Meta AI 却要逆行其道,证明了,一个预训练语言模型可以通过简单地微调精心挑选的 1000 个样本,就能实现强大的性能。

在此,研究人员提出「表面对齐假设」,假设「对齐」可以是一个简单的过程,。

在这个过程中,模型的知识和能力几乎完全是在预训练期间学习的,而「对齐」只告诉模型学习与用户交互的风格或格式

为了验证这个假设,Meta 等研究者挑选了 1000 个近似于真实用户提示,以及高质量响应的样本。

此外,研究者手动编写了 250 个提示和响应的样本,同时对任务的多样性进行了优化。

最后,研究人员对预训练 LLaMa 65B 模型在 1000 个样本集上进行微调,并进行了人类评估。

评估结果

Meta 将 LIMA 与 5 个模型基准进行了比较:

Alpaca 65B—— 利用 52,000 个样本对 LLaMa 65B 微调后得到的大模型

DaVinci003—— 基于 RLHF 训练的大语言模型

Bard—— 基于谷歌的 PaLM 模型

Claude—— 通过强化学习 Constitutional AI 训练的 52B 参数模型

GPT-4—— 目前使用 RLHF 训练的最强的模型

为了比较 LIMA 和其他 SOTA 模型,Meta 为每个测试提示生成一个单一的响应。

然后,要求人类参与者将 LIMA 的输出与每个基准进行比较,并标记他们更喜欢哪一个。

在人类偏好研究中,尽管 Alpaca 65B 的训练数据量是 LIMA 的 52 倍,但它产生的输出往往比 LIMA 的不如人意。

让人大跌眼镜的是,DaVinci003 也是同样的情况,虽然程度较小。该模型使用了 RLHF 进行训练,这本应是一种更优越的对齐方法。

而 Bard 在 42% 的时间中,其产生的回答优于 LIMA。这也意味着,剩下的 58% 时间里,LIMA 的响应至少和 Bard 一样优秀。

最后,研究者发现,虽然 Claude 和 GPT-4 通常表现得比 LIMA 更好,但在一些情况下,LIMA 实际上能产生更好的回答。

另外,讽刺的是,在 GPT-4 的偏好研究中,有 19% 的时间,GPT-4 更喜欢 LIMA 的输出。

「表面对齐假设」

Meta 将这一发现定义为「表面对齐假设」。

它表明,所谓预训练后的对齐阶段,主要是让模型学会一种特定的风格或格式,这种风格或格式在与用户交互时可以被模型回忆起来。

因此,「微调」更多是关于风格,而不是实质。

LIMA 的结果表明,实际上,利用简单的方法就可以解决对齐和微调 AI 模型这类复杂问题。

这与诸如 OpenAI 的 RLHF 那些,特别繁琐和复杂的微调过程,形成了鲜明的对比。

不过,LIMA 也不是万能的。Meta 认为,该方法存在两个明显的局限:

第一,用高质量的示例构建数据集是一种非常具有挑战性的方法,很难扩展。

第二,LIMA 并不像已经有产品的模型那样强大,比如 GPT-4。

团队表示,虽然 LIMA 的生成结果,在大部分情况下质量都很高。但一个「对抗性的提示」或一个「不走运的样本」,依然会让模型产生不理想的答案。

Yann LeCun 对 GPT-4 和类似模型背后努力的相对贬值采取了务实的看法。

他将大型语言模型看作是近期的一个元素,至少在中期内不会「在没有重大变化」的情况下发挥作用。

以上,主要评估是根据最先进的模型对 LIMA 进行评估,但需要明确的是,其中一些模型实际上已经在训练期间使用了数百万真实用户的提示。

对此,研究人员通过手动分析 50 个随机示例来进行绝对的评估。

并将每个示例标记成 3 个类别:Fail,响应不符合提示符的要求;Pass,响应符合;Excellent,对提示提供了优秀的响应。

实验结果显示,50% 的 LIMA 回答被认为是优秀的,它能够遵循所有的 50 个分析提示中的 44 个。

如下,LIMA 针对育儿建议和生成食谱的示例进行的输出。

另外,一个仅在 1000 个样本上微调的模型在多轮对话中表现又如何?

在零样本上,LIMA 的响应出奇地连贯,并引用了前面对话的信息。在 10 次对话中,LIMA 有 3 次未能遵循提示。

为了提高对话能力,研究人员收集了 30 个多轮对话。其中 10 个是由作者手动编写,20 个来自 Stack Exchange,并根据助手风格进行编辑。

研究者使用组合的 1,030 个示例对预训练模型进行微调,得到一个新版本的 LIMA,并针对相同的提示进行了 10 次实时对话。

实验发现加入这 30 个示例后生成质量显著提升,优质响应比例从 45.2%提高到 76.1%!

LIMA 如何以「少」胜「多」

团队通过消融实验,研究了训练数据多样性、质量和数量的影响。

Meta 发现,为了对齐目的,提高输入多样性和输出质量有可测量的正面效应,而单独增加数量却没有。

实验设置

团队在各种数据集上微调了一个拥有 70 亿参数的 LLaMa 模型,并控制了相同的超参数。

团队对每个测试集提示抽取 5 个回应,并通过让 ChatGPT在 1-6 的 Likert 量表上评级回应的帮助性来评估回应质量。

多样性

为了测试提示多样性的影响,同时控制质量和数量,团队比较了在质量过滤后的 Stack Exchange 数据和 wikiHow 数据上的训练效果。

图 5 显示,更多样的 Stack Exchange 数据显著提升了模型的性能。

质量

为了测试响应质量的影响,团队从 Stack Exchange 抽取了 2000 个没有任何质量或风格过滤的示例,并比较了在这个数据集和过滤后的数据集上训练的模型。

图 5 显示,在过滤和未过滤的数据源上训练的模型之间存在着 0.5 点的差异。

数量

在众多机器学习设置中,都会采用增加示例数量的策略,来提升性能。

为了测试其影响,团队从 Stack Exchange 中抽取了呈指数增长的训练集。

但实际上,如图 6 所示,数据翻倍的训练集并未改善响应质量。

如此一来也暗示了,对齐的规模法则不必然只受数量影响,而更可能是在保持高质量响应的同时,提升提示的多样性。

作者介绍

Chunting Zhou 是 Meta AI 的一名研究科学家。

2022 年 5 月,她在卡内基梅隆大学语言技术研究所获得博士学位,在那里从事自然语言处理工作,导师是 Graham Neubig。Zhou 的主要研究兴趣在于自然语言处理和机器学习的交叉领域,并对开发对分布变化具有鲁棒性的方法感兴趣,目的是学习模型能够在各种群体中表现统一。

此外,Zhou 还研究生成模型,及其在自然语言处理任务中的应用。

参考资料:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。