这篇论文的标题是《Chain-of-Thought Reasoning Without Prompting》,作者是Xuezhi Wang和Denny Zhou,来自Google DeepMind。论文探讨了如何提高大型语言模型(LLMs)的推理能力,特别是在没有特定提示(prompting)的情况下。研究者们发现,通过简单地改变解码过程,可以从预训练的LLMs中引出链式推理(Chain-of-Thought,CoT)路径。这种方法不仅避免了提示的复杂性,还允许评估LLMs的内在推理能力。此外,研究者们观察到,当解码路径中存在CoT时,模型对其解码答案的信心更高。这种信心度量有效地区分了CoT和非CoT路径。在各种推理基准测试上的广泛实验表明,所提出的CoT解码方法在性能上显著优于标准的贪婪解码。 研究的主要贡献包括: 1. 发现预训练语言模型在解码过程中自然地生成CoT推理路径,而不是依赖贪婪解码。这与之前专注于改进提示以提高推理能力的研究形成对比,表明仅通过改变解码策略就可以有效地引出模型的推理能力。 2. 提出了CoT解码方法,利用模型在解码路径中存在CoT时的增加信心,选择更可靠的解码路径,从而在各种推理基准测试中显著提高了性能。 3. 在实验中,CoT解码方法在数学推理、自然语言推理和符号推理任务上都显示出了有效性,尤其是在模型预训练数据中频繁出现的任务上。在复杂和合成任务中,高级提示可能仍然需要触发那些推理路径。 论文还讨论了CoT解码在不同模型家族(如PaLM-2和Mistral-7B)上的应用,并与现有的CoT提示方法进行了比较。结果表明,CoT解码方法在某些任务上的性能与少量CoT提示相似,表明模型在这些任务上具有内在的解决能力。此外,CoT解码方法在生成CoT时表现出更自由的形式,这可能归因于在初始解码步骤中鼓励多样性和缺乏明确提示的约束。 最后,论文提出了未来的研究方向,包括利用CoT解码路径来微调模型以增强其推理能力,以及探索在解码过程中的任何令牌上进行分支以寻找最佳路径。 在增强大型语言模型(LLMs)的推理能力方面,先前的研究主要集中在特定的提示技术,如少量样本(few-shot)或零样本(zero-shot)链式思维(CoT)提示。这些方法虽然有效,但通常涉及大量的手动提示工程。我们的研究采取了一种新的方法,提出了一个问题:LLMs能否在没有提示的情况下有效推理?我们的发现揭示了一个有趣的现象,即通过简单地改变解码过程,可以从预训练的LLMs中引出CoT推理路径。我们不是采用传统的贪婪解码,而是研究了前𝑘个备选标记,发现CoT路径经常存在于这些序列中。这种方法不仅绕过了提示的混淆因素,还允许我们评估LLMs的内在推理能力。此外,我们观察到,解码路径中存在CoT与模型解码答案的更高置信度相关。这种置信度度量有效地区分了CoT和非CoT路径。在各种推理基准上的广泛实证研究表明,我们提出的CoT解码方法显著优于标准的贪婪解码。 1. 引言 大型语言模型(LLMs)在各种复杂的推理基准上展示了卓越的性能(Anil等人,2023;Brown等人,2020;Chowdhery等人,2023;Gemini,2023;OpenAI,2023;Romera-Paredes等人,2023)。LLMs的这些推理能力通常通过提示技术来引出(Brown等人,2020),可以是少量样本提示,通过增加中间步骤的示范示例(Chen等人,2023b;Gao等人,2022;Nye等人,2021;Wei等人,2022;Yao等人,2023;Zhou等人,2023a),或者是零样本提示,通过特定的指令要求展示某些中间步骤(Kojima等人,2022;Yasunaga等人,2023)。引出LLM推理的另一种流行策略是通过使用大量CoT推理数据进行模型训练或指令调整(Chung等人,2022;Cobbe等人,2021b;Ling等人,2017;Nye等人,2021)。 在这项工作中,我们旨在通过探索不同的视角来引出LLMs的推理能力,并提出问题:LLMs能否在没有提示的情况下有效推理?以及它们能推理到什么程度?我们发现,也许令人惊讶的是,存在一种任务无关的方式来引出预训练LLMs的CoT推理,只需简单地改变解码过程。图1展示了我们的新解码方法:给定一个推理问题,LLM通过标准的贪婪解码路径生成了一个错误答案,然而在前𝑘个备选标记的检查中揭示了固有的CoT路径(例如,解码路径2和4),这些路径准确地解决了问题。这种解码修改绕过了CoT提示,完全是无监督的,无需模型调整。 更详细地说,我们使用标准的问答(QA)格式来构建输入:“Q:[问题]\nA:"。虽然大多数现有研究表明LLMs在这种直接QA场景下的推理表现不佳(Cobbe等人,2021a;Kojima等人,2022;Nye等人,2021;Wei等人,2022),但我们的发现揭示了一个微妙的画面。我们观察到,当仅依赖贪婪解码路径时,LLMs确实在推理上挣扎。然而,当我们考虑前𝑘个备选标记中的替代路径时,CoT推理模式自然地出现在LLMs的解码轨迹中。此外,我们发现... (注:原文中有一些格式问题,如"A:"后面没有跟随答案,这可能是文档格式转换时的错误。在翻译中,我尽量保持了原文的格式和内容。) 链式思考推理无需提示 问题:我有3个苹果,我爸爸比我多2个苹果, 我们总共有多少个苹果? A: 语言模型 解码步骤0 顶部-1:5 顶部-2:我 顶部-3:我们 顶部-4:你 顶部-5:继续贪婪解码 5个苹果 我有3个苹果,我爸爸比我多2个苹果,所以他有5个苹果。3+5=8。我们总共有8个苹果。 我们有5个苹果。 你有3个苹果,你爸爸比你多2个苹果, 所以他有5个苹果。3+5=8。你总共有8个苹果。 答案是5。 不确定 确定 问题以标准问答格式 图1| CoT解码的说明。预训练的大型语言模型(LLMs)能够在不考虑提示的情况下,通过考虑备选的顶部𝑘个标记,而不是仅仅依赖于顶部-1贪婪解码路径,进行内在推理。此外,这些模型在解码过程中存在CoT推理路径时,倾向于在最终答案上显示出更高的信心(由更深的颜色阴影表示)。正如图1所示,这在路径2和4中表现得尤为明显,它们在得出正确答案“8”时显示出更高的确定性,与导致错误答案“5”的路径形成鲜明对比。利用这一现象,我们开发了一种筛选顶部𝑘解码路径的方法,我们称之为CoT解码,从而隔离出模型输出的最可靠路径。 CoT解码提供了一种无需明确提示就能从预训练LLMs中引出推理能力的方法。此外,它绕过了提示引入的混淆因素,使得对模型内在推理能力的评估更为准确。在我们的实验中,我们展示了CoT解码在解码过程中自发地揭示CoT推理路径,显著提高了模型在各种基准测试中的推理能力,超过了贪婪解码。我们还观察到,这些路径在预训练数据中经常出现的任务中更为普遍,在复杂、合成任务中则较少,这些任务可能仍需要高级提示来触发推理路径。这与(McCoy等人,2023年;Prystawski等人,2023年;Razeghi等人,2022年)的研究结果一致。我们还观察到,在这种情况下,少量CoT示范在指导模型解决任务方面发挥了更大的“教学”作用,模型主要模仿这些提示的格式来生成准确的推理路径。 我们的贡献总结如下: •我们的研究揭示了预训练语言模型内在具备推理能力,这体现在在解码过程中考虑备选顶部标记时生成CoT推理路径,而不是依赖于贪婪解码。这一发现与之前专注于改进推理提示的研究形成对比,强调仅仅改变解码策略就能有效地引出模型推理。 •我们发现,当CoT出现在其解码路径中时,语言模型对其最终答案的信心会增加。利用这种增加的信心,我们提出了CoT解码来选择更可靠的解码路径,在各种推理基准测试中展示了显著优于贪婪解码的改进。 "链式思维推理无提示解码 2. 链式思维(CoT)解码 2.1 解码过程中CoT路径的存在 我们研究预训练语言模型在解码过程中是否固有地展现出链式思维推理,而无需明确的提示。在表1中,我们展示了在多样化的推理任务中,包括数学(GSM8K,Cobbe等人(2021a))、常识(年份奇偶性,Allen-Zhu和Li(2023))和符号推理(硬币翻转,Wei等人(2022))的示例解码路径。我们使用预训练的PaLM-2大型模型(Anil等人,2023)来比较其标准贪婪解码路径(𝑘=0),这是当前最先进LLMs(大型语言模型)用于推理任务的主要方法,与替代解码路径(𝑘>0)之间的差异,其中𝑘代表在第一次解码步骤中选择的第𝑘个标记。 [GSM8K] Kylar去商店为他的新公寓买玻璃。一个玻璃杯的价格是5美元,但每第二个玻璃杯的价格只有第一个的60%。Kylar想买16个玻璃杯。他需要支付多少钱? 贪婪路径: 𝑘=0: 60.00美元(0.029) 替代的顶级𝑘路径: 𝑘=1: 60美元(0.058) 𝑘=2: Kylar需要支付60美元购买16个玻璃杯。(0.058) ... 𝑘=7: 如果Kylar购买16个玻璃杯,他将支付60美元。(0.032) 𝑘=9: 我们可以通过将一个玻璃杯的价格乘以16来计算16个玻璃杯的价格。然而,我们需要记住,每第二个玻璃杯的价格只有原价的60%。因此,我们需要将一个玻璃杯的价格乘以16,然后减去8个玻璃杯价格的40%。16 x 5 = 80,8 x 5 = 40,40 x 0.4 = 16,80 - 16 = 64。Kylar需要支付64美元购买16个玻璃杯。(0.994) [年份奇偶性] Nicolas Cage是在偶数年还是奇数年出生的? 贪婪路径: 𝑘=0: Nicolas Cage是在奇数年出生的。(0.117) 替代的顶级𝑘路径: 𝑘=1: 偶数(0.207) 𝑘=2: 奇数(0.198) 𝑘=3: 1964年,一个偶数年。(0.949) 𝑘=4: 他是在偶数年出生的。(0.0) ... 𝑘=7: Cage是在1964年,一个偶数年出生的。(0.978) [硬币翻转] 一枚硬币正面朝上。Fletcher翻转了硬币。Conception也翻转了硬币。硬币还是正面朝上吗? 贪婪路径: 𝑘=0: 不。(0.056) 替代的顶级𝑘路径: 𝑘=1: 是。(0.029) 🝑=2: 硬币是正面朝上。→是(0.340) 𝑘=3: 硬币100%是正面朝上。→是(0.427) 🝑=4: Fletcher翻转了硬币。硬币现在是反面朝上。Conception翻转了硬币。硬币现在是正面朝上。 →是(0.507) 𝑘=5: 不是。→不(0.183) 表1 | 在PaLM-2大型模型上,贪婪解码路径和替代顶级𝑘路径的示例,跨越各种任务。模型的置信度分数以蓝色突出显示(详见§2.2)。 在检查推理问题时,我们观察到使用贪婪解码的模型通常不包含CoT路径,而是直接解决问题。这种倾向可能源于模型对问题难度的扭曲感知,这种感知是由其在主要处理更简单问题上的预训练塑造的。因此,模型倾向于立即解决问题。这一观察与(Cobbe等人,2021a;Kojima等人,2022;Nye等人,2021;Wei等人,2022)的研究结果一致。" 无提示的链式思考推理 这表明直接回答提示通常在推理任务上的准确率较低。相比之下,当探索第一步解码后的替代前𝑘(𝑘>0)个标记时,出现了一个有趣的现象。从这一点继续贪婪解码,在许多情况下揭示了自然的链式思考(CoT)推理。例如,在GSM8K问题(表1)中,有效的CoT在𝑘=9时出现。同样,在年份奇偶性任务中,贪婪解码在𝑘=0时试图直接回答奇偶性问题,导致在“偶数”和“奇数”之间随机选择,这通常会导致错误答案。然而,当探索𝑘>0时,模型在𝑘=3和𝑘=7时自然生成了CoT路径,其中它首先确定年份,然后解决奇偶性问题。 2.2. CoT解码以提取CoT路径 尽管链式思考路径自然发生,但从顶部𝑘解码路径中提取它们仍然是一个未解决的挑战。表1说明CoT路径并不总是一致地在模型的概率评估中优于非CoT路径。此外,它们通常并不代表所有路径中的主导答案,使得像自我一致性(Wang等人,2023a)这样的方法不适用。例如,在GSM8K问题中,与贪婪解码结果一致的普遍答案“60”,不能作为识别正确路径的可靠指标。 有趣的是,在检查模型的logits时,我们发现CoT路径的存在通常会导致对最终答案的更有信心的解码,其特征是顶部和次级标记之间的概率差异显著: Δ𝑘,answer =1 𝑛∑︁ 𝑥𝑡∈answer𝑝(𝑥1 𝑡|𝑥<𝑡)−𝑝(𝑥2 𝑡|𝑥<𝑡), 其中𝑥1 𝑡和𝑥2 𝑡分别代表第𝑡步解码路径𝑘中的前两个标记,根据𝑥𝑡是答案标记,从词汇表中选择具有最大后softmax概率的标记。模型对最终答案的整体信心通过为所有相关𝑥𝑡标记平均这些概率差异来近似,其中𝑛是答案标记的总数。例如,在表1中的GSM8K问题,给定答案“60”,我们对答案中的所有标记进行概率差异的平均,即“6”和“0”。 这种方法,称为CoT解码,旨在从语言模型的各种解码路径中提取这样的CoT路径。如表1所示,每条解码路径都标有相应的Δ值(答案标记加粗)。显然,具有CoT组件的路径表现出显著更高的Δ值,突显了模型的信心增加,与没有CoT的路径相比。 另一个启发式方法涉及根据解码路径的长度选择解码路径,其直觉是更长的解码路径更可能包含CoT。我们实证发现,这种启发式在数学推理问题上在一定程度上有效,但在推理任务的通用适用性,如年份奇偶性任务,是有限的(参考表1中的例子,模型的解码路径长度相当)。或者,可以使用模型的概率分数除以长度。这种方法同样引入了长度偏差,在概率紧密对齐时倾向于更长的解码路径。因此,在解码路径长度相似的推理任务中,其有效性会降低。 确定答案跨度。在模型响应中确定答案跨度有多种方法。一种直接的方法是在数学推理任务中提取最后一个数值值,或在基于集合的推理任务中提取最后选项作为答案,遵循Tülu评估(Ivison等人,2023;Liu等人,2024;Wang等人,2023b)。这种简单的方法在大多数情况下都有效,但可能会有例外。 链式思维推理在开放性回答中,如果正确答案后面跟着分散注意力的数字/选项,那么在没有提示的情况下,推理的精确度会降低。Kojima等人(2022年)提出了一种稍微更有原则的方法,即在模型输出后添加提示“所以答案是”,然后我们可以将这些续接与模型解码路径中的跨度对齐。这种对齐可以直接通过标记ID进行,而不需要将这些ID解码成字符串。这种技术非常灵活,适用于包括数学和自然语言推理在内的任务。重要的是,计算Δ(概率差异)时要在原始解码路径上进行,而不是在“所以答案是”之后,以避免由于错误推理而加强错误的概率。直观上,原始解码路径上的Δ代表了模型基于推理路径生成答案的信心,而“所以答案是”之后的Δ仅代表了从原始解码路径中检索答案的信心。 在答案更加开放的情况下,利用前两个标记的概率差异作为模型偏好一个答案的指标可能不够精确。如果答案选项明确定义,比如“是”或“否”,我们可以通过稍微修改Δ的计算方式,通过聚合“是”(以及等效选项如“Yes/YES”)上的概率质量,然后计算“是”和“否”上聚合质量的概率差异。虽然现有的工作(Burns等人,2023年)利用模型的激活空间来揭示潜在知识,但其适用性仅限于回答是非问题。我们希望未来的研究能够通过深入研究模型在更广泛、更开放的答案空间内的内部表示来解决这一局限性。 在其他解码步骤中分支。CoT(链式思维)解码考虑了第一个解码步骤中的替代标记。这引发了一个自然的问题:在后续解码步骤中进行分支是否可行?在图2中,我们通过考虑不同解码步骤中的替代标记,呈现了解码路径的定性分析,突出了后续解码步骤中考虑替代标记的影响。显然,早期分支,例如在第一个解码步骤,显著增强了潜在路径的多样性。相反,后期阶段的分支受到之前生成的标记的显著影响。例如,以标记“5”开始极大地降低了纠正错误路径的可能性。尽管如此,最优分支点可能因任务而异;在年数奇偶性任务中,例如,中途分支可以有效产生正确的CoT路径。 步骤0 最可能的第1个标记:5 最可能的第2个标记:I 最可能的第3个标记:We 最可能的第4个标记:You 最可能的第5个标记:The \n 有3个苹果,我爸爸... 我们总共有8个苹果。 不知道... 有5个苹果,因为... 有3个苹果,你的爸爸... 你有8个苹果。 不知道... 答案是5。 苹果是一个隐喻... 我有3个苹果,我爸爸比我多2个苹果, 我们总共有多少个苹果? 步骤1 步骤0 最可能的第1个标记:Nicolas 最可能的第2个标记:Even 最可能的第3个标记:Odd 最可能的第4个标记:1 最可能的第5个标记:He \n 。 一个偶数年。 偶数年。 55岁。尼古拉斯·凯奇是在偶数年还是奇数年出生? 步骤1 。 凯奇出生在... 出生在偶数年。 1964年,这是一个偶数年。 图2|我们通过考虑在不同解码步骤中的替代标记,呈现了解码路径的分析。任务相关的挑战出现:有时,模型在后期标记分支时难以从错误路径中恢复。对于某些任务,可能存在多个分支位置,所有这些都通向正确的推理路径。 无提示的链式思维推理 解码路径的聚合。由于我们考虑的是前𝑘个解码路径,一个自然的扩展是聚合所有这些路径的答案,类似于自洽性(Wang等人,2023a),但不使用CoT提示。这种聚合背后的理念是为了减轻对模型logits小差异的敏感性,特别是当仅依赖于最大Δ的路径时。表1中的例子显示,大多数答案不太可能是正确的。相反,我们提出了一种加权聚合方法,即我们取最大化 ˜Δ𝑎=Í𝑘Δ𝑘,𝑎 的答案,其中Δ𝑘,𝑎是第𝑘个解码路径,其答案为𝑎。我们发现采用这种方法增强了结果的稳定性,并在第3.3节中提供了进一步的分析。 在标准QA格式下的采样。CoT解码在整个解码路径上采用贪婪解码,除了第一个标记的分支。一个自然的问题是:采样能否实现类似的效果并揭示CoT推理路径?我们发现,尽管在少量CoT提示下采样工作得很好(Wang等人,2023a),但在模型以标准QA格式被查询时,它并没有表现出期望的行为。我们在GSM8K的前50个问题上进行了研究,并应用了温度采样(Ackley等人,1985;Ficler和Goldberg,2017),温度设为0.7,为每个问题采样10个响应,发现它比我们的CoT解码过程的样本效率低得多:不到30%的采样响应包含正确的CoT路径。在大多数情况下,模型倾向于直接给出答案,因为第一个标记是基于模型的概率分布进行采样的,这在很大程度上受到模型倾向于输出直接答案而不是采取不那么直接的路径的影响。此外,其余的标记是采样的,导致最终答案错误更频繁。例如,对于表1中的问题,温度采样产生的响应如“10个苹果”,“5个苹果”,“5”,没有一个包含正确的CoT路径。 3. 实验 我们在一系列推理基准测试中评估了CoT解码方法,展示了它在解码过程中成功恢复CoT推理路径的能力,而且不需要专门的提示。 实验设置。在所有实验中,模型的默认输入是标准的QA格式Q: [问题]\nA:,其中[问题]根据任务填入实际问题,我们要求模型在给定前缀的情况下继续生成。在解码过程中,我们默认使用𝑘=10作为第一个解码位置的前𝑘个备选标记。我们在第3.1节中展示了关于𝑘不同选择的消融研究。 模型。我们使用(1)不同规模的PaLM-2预训练模型家族(Anil等人,2023),从X-Small、Small、Medium到Large;以及(2)开源模型Mistral-7B(Jiang等人,2023)。我们的实验主要关注预训练模型,但我们也包括了指令调整模型(称为“inst-tuned”,或“IT”)的实验。 为了识别答案跨度,我们在Mistral模型上提取最后一个数字或可用选项(例如,对于年份奇偶任务,“even”或“odd”)。对于PaLM-2模型家族,我们在模型输出后添加提示“所以答案是”,并将原始解码路径中的延续对齐为答案。有关实验设置和答案解析的更多细节,请参见附录§C。 3.1 数学推理任务 我们使用以下数据集进行数学推理:小学数学问题(GSM8K;Cobbe等人,2021a)和来自(MultiArith;Roy和Roth,2015)的多步算术数据集。表2展示了在PaLM-2模型上的结果,表明CoT(Chain-of-Thought)解码显著增强了模型的推理能力,与贪婪解码方法相比,这一提升在所有模型规模上都保持一致。例如,在GSM8K上,与PaLM-2大型模型的贪婪解码相比,CoT解码实现了+26.7%的绝对准确率提升。此外,我们观察到CoT解码部分缩小了预训练模型与指令调整模型(例如,在大型模型上)之间的差距,这表明通过在预训练模型内部修改解码过程,也可以部分实现指令调整(Chung等人,2022)的效果。 值得注意的是,我们观察到CoT解码可以进一步改进指令调整模型。指令调整过程(Chung等人,2022)在微调过程中已经包含了丰富的CoT注释。因此,模型在处理推理任务时,预计会自然地生成CoT路径。然而,在分析具体示例时,我们发现即使在指令调整之后,模型偶尔仍然试图直接回答问题。 相比之下,CoT解码可以通过首先触发CoT来增强对替代路径的探索,从而更准确地解决问题。 PaLM-2 预训练模型 PaLM-2 指令调整模型 X-Small 小型 中型 大型 大型 GSM8K 贪婪解码 9.0 14.3 21.0 34.8 67.8 CoT解码 17.7(+8.7) 35.1(+20.8) 39.7(+18.7) 61.5(+26.7) 81.3(+13.5) MultiArith 贪婪解码 7.5 15.8 36.8 75.0 93.7 CoT解码 34.8(+27.3) 43.5(+27.7) 52.5(+15.7) 86.7(+11.7) 98.7(+5.0) 表2 | 在不同规模的PaLM-2模型家族上,数学推理任务的准确率。 缩放结果和𝑘的选择 在图3中,我们展示了选择𝑘(表示考虑的前𝑘个替代标记的数量)如何影响整体准确率。总的来说,我们发现较高的𝑘值通常会导致模型性能的提升,这表明在许多情况下,正确的CoT路径确实存在,但在模型解码时往往排名较低。对于指令调整模型,𝑘的效果不那么显著,这表明指令调整过程有效地将大多数CoT路径带到了前几条解码路径。 图3 | 在GSM8K数据集上,PaLM-2模型家族的准确率,根据解码中使用了多少个前𝑘标记。 "无提示的链式思维推理 3.2 自然语言推理任务 我们研究了“年份奇偶性”任务,近期文献发现即使是最先进的大型语言模型在这方面仍然存在困难。任务要求模型回答“[人名]是在偶数年还是奇数年出生的?”其中“[人名]”由随机名人名字填充。现有研究(Allen-Zhu和Li,2023;Berglund等人,2023)表明,即使是像GPT-4这样的最先进模型,在直接提示时也只能达到随机准确率(约50%)。Allen-Zhu和Li(2023)还表明,最先进的大型语言模型在给定正确年份的情况下,几乎可以完美地检索年份或判断奇偶性,因此限制主要在于模型在知识操作方面的能力。在本节中,我们将展示CoT解码能够有效地从大型语言模型中引出正确的CoT推理路径来解决这个问题。 任务设置。我们从(Berglund等人,2023)中整理了前100名名人的名字。我们通过网页搜索手动提取并验证了他们的出生年份,以算法方式建立了事实基础。我们根据事实基础(“偶数”或“奇数”)评估模型的回答,计算这项任务的最终准确率。 在PaLM-2上的结果如表3所示。值得注意的是,当语言模型直接被提问时,它表现出随机水平的准确率(即使是最大的模型也只有57%)。然而,当配备CoT解码时,模型在大多数情况下能够恢复CoT路径,并实现超过90%的准确率。进一步的错误分析显示,大多数错误源于模型检索到的出生年份不正确,而生成的CoT路径在奇偶性和模型检索到的年份之间保持高度一致。请注意,对于这项任务,当模型规模较小时,即使在给定正确年份的情况下,模型也无法确定奇偶性。因此,对于等于或小于“小规模”的模型规模,性能没有显著变化。 PaLM-2预训练 小 中 大 贪婪 61.0 55.0 57.0 CoT解码 +4.0 89.0(+34.0) 95.0(+38.0) 表3 | 不同规模的PaLM-2预训练模型在年份奇偶性任务上的准确率。 3.3 符号推理任务 我们考虑以下符号推理任务:(1)来自(Wei等人,2022)的硬币翻转任务,有2、3、4轮可能的翻转;以及来自Big-Bench-Hard(bench作者,2023;Suzgun等人,2022)的两个任务:(2)谎言之网,有3、4、5个真/假陈述,以及(3)多步算术,具有不同的深度级别𝑑和长度𝑙。这些任务通过人类干预设计规则,允许我们生成具有不同难度级别的任务数据,全面评估模型的问题解决能力。对于每个任务,我们为每个难度级别产生100个例子,除了谎言之网(5)我们使用了(Suzgun等人,2022)的现有数据集。对于多步算术,我们直接以原始输入(例如,“3+5-6=”)查询模型,而不使用问答格式。我们还包括了来自Big-Bench的两个基于自然语言但合成的任务,体育理解和对象计数,以探究模型在解决合成任务方面的内在能力。 正确CoT路径的存在取决于任务在预训练分布中的突出性。结果如表4所示。我们看到CoT解码的收益变小了。" 无提示的链式思维推理 硬币翻转 谎言网 多步算术 无目标对象 计数 2 3 4 3 4 5 𝑑0, 𝑙3𝑑0, 𝑙4𝑑2, 𝑙3𝑑2, 𝑙4 贪婪 70.0 53.0 48.0 76.0 58.0 53.6 39.0 19.0 8.0 0.0 58.8 41.2 CoT 解码 94.0 57.0 55.0 87.0 63.0 57.6 56.0 42.0 35.0 16.0 58.0 62.0 表 4|在PaLM-2预训练大型模型上,符号推理任务和额外的Big-Bench任务的准确率,随着任务复杂度的增加。此外,我们观察到,当任务高度合成时,即任务在预训练分布中缺乏显著表示时,模型无法生成准确的CoT路径。这反映了(McCoy等人,2023)中的发现,即语言模型受到它们训练分布的高度影响。我们还发现,在这些任务中,基于CoT提示的技术在帮助模型学习解决这类任务方面发挥了更大的“教学”作用。这类任务的例子包括: • 需要准确状态跟踪的任务,例如硬币翻转和谎言网。我们观察到,模型可以在CoT解码路径中模拟逐步过程,但在任务变得更加复杂时(例如,有>=3个硬币的硬币翻转,和有>=4个陈述的谎言网),模型很容易失去状态跟踪。这揭示了模型在执行准确状态跟踪方面的固有脆弱性。Suzgun等人(2022)手工制作的少量CoT则教导模型在每一步中进行显式状态跟踪,以更好地帮助模型解决这个问题。 • 多步算术:我们观察到,模型在CoT解码路径中倾向于从左到右进行计算。相应地,Suzgun等人(2022)制作的少量CoT在少量示例中明确指导模型在进行少量示例演示时遵循正确的操作顺序。 • 对象计数:在CoT解码过程中,模型表现出对所有提到的对象进行直接加法的倾向。相反,Suzgun等人(2022)使用的少量CoT教导模型在进行计数之前排除不符合问题的物体。 图 4|对于PaLM-2大型模型,在GSM8K数据集上,根据解码中使用了多少个顶部𝑘标记,CoT解码(通过取最大路径和聚合路径)的准确率。我们还与少量CoT提示和零次CoT提示的结果进行了比较。 与CoT提示相比 在图4中,我们将CoT解码与现有的CoT提示方法进行了比较,例如少量CoT提示(Wei等人,2022)和零次CoT提示(Kojima等人,9" "无提示的链式思维推理(Chain-of-Thought Reasoning Without Prompting)2022年。首先,聚合路径方法显著提高了准确性,与仅取最大路径相比,表明它确实可以通过减轻模型对logits小差异的敏感性来稳定结果。其次,聚合路径的性能与少量样本链式思维(CoT)提示相似,表明在这个任务上,模型具有有效解决这个问题的内在能力。结果表明,少量样本CoT提示可能有助于揭示模型的内在CoT路径,使其更接近于最佳路径。 [GSM8K] Claire每天早上为早餐做3个鸡蛋的煎蛋。她在4周内会吃多少打鸡蛋? 贪婪解码(Greedy):3 链式思维解码(CoT-decoding):一打是12个。3个鸡蛋每天,4周是84个鸡蛋。84除以12等于7打鸡蛋。 少量样本链式思维(Few-shot CoT):一周有7天。4周是4乘以7等于28天。她每天吃3个鸡蛋,所以28天她吃了28乘以3等于84个鸡蛋。一打是12个鸡蛋。84个鸡蛋是84除以12等于7打鸡蛋。答案是7。 [年份奇偶性] Nicolas Cage是在奇数年还是偶数年出生的? 贪婪解码:Nicolas Cage是在奇数年出生的。 链式思维解码:Cage出生于1964年,是一个偶数年。 零样本链式思维(Zero-shot CoT):1. Nicolas Cage出生于1964年。 2. 1964是一个偶数。 3. 因此,Nicolas Cage是在偶数年出生的。 [体育理解] 以下句子是否合理?“Walker Buehler赢得了进入罚时区的机会。” 贪婪解码:不。 链式思维解码(顶部几条路径): - 当然,如果他在打冰球。 - 在棒球比赛的背景下,不。 - 我不确定你所说的“合理”是什么意思。这是一个语法完全正确的句子,也是一个完全合理的说法。 少量样本链式思维:Walker Buehler是一名棒球运动员。罚时区是冰球的一部分。所以答案是不。 表5|使用不同方法生成的CoT示例。 在表5中,我们展示了每种方法生成的CoT的定性示例。总的来说,我们观察到链式思维解码在与替代CoT提示方法相比,展示了更“自由形式”的CoT生成。这种差异可能归因于两个因素: (1)我们在初始解码步骤鼓励多样性,以及(2)缺乏由提示所施加的明确约束。 另一个值得注意的观察是,链式思维解码能更好地揭示大型语言模型(LLMs)解决问题的内在策略,而不受到可能受到提示设计者偏见的外部提示的影响。以表5中的最后一个例子为例,我们可以看到少量样本CoT路径受到少量样本提示的强烈影响。具体来说,少量样本提示,来源于(Suzgun等人,2022年),始终遵循一种标准的分析方法——首先评估人的职业,然后评估职业是否与行动相符。这与解决这个特定任务的标准方法一致。相比之下,链式思维解码揭示了偏离传统问题解决路径的路径。尽管在某些情况下,根据事实真相得出的最终答案是错误的,但CoT路径仍然是有效的。" 无提示的思考链推理 我有3个苹果,我爸爸比我多2个苹果,我们总共有多少个苹果? Top-k路径: k=0: 5(0.227) k=1: 我有3个苹果,我爸爸比我多2个苹果,我们总共有多少个苹果?(0.722) k=2: 我们有5个苹果。(0.317) k=3: 我爸爸有5个苹果,我有3个苹果,所以我们总共有8个苹果。(0.956) ...... k=8: 你有3个苹果,你爸爸比你多2个苹果,所以他有3+2=5个苹果。你们总共有3+5=8个苹果。(0.931) 表6|来自Mistral-7B预训练模型的top-k路径示例,展示了类似的模式,即CoT推理路径再次出现在模型的解码路径中。 3.4. 在不同模型家族中的实验结果 我们还对其他模型家族进行了实验,特别是开源的Mistral-7B模型(Jiang等人,2023年)。我们评估了预训练模型(“Mistral-7B-v0.1”)和指令调整变体(“Mistral-7B-Instruct-v0.1”)。表6提供了一个例子,展示了Mistral-7B模型试图通过贪婪解码直接解决问题。然而,在考虑第一步解码的替代标记时,CoT推理再次从模型的解码路径中出现。 结果如表7所示,展示了在不同模型家族中的一致性改进。CoT解码在没有专门提示的情况下显著优于贪婪解码,涵盖了数学推理(GSM8K和MultiArith)和自然语言推理(年份奇偶性)等任务。 预训练Inst-tuned GSM8K贪婪 9.9 31.2 CoT解码 25.1(+15.2) 38.2(+7.0) Multi Arith贪婪 14.3 37.8 CoT解码 45.7(+31.4) 66.5(+28.7) 年份 奇偶性贪婪 35.0 62.2 CoT解码 66.0(+31.0) 73.5(+11.3) 表7|在Mistral-7B预训练和指令调整模型上推理性能。 4. 相关工作 大型语言模型中的思考链推理。在最近的文献中,许多研究试图增强大型语言模型的推理能力。这些研究主要涉及提出更好的提示技术,以更好地从模型中引出CoT推理路径(Kojima等人,2022年;Nye等人,2021年;Wei等人,2022年;Yao等人,2023年;Yasunaga等人,2023年;Zhou等人,2023a)。尽管取得了高性能,但少次提示技术通常是任务特定的,需要针对每个任务定制提示设计。这限制了它们在任务之间的通用性。高级提示技术通常需要手动密集的提示工程,其有效性取决于提示的选择,导致不一致的性能结果(Wang等人,2022年;Ye和Durrett,2022年;Zhou等人,2023b)。发现更好的提示的努力(Yang等人,2024年;Zhou等人,2023b)进一步涉及模型特定和任务特定的调整。 此外,这些提示技术可以微妙地改变词汇的后验分布。 无提示的链式推理生成过程在很大程度上仍然是一个谜(Min et al., 2022; Webson and Pavlick, 2022)。具体来说,提示可能有助于任务分解,诱导模型生成额外的标记,或者通过手工制作的少量示例直接“教授”模型解决特定问题的确切过程。然而,剖析每个方面的独特影响却是一个重大挑战。相比之下,我们的工作在解码阶段探索了一个不同的视角,展示了即使没有明确的提示,模型本身也具有在广泛任务中生成链式推理路径的能力。 最近有几项工作提出通过更好地控制和验证生成的步骤来改进链式推理生成过程,例如逐步验证(Lightman et al., 2023)、基于过程的反馈(Uesato et al., 2022)、自评估引导的束搜索(Xie et al., 2023)和PathFinder(Golovneva et al., 2023)。请注意,所有这些工作仍然需要链式推理提示才能生成链式推理路径,而我们的工作完全移除了链式推理提示。此外,这些现有工作专注于搜索和验证语言模型产生的“步骤”,而我们的工作纯粹在解码空间中进行标记级别的搜索,并在解码答案时利用置信度分数。 最近的工作旨在更好地理解链式推理如何在语言模型中产生(Feng et al., 2023; Li et al., 2023b; Prystawski et al., 2023)。McCoy et al. (2023); Razeghi et al. (2022) 展示了一个类似的现象,即预训练分布对模型在少量推理中的表现有重大影响。 在允许监督的情况下,指令调整或蒸馏等技术提供了另一种方式,可以在不进行明确提示的情况下从语言模型中引出推理路径(Chung et al., 2022; Huang et al., 2023; Magister et al., 2023)。然而,这些方法通常涉及对大型语言模型进行资源密集型的微调,并需要大量带有链式推理的示例,这些示例可能并不容易获得。Liu et al. (2024) 展示了一个大型语言模型可以通过使用一对调整过和未调整的小模型之间的对数概率差异来进行调整,并在某些推理基准测试中取得了改进的性能。Liu et al. (2024) 需要一些额外的模型,并隐含地假设调整过的模型已经很好地优化了,例如,在推理基准测试中,模型需要使用链式推理路径进行调整,以便与基础未调整模型的对数概率进行对比。相比之下,我们的方法完全是无监督的,并且考察了模型在生成链式推理路径方面的内在能力,而不依赖于微调或任何额外的模型。 语言模型的解码算法。现有文献中关于语言模型解码的主要关注点包括流畅性、连贯性、减少重复性和响应多样性。用于语言模型的流行解码算法包括贪婪解码、温度采样(Ackley et al., 1985; Ficler and Goldberg, 2017)、top-k采样(Fan et al., 2018; Holtzman et al., 2018; Radford et al., 2019)和核心采样(Holtzman et al., 2020)。此外,还有更精细的算法,如最小贝叶斯风险解码(Eikema and Aziz, 2020)和典型解码(Meister et al., 2022)。多样化束搜索(Vijayakumar et al., 2018)是探索模型生成的替代路径的另一种方式。然而,它强调的是生成的多样性而不是准确性。 专门针对推理任务增强解码算法的研究相对较少。Wang et al. (2023a) 通过在多个生成的响应上进行采样和聚合来改进链式推理提示。对比解码(Li et al., 2023a)是另一种通过惩罚小型模型的对数概率来提高模型生成质量的方法,最近的研究表明(O'Brien and Lewis, 2023),对比解码可以有助于提高模型的生成质量。 无提示的链式思维推理 推理性能。Shi等人(2023)提出了上下文感知解码,以提高语言模型的忠实度。这些方法通常需要额外的信息,例如使用额外的模型生成对比性logits或整合额外的上下文。相比之下,我们的工作仅依赖于单一模型,无需补充知识。 解码算法的效率。除了提高质量的解码算法,还有大量研究致力于提高解码效率,例如推测性解码(Chen等人,2023a;Leviathan等人,2022;Zhou等人,2024)。这一系列工作与我们的工作是正交的,因为他们的主要焦点不是提高模型的推理性能。然而,这些技术有可能被利用来提高CoT(链式思维)解码的效率。 5. 结论与讨论 我们研究了大型语言模型在解码过程中生成CoT推理路径的固有能力,不依赖任何专门的提示。我们的发现表明,与仅使用贪婪解码的普遍做法相反,探索解码空间中的替代前𝑘个token揭示了这些模型内在的推理路径。此外,我们的实证观察强调,CoT推理路径的存在与模型对其最终答案解码的自信度增加相关。基于这一观察,我们引入了CoT解码,以从语言模型中提取更可靠的解码路径,从而提高整体推理性能。 探索替代解码路径会产生额外的计算成本。未来的工作可以利用CoT解码路径来微调模型,以增强其推理能力。 此外,我们目前的探索集中在第一个token的分支上,因为这会产生高多样性的解码路径,但对于未来的工作,可以在任何token上探索分支,并在解码阶段寻找最佳路径。尽管如此,计算成本将大幅增加,如何可靠地在搜索过程中识别最佳token将是一个有趣的研究方向。 致谢 我们要感谢Yongchao Zhou、Yifeng Lu、Dale Schuurmans和Ed Chi对这项工作的有益讨论和反馈。 参考文献 D. H. Ackley, G. E. Hinton, 和 T. J. Sejnowski. 玻尔兹曼机的学习算法。 认知科学,9(1):147–169,1985。ISSN 0364-0213。URL https://www.sciencedirect.com/science/article/pii/S0364021385800124。 Z. Allen-Zhu 和 Y. Li. 语言模型的物理:第3.2部分,知识操作,2023。 R. Anil, A. M. Dai, O. Firat, M. Johnson, D. Lepikhin, A. Passos, S. Shakeri, E. Taropa, P. Bailey, Z. Chen, 等。Palm 2技术报告。arXiv预印本 arXiv:2305.10403,2023。 B. bench作者。超越模仿游戏:量化和推断语言模型的能力。机器学习研究交易,2023。ISSN 2835-8856。URL https://openreview.net/forum?id=uyTL5Bvosj。 由于您提供的文本内容较多,我将分段进行翻译。请注意,由于部分文本是学术论文的标题和作者列表,我将尽量保持原文的格式和专业术语的准确性。 1. L. Berglund, M. Tong, M. Kaufmann, M. Balesni, A. C. Stickland, T. Korbak, 和 O. Evans. "The reversal curse: Llms trained on 'a is b' fail to learn 'b is a'", 2023. L. 贝格伦德,M. 通,M. 考夫曼,M. 巴莱西尼,A. C. 斯提克兰德,T. 科尔巴克,和 O. 埃文斯。《反转诅咒:在“a 是 b”上训练的 LLMs 未能学会“b 是 a”》,2023年。 2. T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, 等。"Language models are few-shot learners." 在神经信息处理系统进展,33:1877–1901, 2020年。 T. 布朗,B. 曼,N. 莱德,M. 苏比亚,J. D. 卡普兰,P. 达里瓦尔,A. 尼拉坎塔,P. 沙姆,G. 萨斯特里,A. 阿斯克尔,等。《语言模型是少样本学习者》。在神经信息处理系统进展,第33卷,1877-1901页,2020年。 3. C. Burns, H. Ye, D. Klein, 和 J. Steinhardt. "Discovering latent knowledge in language models without supervision." 在第十一届国际学习表示会议,2023年。URL https://openreview.net/forum?id=ETKGuby0hcs。 C. 伯恩斯,H. 叶,D. 克莱因,和 J. 斯坦哈特。《在无监督的情况下发现语言模型中的潜在知识》。在第十一届国际学习表示会议,2023年。URL https://openreview.net/forum?id=ETKGuby0hcs。 4. C. Chen, S. Borgeaud, G. Irving, J.-B. Lespiau, L. Sifre, 和 J. M. Jumper. "Accelerating large language model decoding with speculative sampling." ArXiv, abs/2302.01318, 2023a. URL https://api.semanticscholar.org/CorpusID:256503945。 C. 陈,S. 博尔盖,G. 欧文,J.-B. 莱斯皮奥,L. 西弗雷,和 J. M. 贾普。《通过推测性抽样加速大型语言模型解码》。ArXiv,abs/2302.01318,2023a。URL https://api.semanticscholar.org/CorpusID:256503945。 5. W. Chen, X. Ma, X. Wang, 和 W. W. Cohen. "Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks." 在机器学习研究交易,2023b。ISSN 2835-8856。URL https://openreview.net/forum?id=YfZ4ZPt8zd。 W. 陈,X. 马,X. 王,和 W. W. 科恩。《思维程序提示:为数值推理任务解耦计算与推理》。在机器学习研究交易,2023b。ISSN 2835-8856。URL https://openreview.net/forum?id=YfZ4ZPt8zd。 6. A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann, P. Schuh, K. Shi, S. Tsvyashchenko, J. Maynez, A. Rao, P. Barnes, Y. Tay, N. Shazeer, V. Prabhakaran, E. Reif, N. Du, B. Hutchinson, R. Pope, J. Bradbury, J. Austin, M. Isard, G. Gur-Ari, P. Yin, T. Duke, A. Levskaya, S. Ghemawat, S. Dev, H. Michalewski, X. Garcia, V. Misra, K. Robinson, L. Fed 这段文字是一系列学术论文的引用,涉及自然语言处理(NLP)和机器学习领域的研究。以下是这些引用的中文翻译: 1. G. Feng, B. Zhang, Y. Gu, H. Ye, D. He, 和 L. Wang. 揭示思维链背后的秘密:理论视角。在第37届神经信息处理系统会议上,2023年。URL: https://openreview.net/forum?id=qHrADgAdYu。 2. J. Ficler 和 Y. Goldberg. 在神经语言生成中控制语言风格方面。在风格变化研讨会论文集,第94-104页,丹麦哥本哈根,2017年9月。计算语言学协会。doi: 10.18653/v1/W17-4912。URL: https://aclanthology.org/W17-4912。 3. L. Gao, A. Madaan, S. Zhou, U. Alon, P. Liu, Y. Yang, J. Callan, 和 G. Neubig. Pal: 辅助编程语言模型。arXiv预印本 arXiv:2211.10435,2022。 4. Gemini. Gemini: 一系列高度能力的多模态模型。arXiv预印本 arXiv:2312.11805,2023。 5. O. Golovneva, S. O’Brien, R. Pasunuru, T. Wang, L. Zettlemoyer, M. Fazel-Zarandi, 和 A. Celikyilmaz. Pathfinder: 多步推理路径的引导搜索,2023。 6. A. Holtzman, J. Buys, M. Forbes, A. Bosselut, D. Golub, 和 Y. Choi. 使用合作判别器学习写作。在第56届计算语言学协会年会(第1卷:长论文),第1638-1649页,澳大利亚墨尔本,2018年7月。计算语言学协会。doi: 10.18653/v1/P18-1152。URL: https://aclanthology.org/P18-1152。 7. A. Holtzman, J. Buys, L. Du, M. Forbes, 和 Y. Choi. 神经文本退化的奇特案例。在国际学习表示会议上,2020年。URL: https://openreview.net/forum?id=rygGQyrFvH。 8. J. Huang, S. Gu, L. Hou, Y. Wu, X. Wang, H. Yu, 和 J. Han. 大型语言模型可以自我改进。在H. Bouamor, J. Pino, 和 K. Bali编辑的2023年自然语言处理实证方法会议论文集,第1051-1068页,新加坡,2023年12月。计算语言学协会。URL: https://aclanthology.org/2023.emnlp-main.67。 9. H. Ivison, Y. Wang, V. Pyatkin, N. Lambert, M. Peters, P. Dasigi, J. Jang, D. Wadden, N. A. Smith, I. Beltagy, 和 H. Hajishirzi. 在变化的气候中的骆驼:通过Tulu 2增强LM适应性,2023。 10. A. Q. Jiang, A. Sablayrolles, A. Mensch, C. Bamford, D. S. Chaplot, D. de las Casas, F. Bressand, G. Lengyel, G. Lample, L. Saulnier, L. R. Lavaud, M.-A. Lachaux, P. Stock, T. L. Scao, T. Lavril, T. Wang, T. Lacroix, 和 W. E. Sayed. Mistral 7b,2023。 11. T. Kojima, S. S. Gu, M. Reid, Y. Matsuo, 和 Y. Iwasawa. 大型语言模型是零样本推理者。在第35卷神经信息处理系统进展,第22199-22213页,2022年。 12. Y. Leviathan, M. Kalman, 和 Y. Matias. 通过推测性解码从变换器中快速推理。在2022年国际机器学习会议上。URL: https://api.semanticscholar.org/CorpusID:254096365。 13. X. L. Li, A. Holtzman, D. Fried, P. Liang, J. Eisner, T. Hashimoto, L. Zettlemoyer, 和 M. Lewis. 对比解码:开放式文本生成作为优化。在A. Rogers, J. Boyd-Graber, 和 N. Okazaki编辑 这段文字是一系列关于自然语言处理和人工智能领域的研究论文标题和摘要,以及一些相关的出版物信息。以下是这些内容的中文翻译: 1. Y. Li, K. Sreenivasan, A. Giannou, D. Papailiopoulos, 和 S. Oymak. 在上下文中通过过滤和学习进行组合性推理的剖析:链式思考。在第37届神经信息处理系统会议上,2023b。URL: https://openreview.net/forum?id=xEhKwsqxMa。 2. H. Lightman, V. Kosaraju, Y. Burda, H. Edwards, B. Baker, T. Lee, J. Leike, J. Schulman, I. Sutskever, 和 K. Cobbe. 让我们一步一步地验证,2023。 3. W. Ling, D. Yogatama, C. Dyer, 和 P. Blunsom. 通过理由生成进行程序归纳:学习解决和解释代数文字问题。arXiv预印本 arXiv:1705.04146,2017。 4. A. Liu, X. Han, Y. Wang, Y. Tsvetkov, Y. Choi, 和 N. A. Smith. 通过代理调整语言模型,2024。 5. L. C. Magister, J. Mallinson, J. Adamek, E. Malmi, 和 A. Severyn. 教授小型语言模型进行推理,2023。 6. R. T. McCoy, S. Yao, D. Friedman, M. Hardy, 和 T. L. Griffiths. 自回归的余烬:通过训练问题理解大型语言模型,2023。 7. C. Meister, T. Pimentel, G. Wiher, 和 R. Cotterell. 自然语言生成的典型解码。arXiv预印本 arXiv:2202.00666,2022。 8. S. Min, X. Lyu, A. Holtzman, M. Artetxe, M. Lewis, H. Hajishirzi, 和 L. Zettlemoyer. 重新思考示范的作用:上下文学习是如何工作的?在EMNLP会议上,2022。 9. M. Nasr, N. Carlini, J. Hayase, M. Jagielski, A. F. Cooper, D. Ippolito, C. A. Choquette-Choo, E. Wallace, F. Tramèr, 和 K. Lee. 从(生产)语言模型中可扩展地提取训练数据,2023。 10. M. Nye, A. J. Andreassen, G. Gur-Ari, H. Michalewski, J. Austin, D. Bieber, D. Dohan, A. Lewkowycz, M. Bosma, D. Luan, 等。展示你的工作:与语言模型进行中间计算的草稿本。arXiv预印本 arXiv:2112.00114,2021。 11. S. O’Brien 和 M. Lewis. 对比解码提高了大型语言模型的推理能力,2023。 12. OpenAI. Gpt-4技术报告。arXiv预印本 arXiv:2303.08774,2023。 13. B. Prystawski, M. Y. Li, 和 N. Goodman. 为什么需要一步一步思考?推理从经验的局部性中产生。在第37届神经信息处理系统会议上,2023。URL: https://openreview.net/forum?id=rcXXNFVlEn。 14. A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, 和 I. Sutskever. 语言模型是无监督的多任务学习者。2019。 15. Y. Razavi, R. Logan IV, M. Gardner, 和 S. Singh. 预训练频率对少量样本数值推理的影响。在Y. Goldberg, Z. Kozareva, 和 Y. Zhang编辑的《计算语言学协会发现:EMNLP 2022》中,第840-854页,阿联酋阿布扎比,2022年12月。计算语言学协会。doi: 10.18653/v1/2022.findings-emnlp.59。URL: https://aclanthology.org/2022.findings-emnlp.59。 16. B. Romera-Paredes, M. Barekatain, A. Novikov, M. Balog, M. P. Kumar, E. Dupont, F. J. R. Ruiz, J. Ellenberg, P. Wang, O. Fawzi, P. Kohli, 和 A. F 这段文字列出了一系列关于自然语言处理和人工智能领域的研究论文,涉及数学问题解决、上下文感知解码、链式推理、语言模型的改进等方面。以下是这些论文的中文翻译: 1. S. Roy 和 D. Roth. 解决一般算术文字问题。在2015年自然语言处理实证方法会议论文集中,2015年。doi:10.18653/v1/D15-1202. URL: https://aclanthology.org/D15-1202。 2. W. Shi, X. Han, M. Lewis, Y. Tsvetkov, L. Zettlemoyer, 和 S. W. tau Yih. 信任你的证据:通过上下文感知解码减少幻觉,2023年。 3. M. Suzgun, N. Scales, N. Schärli, S. Gehrmann, Y. Tay, H. W. Chung, A. Chowdhery, Q. V. Le, E. H. Chi, D. Zhou, 和 J. Wei. 挑战大基准任务以及链式推理是否能解决它们。arXiv预印本 arXiv:2210.09261,2022年。 4. J. Uesato, N. Kushman, R. Kumar, F. Song, N. Siegel, L. Wang, A. Creswell, G. Irving, 和 I. Higgins. 使用过程和结果反馈解决数学文字问题,2022年。 5. A. K. Vijayakumar, M. Cogswell, R. R. Selvaraju, Q. Sun, S. Lee, D. J. Crandall, 和 D. Batra. 多样化束搜索改进复杂场景描述。在S. A. McIlraith 和 K. Q. Weinberger编辑的《第三十二届人工智能会议论文集》(AAAI-18),第30届创新人工智能应用(IAAI-18),以及第8届人工智能教育进展研讨会(EAAI-18),2018年2月2-7日,美国路易斯安那州新奥尔良,第7371-7379页。AAAI Press,2018年。doi:10.1609/AAAI.V32I1.12340. URL: https://doi.org/10.1609/aaai.v32i1.12340。 6. X. Wang, J. Wei, D. Schuurmans, Q. Le, E. Chi, 和 D. Zhou. 语言模型中的推理增强集成,2022年。 7. X. Wang, J. Wei, D. Schuurmans, Q. V. Le, E. H. Chi, S. Narang, A. Chowdhery, 和 D. Zhou. 自我一致性提高语言模型中的链式推理。在第十一届学习表示国际会议上,2023a。URL: https://openreview.net/forum?id=1PL1NIMMrw。 8. Y. Wang, H. Ivison, P. Dasigi, J. Hessel, T. Khot, K. R. Chandu, D. Wadden, K. MacMillan, N. A. Smith, I. Beltagy, 和 H. Hajishirzi. 骆驼能走多远?探索在开放资源上的指令调整状态,2023b。 9. A. Webson 和 E. Pavlick. 基于提示的模型真的理解它们的提示意义吗?在M. Carpuat, M.-C. de Marneffe, 和 I. V. Meza Ruiz编辑的《2022年北美计算语言学协会:人类语言技术会议论文集》中,第2300-2344页,2022年7月,美国西雅图。计算语言学协会。doi: 10.18653/v1/2022.naacl-main.167. URL: https://aclanthology.org/2022.naacl-main.167。 10. J. Wei, X. Wang, D. Schuurmans, M. Bosma, Brian Ichter, F. Xia, E. H. Chi, Q. V. Le, 和 D. Zhou. 链式推理提示激发大型语言模型的推理。在A. H. Oh, A. Agarwal, D. Belgrave, 和 K. Cho编辑的《神经信息处理系统进展》中,2022年。URL: https://openreview.net/forum?id=_VjQlMeSB_J。 11. Y. Xie, K. Kawaguchi, Y. Zhao, X. Zhao, M.-Y. Kan, J. He, 和 Q. Xie. 自我评估引导的束搜索用于推理。在第三十七届神经信息处理系统会议上,2023年。URL 链式思维推理无需提示 S. Yao, D. Yu, J. Zhao, I. Shafran, T. L. Griffiths, Y. Cao, 和 K. R. Narasimhan. 思维之树:使用大型语言模型进行深思熟虑的问题解决。在第37届神经信息处理系统会议上,2023年。URL: https://openreview.net/forum?id=5Xc1ecxO1h。 M. Yasunaga, X. Chen, Y. Li, P. Pasupat, J. Leskovec, P. Liang, E. H. Chi, 和 D. Zhou. 大型语言模型作为类比推理者。arXiv预印本 arXiv:2310.01714,2023年。 X. Ye 和 G. Durrett. 少量提示下文本推理中解释的不可靠性。在S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, 和 A. Oh编辑的《神经信息处理系统进展》第35卷,第30378-30392页。Curran Associates, Inc.,2022年。URL: https://proceedings.neurips.cc/paper_files/paper/2022/file/c402501846f9fe03e2cac015b3f0e6b1-Paper-Conference.pdf。 D. Zhou, N. Schärli, L. Hou, J. Wei, N. Scales, X. Wang, D. Schuurmans, C. Cui, O. Bousquet, Q. V. Le, 和 E. H. Chi. 最少到最多提示使大型语言模型能够进行复杂推理。在第11届学习表示国际会议上,2023a。URL: https://openreview.net/forum?id=WZH7099tgfM。 Y. Zhou, A. I. Muresanu, Z. Han, K. Paster, S. Pitis, H. Chan, 和 J. Ba. 大型语言模型是人类级别的提示工程师。在第11届学习表示国际会议上,2023b。URL: https://openreview.net/forum?id=92gvk82DE-。 Y. Zhou, K. Lyu, A. S. Rawat, A. K. Menon, A. Rostamizadeh, S. Kumar, J.-F. Kagy, 和 R. Agarwal. Distillspec: 通过知识蒸馏改善推测性解码。在第12届学习表示国际会议上,2024年。URL: https://openreview.net/forum?id=rsY6J3ZaTF。 请注意,以上内容是从提供的参考文献中提取的,翻译成中文的标题和摘要。这些文献涉及大型语言模型在推理、类比推理、解释的可靠性以及知识蒸馏等方面的研究。 在“无需提示的链式思维推理(Chain-of-Thought Reasoning Without Prompting)”部分,作者展示了在不同推理任务上,贪婪解码(Greedy decoding)与链式思维解码(CoT-decoding)的比较示例,这些示例在表8中列出。 [体育理解(Sports Understanding)] 句子是否合理?“卡哇伊·伦纳德(Kawhi Leonard)投了一个转身跳投。” 贪婪解码:不。 链式思维解码:卡哇伊·伦纳德是一名篮球运动员。→是。 句子是否合理?“内马尔(Neymar)在斯坦利杯(Stanley Cup)中进行了一次反手击球。” 贪婪解码:不。 链式思维解码:内马尔是一名足球运动员,斯坦利杯是一项冰球赛事。→不。 句子是否合理?“卡森·温茨(Carson Wentz)上了冰。” 贪婪解码:不。 链式思维解码:卡森·温茨是费城老鹰队的四分卫。他不是冰球运动员。→不。 [硬币翻转(Coin Flip)] 一枚硬币正面朝上。雷蒙德(Raymond)翻转了硬币。康塞普西翁(Conception)翻转了硬币。硬币还是正面朝上吗? 贪婪解码:不。 链式思维解码:雷蒙德翻转了硬币。现在硬币反面朝上。康塞普西翁翻转了硬币。硬币现在正面朝上。(正确的状态追踪) 一枚硬币正面朝上。米莉(Millie)没有翻转硬币。特雷莎(Teressa)没有翻转硬币。康塞普西翁翻转了硬币。硬币还是正面朝上吗? 贪婪解码:不。 链式思维解码:米莉没有翻转硬币。特雷莎没有翻转硬币。康塞普西翁翻转了硬币。硬币还是正面朝上。(状态追踪失败) 一枚硬币正面朝上。英加(Inga)翻转了硬币。杰米(Jamey)没有翻转硬币。沙隆达(Shalonda)没有翻转硬币。肖恩达(Shaunda)翻转了硬币。硬币还是正面朝上吗? 贪婪解码:不。硬币现在是反面朝上。 链式思维解码:由于硬币被翻转了奇数次,所以它不是正面朝上。(有缺陷的替代推理) [多步算术(Multi-step Arithmetic)] (3 + -3 + -9 * 1) = 贪婪解码:0。 链式思维解码:(((3 + -3) + -9) * 1) = ((0 + -9) * 1) = (-9 * 1) = -9。(正确) (6 + 8 * 3 + 5) = 贪婪解码:100 链式思维解码:((6 + 8) * 3) + 5 = 14 * 3 + 5 = 42 + 5 = 47(不正确,模型的计算顺序是从左到右,而不是遵循数学中的运算顺序)。 ((0 - 9 * -7 + 3) - (-2 + -1 * -9 * 3)) = 贪婪解码:-1 链式思维解码:((0 - 9 * -7 + 3) - (-2 + 9 * 3)) = ((0 - 9 * -7 + 3) - (-2 + 27)) = ((0 - 9 * -7 + 3) - 25) = (0 - 9 * -7 + 3 - 25) = (0 - -63 + 3 - 25) = (63 + 3 - 25) = 41(正确) 表8 | 展示了无需明确提示生成的链式思维示例。 在表9中,我们进一步展示了链式思维解码在某些情况下如何改进了Mistral-7B指令调整模型。我们发现在某些情况下,即使经过指令调整,模型仍然倾向于直接回答问题,而链式思维解码可以通过在生成答案之前先引出链式思维路径,实现更一致的行为。对于这个例子,另一个有趣的观察是,模型在生成初始答案“16”之后生成了一个链式思维。在这种情况下,模型生成的链式思维会受到已经生成的答案的影响。 请注意,这段翻译是基于您提供的英文内容。如果有任何特定的术语或表达需要更准确的翻译,请告知。 "无需提示的链式思考推理可能会导致后续错误的推理路径。 在表10中,我们展示了Mistral-7B模型在两个任务(数学和年份奇偶性)上的前k条推理路径,以及它们在每条解码路径中的Δ值。我们观察到的行为与PaLM-2系列模型相似,链式思考路径存在,但通常在解码空间中排名较低。 [GSM8K] 约翰邀请了20人参加生日派对。每位客人将吃2个热狗。他之前派对剩下的热狗还有4个。如果一包热狗有6个,每包2美元,他需要花多少钱买热狗? 贪婪解码(k=0, Δ=0.56): 约翰需要花16美元买热狗。 以下是推理过程: 1. 首先,我们需要确定约翰总共有多少热狗。他之前派对剩下4个,现在有20位客人。所以,他有4 + 20 = 24个热狗。 2. 接下来,我们需要计算他需要购买多少包热狗。每包有6个热狗,所以他需要24 / 6 = 4包。 3. 最后,我们需要计算购买这些包的成本。每包2美元,所以4包将花费4 * $2 = $8。 因此,约翰需要为派对花费16美元买热狗。 链式思考解码(k=1, Δ=1.0): 让我们分解问题: 1. 约翰剩下4个热狗。 2. 他需要为20位客人每人提供2个热狗。 3. 这意味着他总共需要提供20 * 2 = 40个热狗。 4. 由于他已经有4个热狗,所以他需要购买40 - 4 = 36个热狗。 5. 一包热狗有6个,所以他需要购买36 / 6 = 6包热狗。 6. 每包热狗2美元,所以他需要花费6 * $2 = $12买热狗。 最终答案:约翰需要花12美元买热狗。 表9|使用贪婪解码与链式思考解码,Mistral-7B指令调整模型对GSM8K问题的回答示例。 B. 在其他模型和任务中选择k的影响 在图5中,我们进一步展示了k的选择如何影响Mistral-7B模型的性能。 我们包括了预训练模型和指令调整模型。总的来说,我们发现对于预训练模型,k的较高值带来了高度一致的改进。然而,对于指令调整模型,由于模型已经通过链式思考数据进行了微调,以生成前几个解码路径的链式思考,探索更多token以获得更大的k并不一定带来进一步的收益。 我们还展示了图6中k的选择如何影响Big-Bench任务上链式思考解码的性能。根据任务的复杂性,有效的链式思考路径在不同的k值出现。例如,在多步算术任务中,当任务相对简单(d=0, l=3)时,有效的链式思考路径在k=2左右出现,将准确率从40%提高到60%。但当任务变得更加复杂(例如,d=2, l=4),链式思考路径在更晚的解码路径(大约k=4或k=5)出现。 在表11中,我们通过一个具体的例子说明了路径聚合算法如何更可靠地识别正确答案。对于正确答案18,我们可以看到它出现了4次,每次的Δ值分别为0.994(k=0)、0.911(k=6)、0.584(k=8)和0.999(k=9),所以总体上它的kΔ值之和为3.5;而所有其他错误答案选项14、16、20、10的Δ值之和要低得多。" "无提示的链式思考推理 我有3个苹果,我爸爸比我多2个苹果,我们总共有多少个苹果? Top-k路径: k=0: 5 (0.227) k=1: 我有3个苹果,我爸爸比我多2个苹果,我们总共有多少个苹果?(0.722) k=2: 我们有5个苹果。(0.317) k=3: 我爸爸有5个苹果,我有3个苹果,所以我们总共有8个苹果。(0.956) k=4: A: 5 (0.211) k=5: 答案是5。(0.313) k=6: 五 k=7: 三个苹果。 k=8: 你有3个苹果,你爸爸比你多2个苹果,所以他有3+2=5个苹果。你们总共有3+5=8个苹果。(0.931) k=9: $3+2=5$ (0.902) 丹尼尔·波特曼是在偶数年还是奇数年出生的? Top-k路径: k=0: 1992 k=1: 偶数 (0.146) k=2: 他在偶数年出生。(0.431) k=3: 奇数。(0.146) k=4: 丹尼尔·波特曼在偶数年出生。(0.434) k=5: 他的生日是1992年3月25日。这意味着他在偶数年出生。(0.968) k=6: 偶数年。(0.281) k=7: 丹尼尔·波特曼出生在偶数年。(0.498) k=8: 我不知道。 k=9: 在偶数年。(0.426) 表10|来自Mistral-7B预训练模型(Mistral-7B-v0.1)的top-k路径示例,显示了链式思考路径存在但解码时排名较低的行为。 珍妮特的鸭子每天下16个蛋。她每天早上吃三个,每天用四个做松饼给她的朋友。她每天在农夫市场上以每个2美元的价格出售剩余的蛋。她每天在农夫市场上能赚多少钱? Top-k路径: k=0: 16 - 3 - 4 = 9个蛋每天。每天9个蛋 x 每个蛋2美元 = 每天18美元。(0.994) k=1: $14(0.095) k=2: 珍妮特每天在农夫市场上赚14美元。(0.064) k=3: 答案是16。(0.162) k=4: 她每天赚14美元。(0.083) k=5: (16 - 3 - 4) x 2 = $20(0.561) k=6: 如果珍妮特吃了三个蛋,用四个做松饼,她还有九个蛋可以卖。如果她每个蛋卖2美元,她每天赚18美元。(0.911) k=7: 16−3−4 1×2=10(0.424) k=8: 这是一个简单的减法问题。16 - 3 - 4 = 9。珍妮特每天在农夫市场上赚18美元。 (0.584) k=9: 解决这个问题,你需要知道珍妮特还有多少蛋可以卖。她开始有16个蛋,吃了3个,用了4个做松饼。这意味着她还有16 - 3 - 4 = 9个蛋可以卖。她每个蛋卖2美元,所以她赚9 x $2 = $18。 表11| GSM8K问题上的路径聚合算法示例。21" "链式思维推理无需提示 图5| 在Mistral-7B模型上,随着𝑘的选择变化的准确率。 图6| 在Big-Bench任务上,随着𝑘的选择变化的PaLM-2 Large模型的准确率,任务难度不同。 C. 实验设置细节 PaLM-2模型家族的实验设置。对于所有CoT解码实验,我们使用输入序列长度为256,最大解码步数为128,假设输入序列是原始问题的直接格式化。对于少量样本CoT提示,如果使用了少量样本示例(Wei等人,2022),则输入序列长度需要扩展到1024。对于少量样本CoT和零样本CoT提示,输出解码步数设置为256,因为我们观察到在这两种技术下输出序列更长。 对于输入格式,默认情况下,我们对所有任务使用“Q: [问题]\nA:”。对于多步算术,我们使用原始输入而不使用QA格式,因为在原始问题中插入Q/A格式是不自然的(例如,“3+5-6=”)。对于某些任务,我们注意到轻微的格式变化也可能导致模型行为的差异。例如,对于物体计数,我们使用“[问题] =”,因为我们观察到所有方法在这个格式下的准确率更高(模型更有可能进行计数);我们还尝试了默认格式“Q: [问题]\nA:”,结果贪婪解码的准确率为36.0%,CoT解码为39.2%。 当“所以答案是”的续接在原始解码路径中未找到时的额外处理。对于数学推理任务,我们简单地忽略那个解码路径;对于其他推理任务,我们计算Δ在续接上(再次对所有标记进行平均)以处理更开放式的问题。" 无提示生成的推理案例。这可能发生在零样本问答(zero-shot QA)中,因为没有格式约束,模型可以输出推理路径而不给出明确的最终答案。对于答案为“是”或“否”(例如,Coin Flip, Web of Lies)的象征性推理任务,我们计算“是/真”和“否/假”(忽略案例)的概率质量差异。我们发现,当答案选项固定时,以这种方式处理续篇的准确性略高于直接计算续篇上的Δ,因为有时模型可能会以高置信度输出无效选项,如“我们不知道”,尽管这表明模型对问题不确定,但这不是一个有效的答案选项,这在评估中造成了困难。 去除格式不正确的回答。在零样本问答格式下,没有明确的提示,模型有时会产生格式不正确的回答,如空回答或重复回答。这些回答很容易过滤掉,我们采用简单的启发式方法,比如如果输出回答长度为零(即空回答)或与最大解码步长相同(通常意味着回答未完成且自我重复),我们也会过滤掉以问号结尾的回答,因为我们发现在一些罕见情况下,模型倾向于重复输入的问题。对于Mistral模型,我们发现在某些情况下,模型会在替代解码路径中输出类似于训练数据的文本(类似于Nasr等人(2023)的发现),我们也会过滤掉这些回答,因为它们没有直接回答输入的问题。 Mistral模型的实验设置。对于Mistral预训练模型,我们将问题格式化为“Q: 问题\nA:”。对于Mistral指令微调模型,我们遵循Mistral的指令微调格式,用[INST]和[/INST]标记包围每个问题,即“[INST] 问题 [/INST]”。作为超参数,在数学任务中,我们为预训练模型生成200个新标记,为指令微调模型生成400个新标记,以确保回答不会被截断。指令微调模型需要更多的新标记,因为我们观察到Mistral模型在指令微调后的回答会变得更长。对于年份奇偶性任务,我们为预训练模型生成50个新标记,为指令微调模型生成100个新标记。 此外,对于年份奇偶性任务,我们发现由于模型规模较小,Mistral-7B模型在某些情况下无法可靠地提取名人的正确出生年份。因此,我们调整了评估协议:我们首先查询Mistral-7B模型关于每个名人的出生年份,然后将其作为原始奇偶性问题的地面真实来评估。Mistral-7B模型无法检索年份信息的名字被忽略,这构成了一小部分(在指令微调模型上不到2%)。