这篇论文探讨了大型语言模型(LLMs)在上下文学习(in-context learning)中的不确定性分解与量化问题。上下文学习是LLMs的一项突破性能力,通过在提示(prompt)中提供与任务相关的示例,LLMs能够快速理解任务意图并作出相应回应。然而,LLMs的响应也存在可信赖性问题,如幻觉(hallucination),这引起了广泛关注。 论文的主要贡献包括: 1. 提出了一个问题:当LLMs在上下文学习中预测错误答案且不确定性很高时,我们能否确定这种不确定性是由示例(demonstration examples)还是模型本身(model itself)引起的? 2. 提出了一种新的框架,从贝叶斯神经网络的角度将预测不确定性分解为来自数据的不确定性(aleatoric uncertainty)和与模型配置相关的不确定性(epistemic uncertainty)。 3. 设计了一种基于互信息的新颖方法来量化这两种不确定性,并提出了一种基于熵的估计方法来处理LLMs的自由形式输出。 4. 通过广泛的实验验证了分解方法的有效性,并展示了两种不确定性如何影响模型性能。 论文还讨论了不确定性量化在自然语言处理(NLP)任务中的应用,如情感分析、语言可接受性判断和主题分类。实验结果表明,所提出的方法在评估误分类样本的不确定性得分方面表现优于现有方法。此外,论文还探讨了如何使用不确定性得分来检测与领域无关(out-of-domain)的示例,以及在语义上与给定示例和提示有差异的测试样本(semantic out-of-distribution samples)。 论文的局限性在于,所提出的框架可能仅适用于自然语言理解任务,而在生成任务中的不确定性量化可能受到限制,因为无法确定生成序列中哪部分是语义上重要的。尽管如此,这项研究为理解和量化LLMs在上下文学习中的不确定性提供了重要的一步,有助于更好地利用LLMs的潜力,同时清晰地了解它们的性能边界。 在上下文中学习的大型语言模型的不确定性分解与量化 陈凌1,赵旭江2,程伟2,刘延驰2,孙一游2, 张旭超3,Mika Oishi4,Takao Osaki4,松田胜4, 季杰1,白广吉1,赵亮1,陈海峰3 1艾默里大学,2NEC Labs America,3微软,4NEC公司 chen.ling@emory.edu, xuzhao@nec-labs.com 摘要 在上下文中学习已经成为大型语言模型(LLM)的一项开创性能力,通过在提示中提供与任务相关的几个示范,它已经革新了各个领域。然而,LLM响应的可信度问题,如幻觉,也一直在积极讨论中。现有的研究致力于量化LLM响应的不确定性,但它们往往忽视了LLM的复杂性和在上下文中学习的独有性。在这项工作中,我们深入研究了与在上下文中学习相关的LLM的预测不确定性,强调这种不确定性可能源于提供的示范和与模型配置相关的歧义。我们提出了一种新的公式和相应的估计方法来量化这两种类型的不确定性。所提出的方法提供了一种无监督的方式来以即插即用的方式理解在上下文中学习的预测。进行了广泛的实验来证明分解的有效性。代码和数据可在以下网址获取:https://github.com/lingchen0331/UQ_ICL。 1 引言 大型语言模型(LLM)通过作为通用任务解决者,已经在多个领域取得了革命性的进展,这主要归功于其新兴的能力:在上下文中学习。通过将任务示范作为提示的一部分提供给LLM,LLM可以快速把握意图并针对特定任务做出相应的响应。在这种范式下,LLM可以在推理时快速适应解决新任务。 先进的LLM,如GPT-4和LLaMA,在LAMBADA、TriviaQA以及其他领域的许多任务上取得了最先进的结果。 尽管在上下文中学习取得了显著的成功,LLM仍然容易受到幻觉等已知可靠性问题的影响。不确定性量化已经成为评估LLM响应可靠性的一种流行策略。在过去两年中,已经提出了许多方法来量化LLM响应的不确定性。这些方法可以返回一个置信度分数或直接计算多个LLM响应之间的方差/熵;然而,它们往往忽视了LLM的复杂性以及它们在上下文中学习时对提供的示范的依赖,因此现有方法可能无法提供对不确定性的根本原因或不同因素之间相互作用的洞察。 因此,一个自然的问题出现了:当LLM使用在上下文中学习来预测一个高不确定性的错误答案时,我们能否指出它是由于示范例子还是模型本身造成的?鉴于LLM对特定任务的响应,将其不确定性分解为其主要来源是至关重要的。具体来说,阿勒托里不确定性(Aleatoric Uncertainty)指的是数据中的变异,通常与示范例子相关。如图1所示,LLM的输出很容易受到不适当的示范的影响,因为提供的示范没有涵盖所有可能的标签。这些示范的噪声和潜在歧义可能会带来不确定性,进而可能影响响应的准确性。相比之下,认识不确定性(Epistemic Uncertainty)源于与模型参数或不同配置相关的歧义。如图1所示,不同的解码策略及其超参数设置可能会有不同的解码结果。 这段内容是关于大型语言模型(LLMs)在上下文学习(in-context learning)中的不确定性分解的研究。下面是对这段内容的中文翻译: 示例 #1: 我没有感到羞辱 标签: 0 悲伤 示例 #2: 我感到有些负担 标签: 0 悲伤 示例 #3: 我感觉精力低落 标签: 0 悲伤 示例 #4: 爸爸会发火 标签: 3 愤怒 测试: 我觉得她被逗乐了 LLM 预测: [2: 爱] 贪婪搜索 答案: 1: 快乐 答案: 2: 爱 Top-K 采样[1: 快乐],请让... 参数设置 ngram_size, #beams, 等等 if_sampling, seq_length, 等等 预测 top_k, top_p, 等等 错误 图1: LLM 预测中的不确定性可能源于两个方面:a) 示范质量:如果示范不合适,LLMs 可能会做出错误的预测;b) 模型配置:不同的解码策略(例如,贪婪搜索和 Top-K 采样)及其参数设置可能会返回不同的预测结果。从模型的角度识别和量化不确定性对于评估生成的响应也至关重要,这使我们能够理解模型对任务的信心水平,并进行必要的调整(例如,选择更强大的模型或进行集成预测)。 尽管现有工作在理解总体不确定性方面取得了进展,但在上下文学习领域的不确定性分解仍然未被充分探索。在这项工作中,我们提出了一个新的框架,用于从生成输出中分解不确定性为偶然性和认识性成分。我们的贡献总结如下。 • 问题。我们从预测分布的角度,将不确定性分解问题公式化为从上下文学习中提取 LLMs 的认识性和偶然性不确定性。 • 方法。我们提出从互信息的角度量化认识性和偶然性不确定性。还设计了一种基于熵的新方法来处理 LLMs 的自由形式输出。 • 实验。进行了广泛的实验来评估不确定性的不同方面,随后通过特定应用和案例研究来展示两种类型的不确定性如何影响模型的性能。 2 上下文学习的不确定性分解 我们首先将上下文学习过程公式化为具有潜在变量的贝叶斯神经网络。基于这个公式,我们提出从互信息的角度分解预测不确定性为其认识性和偶然性成分,随后提出一种基于预测分布熵的新方法来估计这两种不确定性。 2.1 背景 LLMs 通常在大量文本语料库上使用最大似然估计进行训练。训练目标是在模型下最大化观察数据的可能性: L(Θ) = Q i≤N p(ωi|ω1, ω2, ..., ω i−1; Θ),其中每个 ωi∈x 是句子 x=[ω1, ..., ω N] 中的一个标记,Θ 表示参数集合。 潜在概念。从贝叶斯的角度来看,LLM 的上下文学习能力是通过将训练标记序列 x 映射到潜在概念 z(Xie et al., 2021)获得的。概念 z 是从概念空间 Z 中采样的潜在变量,它定义了一个从训练上下文 x 中观察到的标记 ω 的分布: p(ω1, ..., ω N) = Z z∈Z p(ω1, ..., ω N|z)p(z)dz。 概念可以解释为各种文档级统计信息,例如文本的一般主题、文本的结构/复杂性、文本的整体情感基调等。 上下文学习。给定一个独立同分布(i.i.d.)的上下文示范列表(包含问题和答案)[x1, ..., xT−1],以及一个测试问题(没有任务答案)xT 作为提示。提示中的每个示范 xi 都是基于相同的概念 z 条件生成的,并描述了要学习的任务。LLMs 生成... (注:由于原文内容较长,这里只翻译了部分内容。) 基于聚合提示 x1:T 的测试问题 xT 的响应: p(yT|x1:T) = ∫z∈Z p(yT|x1:T, z)p(z|x1:T)dz。 在上下文学习中,可以将其解释为基于提供的演示 x1:T−1 定位一个预先存在的概念 z,然后利用这个概念来解决新任务 xT。在提示中包含更多高质量的演示可以帮助细化对相关概念的关注,通过边缘化项 p(z|x1:T) 来实现概念的选择。 在这项工作中,我们专注于量化大型语言模型(LLMs)在确定性自然语言处理(NLP)任务中的预测不确定性,例如文本分类。具体来说,我们关注的是训练数据集 D={X,Y},其中 X={x} 是标记序列,Y={y} 是相应的目标输出。对于 LLMs,生成过程由函数 y=f(x, z; Θ) 定义,其中 f:X × Z → Y 是一个确定性函数。输出 y 表现出随机行为,受到潜在概念 z∼p(z|x1:T) 和模型参数/配置 Θ(例如,温度等)的影响。 2.2 上下文学习预测不确定性的公式化 我们为给定少量演示 x1:T−1 和测试案例 xT 预测 yT 的上下文学习预测分布公式化为: p(yT|x1:T)≈∫z p(yT|Θ,x1:T, z) (1) ·p(z|x1:T)q(Θ)dz, 其中 p(yT|Θ,x1:T, z) 由基于贝叶斯神经网络的似然函数 N(f(x1:T, z),Σ) 近似,Σ 是包含与 LLM 参数相关的方差和协方差的协方差矩阵。q(Θ) 是 LLM 参数 Θ 的近似后验。方程 (1) 作为基于输入数据和伴随演示生成预测的初始框架:p(yT|x1:T),它纠缠了不同类型的不确定性。我们首先介绍基于互信息(第 2.3 节)分解总不确定性的框架,然后是估计不确定性的新方法(第 2.4 节)。请注意,LLMs 可以根据其透明度分为白盒和黑盒模型(Ling et al., 2023b)。 LLM 输入𝒙! 训练集𝒙":!$"∼𝝌Θ%∼𝑞(Θ) 输出𝒚!"Θ"Θ&𝝌𝒚!"∼𝑝(𝒚!|Θ", 𝒙#:!, 𝑧) 𝑧∼𝑝(𝑧|𝒙":!) 输出𝒚!"图 2: 上下文学习不确定性量化流程:我们想要量化来自 1) 不同上下文演示 x1:T; 和 2) 不同模型配置 Θl 的不确定性。 量化互信息涉及访问生成的标记的概率,这在黑盒 LLMs 中不适用。在这项研究中,我们还提供了一种从方差角度分解黑盒 LLMs 的方法。由于空间限制,基于方差的分解可以在附录 A.1 中找到。 框架流程。在这项工作中,我们采用贝叶斯框架来量化 LLMs 的预测不确定性,整体流程如图 2 所示。具体来说,输入 x1:T 由测试查询 xT 和从 X 中采样的演示集 x1:T−1 组成。通过采样不同的模型参数/配置 Θl∼q(Θ),LLM 可以根据条件概率 p(yT|Θl,x1:T, z) 返回不同的输出 yl T∈[y1 T,···,yL T]。输出集合 [y1 T,···,yL T] 记录了关于 Θl 和演示 x1:T−1 的总不确定性。 2.3 基于熵的分解 作为一种广泛采用的不确定性度量,熵提供了一个可量化和可解释的度量,以评估模型预测的信心程度(Malinin and Gales, 2020)。由于白盒 LLMs 可以返回生成序列中每个标记的概率,因此基于熵的不确定性度量自然适用于不同类型的白盒 LLMs。 认知不确定性(EU)。设 H(·) 为概率分布的微分熵,方程 (1) 中的总不确定性 演示采样 LLM 解码序列 答案概率 答案是 0,因为… 𝑃′0′=0.89 基于上下文,我们应该选择 0。 𝑃′0′=0.73 基于上下文,我们应该选择 2。 正确标签是 1。 𝑃′1′=0.81 训练集 𝒙+:-.+ 束搜索 #束的数量 = 𝑀 分类文本的情感基于以下类别:[0: 悲伤;1: 快乐,2: 爱;3: 愤怒]。句子 𝒙𝑇: 我觉得她被逗乐了。 01230.89+0.73=1.620.8100.65 答案分布 演示集 #1 演示集 #1 演示集 #2 演示集 #3 1.622.570.9710.810.591.6520.650.230.383000.67 演示采样 LLM 解码序列 答案概率 答案是 0,因为… 𝑃′0′=0.89 基于上下文,我们应该选择 0。 𝑃′0′=0.73 基于上下文,我们应该选择 2。 正确标签是 1。 𝑃′1′=0.81 训练集 𝑃′2′=0.65 𝒙+:-.+ 束搜索 #束的数量 = 𝑀 总不确定性 认识不确定性 概率矩阵 随机不确定性 图 3: 基于熵的不确定性估计框架,包括 1) 基于 x1:T−1 的集合生成 M 个序列;2) 选择与答案相关的 token(s) 并提取概率;3) 将 M 个序列的 token 概率聚合成预测标签的分布;4) 对应于 L 个不同的演示集迭代过程 L 次,形成一个概率矩阵 M,其中列表示不同的演示集,行表示数据集的标签。 可以表示为 Ez[H(yT|x1:T, z,Θ)],作为量化 Eq. (1) 中认识不确定性的度量。 随机不确定性 (AU)。在 AU 方面,随机性来自于不同的演示集 x1:T−1 和它们对应的潜在概念 z。为了估计 AU,我们可以量化 yT 和潜在概念 z 之间的互信息,这通常可以作为 AU 的评估指标(Wimmer et al., 2023)。由于我们已经获得了认识不确定性,AU 随后可以计算为总不确定性和认识不确定性之间的差异: I(yT, z|Θ) =H(yT|x1:T,Θ) (2) −Ez[H(yT|x1:T, z,Θ)]。 熵 H(yT|x1:T,Θ) 可以近似计算为 −P t p(ωyT t)·logp ωyT t ,其中 p(ωyT t) 表示给定输入提示 x1:T 的每个可能的下一个 token ωyT t 的概率。 因此,Eq. (2) 中的 AU 可以通过采样多个 z(通过采样不同的演示集)来近似,以获得基于一组参数 Θ 的不同 yT: I(yT, z|Θ) (3) =H(yT|x1:T,Θ)−Ez[H(yT|x1:T, z,Θ)] ≈M×LX H(yT)−1 MMX m=1LX l=1h H(yΘm,l T)i 其中 [yΘm,l T] 是对应于不同的演示集 [x1 1:T−1, . . . ,xL 1:T−1] 获得的,而 [Θ1, . . . , ΘM] 是从 q(Θ) 中采样的。对于一些不允许从学习到的 q(Θ) 中采样不同参数集的标准贝叶斯神经网络的 LLM,我们可以利用不同的解码策略(例如,束搜索或多项式采样)来使 LLM 输出随机性。此外,由于计算熵 H(yT) 需要获得生成 token 的联合概率 p(yT) = (ωyT 1, . . . , ωyT T),基于熵的方法可能仅适用于白盒 LLM。 2.4 熵近似 在某些情况下,LLM 的生成是自由形式的,这使得上下文学习 在这项任务中,大型语言模型(LLM)被要求直接输出代表预定义类别的数值(例如,0:悲伤,1:喜悦等)。然后,代表数值的标记ωyT的概率被用来表示p(yT)的整体分布。我们从所有M个解码序列中聚合答案概率,并将其转换为答案分布(如图3右上角所示)。重复L次这个过程,其中L对应于L组不同的示例集,我们得到一个矩阵,记录了选择不同示例和模型配置的答案分布(如图3右下角所示)。然后,期望效用(EU)和平均效用(AU)可以近似为: EU = 1/L * Σ(H(σ(M:,j))) AU = H(σ(M:,j)) - 1/L * Σ(H(σ(M:,j))) 其中σ(·)将列M:,j规范化为概率分布,熵H(·)可以计算为 -Σ(p(Mk,j) * log(p(Mk,j))),如果标签的数量是K的话。 3 相关工作 不确定性量化与分解 不确定性量化旨在衡量模型预测的置信度,这在各个领域都引起了关注(Zhao et al., 2020; Ling et al., 2022; Malo et al., 2014)。在许多实际的自然语言处理(NLP)应用中,测量不确定性是至关重要的,因为在这些应用中,以高置信度做出错误预测可能是灾难性的(例如,评估翻译的置信度或生成的信息)。这在基础模型中尤为重要,因为我们没有足够的资源来微调模型(Abdar et al., 2021)。为了更好地理解不确定性,主要关注的是理解和分类不确定性的来源,以便更有效地解释模型的输出。输出不确定性通常可以分为两类:由数据固有噪声引起的偶然不确定性(Aleatoric Uncertainty)和由模型架构不当或参数过拟合/欠拟合引起的认识不确定性(Epistemic Uncertainty)。现有的方法(Chowdhary and Dupuis, 2013; Depeweg et al., 2017; Malinin and Gales, 2020)提出了各种方法(例如,贝叶斯神经网络、深度集成和蒙特卡洛dropout)来分解不确定性。语言模型中的不确定性。早期关于语言模型不确定性的工作(Xiao and Wang, 2019; Desai and Durrett, 2020; Jiang et al., 2021)专注于通过校准分类器(例如,对模型参数应用dropout或利用集成投票)来更好地评估生成输出的置信度。当涉及到LLM时代时,多项工作(Xiao and Wang, 2021; Xiao et al., 2022; Lin et al., 2022; Yu et al., 2022; Lin et al., 2023; Kuhn et al., 2023; Fadeeva et al., 2023)提出了在多个方面(例如,词汇不确定性、文本不确定性和语义不确定性)测量LLM预测的不确定性,用于多个NLP任务。另一系列工作(Kadavath et al., 2022; Zhou et al., 2023; Amayuelas et al., 2023)则试图分析如何正确地从语言模型中提取知识,并用置信度分数自我评估正确性。然而,尽管这些努力值得称赞,现有的方法仍然缺乏一种有效的方式来直接量化和分解LLM在上下文学习输出中固有的不确定性。 4 实验 我们在现实自然语言理解问题上评估不确定性分解过程。通过比较最先进的不确定性量化方法,我们旨在检验哪种类型的不确定性是LLM高置信度的最有力指标。此外,我们还提供了泛化分析和两个特定的分布外检测应用。由于空间限制,额外的实验和实验设置在附录中提供。 4.1 实验设置 我们在不同模型大小的开源LLM上评估分解的不确定性。我们利用LLAMA-2(Touvron et al., 2023),这是最广泛应用的开放LLM,包括其7B、13B和70B模型大小。主要实验是使用LLAMA-2模型进行的。为了进一步展示我们方法的泛化能力,我们将我们的不确定性量化方法应用于OPT-13B(Zhang et al., 2022)。 数据。我们考虑不同的自然语言理解任务。1)情感分析:EMOTION(Saravia et al., 2018)包含2000个测试案例和六个类别;金融短语库(Financial Phrasebank,Financial)(Malo et al., 2014)包含850个金融相关的测试案例,分为六个类别。 新闻和三种情感类别;斯坦福情感树库v2(SST2)(Socher等人,2013年) 由872个电影评论句子组成,分为两类。2)语言可接受性。语言可接受性语料库(COLA)(Warstadt等人,2019年)是关于英语可接受性判断的,有1,040个测试案例和两类。 3)主题分类。AG_News(Zhang等人,2015年)包含1,160个测试案例和四类。 演示和模型配置抽样。我们在每个数据集的测试集上评估每种方法,并选择两种策略来随机抽样上下文学习演示。 1)随机:我们从训练集中随机抽样演示(带标签的训练实例),不考虑它们的标签。2)类别:我们随机抽样演示,但确保每个标签类别至少有一个演示。为了基于一组演示生成各种序列,我们采用束搜索(beam width = 10)来近似Θ∼q(Θ)的采样过程。 比较方法。我们的研究还评估了以下基线不确定性估计方法:1)基于似然的不确定性(Likelihood)(Malinin和Gales,2020年)计算从语言模型生成的所有标记的对数概率之和,并按序列长度进行归一化。2)基于熵的不确定性(Entropy)(Xiao和Wang,2019年)计算生成标记的概率分布的熵。3)语义不确定性(Semantic)(Kuhn等人,2023年)是最先进的基于熵的不确定性估计方法,它根据其语义嵌入将生成的序列分组。所有组的平均熵被视为不确定性分数。 评估指标。我们展示了每个数据集的预测准确率。此外,我们利用两个标准指标:精确率-召回率曲线下面积(AUPR)和AUROC(ROC)来评估不确定性。AUPR计算精确率-召回率曲线下的面积。当精确率和召回率都高时,AP很高,而当任一指标低时,AP很低。ROC表示正确答案被选中的可能性。理想的ROC评分为1,而随机不确定性估计的ROC = 0.5。 4.2 定量分析 我们比较了不同方法在基于其视角不确定性分数评估错误分类样本方面的性能。直观地说,错误分类的样本应该具有更大的不确定性分数。结果如表1所示。 请注意,我们提出的方法可以将不确定性分解为认识不确定性(EU)和偶然不确定性(AU),因此我们分别展示了EU和AU的性能。 如表所示,在大多数情况下,我们提出的方法(EU和AU)在所有数据集上持续显示出更高的AUPR和ROC分数,这表明在基于不确定性分数评估错误分类样本方面表现更好。此外,我们还从表中得出了一些观察结果。1. 类别抽样策略证明更有效:类别抽样策略通常在数据集上产生更高的AUPR和ROC分数,这证明了它比随机演示抽样更有效。类别抽样确保每个类别在样本中都有代表,减少了抽样偏差,这在数据集可能不平衡或某些类别代表性不足的情况下至关重要。2)增加模型大小提高性能:更大的模型(从7B到70B)在AUPR和ROC方面表现更好。具体来说,随着模型大小从7B增加到13B再到70B,所有比较方法的AUPR和ROC分数普遍呈上升趋势。有些数据集和指标并不严格遵循这一趋势。例如,在EMOTION数据集中,70B模型有时表现略低于13B模型。随着模型大小的增加,EU的性能提升不一致,特别是对于EU,这暗示了在不同上下文和数据集中不确定性评估的复杂性。3. 在不确定性量化中平等对待所有标记可能是有害的:Likelihood和Entropy Uncertainty平等对待所有标记。然而,由于“语言冗余”现象,有些标记比其他标记具有更大的相关性和代表性。然而,大多数不确定性估计方法在估计不确定性时平等对待所有标记,忽视了这些固有的生成不平等。 4.3 泛化能力 在这项工作中,我们还展示了我们的方法在应用于不同的大型语言模型(LLMs)时的表现。我们比较了使用OPT-13B和LLAMA-2-13B时的错误分类率。 推理模型 ACC 似然 熵 语义 我们的 我们的 AUPR ROC AUPR ROC AUPR ROC AUPR ROC AUPR ROC 情感 LLAMA-7 B-随机 0.407 0.423 0.426 0.448 0.501 0.598 0.607 0.688 0.667 0.625 0.579 LLAMA-7 B-类别 0.411 0.562 0.423 0.657 0.538 0.697 0.653 0.745 0.696 0.691 0.601 LLAMA-13 B-随机 0.501 0.597 0.613 0.584 0.503 0.612 0.625 0.645 0.681 0.559 0.585 LLAMA-13 B-类别 0.533 0.641 0.578 0.593 0.554 0.652 0.701 0.622 0.686 0.526 0.599 LLAMA-70 B-随机 0.584 0.512 0.462 0.491 0.452 0.657 0.696 0.667 0.713 0.531 0.663 LLAMA-70 B-类别 0.592 0.537 0.484 0.469 0.442 0.622 0.689 0.659 0.721 0.612 0.693 金融 LLAMA-7 B-随机 0.379 0.821 0.532 0.728 0.438 0.715 0.624 0.731 0.672 0.669 0.582 LLAMA-7 B-类别 0.397 0.593 0.505 0.548 0.362 0.732 0.699 0.803 0.711 0.753 0.589 LLAMA-13 B-随机 0.476 0.894 0.571 0.652 0.463 0.705 0.545 0.718 0.512 0.729 0.573 LLAMA-13 B-类别 0.477 0.752 0.594 0.692 0.531 0.694 0.543 0.765 0.610 0.758 0.592 LLAMA-70 B-随机 0.530 0.816 0.509 0.754 0.493 0.679 0.688 0.779 0.754 0.734 0.642 LLAMA-70 B-类别 0.537 0.668 0.469 0.623 0.439 0.774 0.649 0.893 0.804 0.739 0.659 SST-2 LLAMA-7 B-随机 0.856 0.149 0.636 0.135 0.587 0.244 0.593 0.286 0.683 0.205 0.702 LLAMA-7 B-类别 0.897 0.230 0.666 0.196 0.579 0.253 0.577 0.248 0.701 0.302 0.673 LLAMA-13 B-随机 0.866 0.268 0.472 0.204 0.467 0.355 0.712 0.314 0.677 0.326 0.816 LLAMA-13 B-类别 0.928 0.178 0.425 0.113 0.439 0.343 0.631 0.397 0.836 0.367 0.639 LLAMA-70 B-随机 0.932 0.091 0.597 0.137 0.475 0.258 0.565 0.318 0.764 0.298 0.571 LLAMA-70 B-类别 0.938 0.132 0.552 0.185 0.531 0.312 0.679 0.331 0.851 0.362 0.697 COL LLAMA-7 B-随机 0.599 0.388 0.557 0.329 0.443 0.358 0.502 0.416 0. "0.0 0.2 0.4 0.6 0.8 1.0 0.5 0.6 0.7 0.8 0.9 1.0 基线 精确度-召回率_EU 精确度-召回率_AU PR由OPT-13B提供 0.0 0.2 0.4 0.6 0.8 1.0 0.5 0.6 0.7 0.8 0.9 1.0 基线 精确度-召回率_EU 精确度-召回率_AU PR由LL AMA-2-13B提供 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 ROC_EU ROC_AU 由OPT-13B提供的ROC曲线 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 ROC_EU ROC_AU 由LL AMA-2-13B提供的ROC曲线 图4:在EMOTION数据集上使用两种大型语言模型(LLMs):OPT-13B和LLAMA-2-13B的性能,以及OPT-13B和LLAMA-2-13B的精确度-召回率曲线;以及OPT-13B和LLAMA-2-13B的ROC曲线。 语义我们的 我们的 AUPR ROC AUPR ROC AUPR ROC 相关0.702 0.644 0.742 0.935 0.657 0.682 OOD Demo0.698 0.712 0.784 0.941 0.773 0.607 表2:使用LLAMA-2-13B在EMOTION数据集上进行的领域外(OOD)演示检测。 1. AUPR和ROC分析是基于标签和不确定性分数进行的,结果总结在表2中。具体来说,我们在EMOTION数据集上进行了两个场景的实验:领域内演示和相关演示。此外,我们比较了领域内演示与完整的OOD演示。 如表2所示,与最先进的语义不确定性和AU相比,EU在检测不太相关和OOD演示方面表现出最好的指标。直观上,模型的预测会受到不相关和OOD演示的影响,表现出大的变异性。由于演示已经具有很大的固有变异性,AU在检测OOD演示方面不如EU有效。语义不确定性实际上无法区分预测不确定性的根本原因。 4.5 语义领域外检测 语义领域外检测指的是从给定的演示和提示中区分出具有语义变化的测试样本。在这项研究中,我们屏蔽了一些类别,要求LLM将测试样本分类到其余类别中。这种方法预期会返回SOOD测试样本的更高不确定性分数。语义我们的 我们的 AUPR ROC AUPR ROC AUPR ROC 7B 0.477 0.532 0.548 0.658 0.461 0.570 13B 0.417 0.468 0.525 0.592 0.414 0.437 表3:使用LLAMA-2 7B和13B在EMOTION数据集上进行的语义领域外检测。 具体来说,我们从EMOTION数据集的六个类别中屏蔽了两个类别1:悲伤和2:愤怒,并要求LLM仅将给定的测试样本分类到其余四个类别中。SOOD样本被标记为1,而领域内样本被标记为0。AUPR和ROC的结果记录在表3中,以不同模型大小为依据。 如表所示,EU仍然是识别SOOD样本的最佳指标,跨越不同的模型大小。SOOD样本在语义上与提供的演示不同,并且任务描述也屏蔽了这些SOOD样本的正确类别,导致模型预测的不确定性更高。鉴于不适当的任务描述和演示,AU在SOOD样本存在时可能不会表现得更好。 5 结论 为了更好地理解和量化LLM的上下文学习所固有的不确定性,我们提供了一种新的方法,从贝叶斯的角度将预测不确定性分解为其随机性和认识性。我们还提供了基于分解的不同不确定性的新颖近似方法。进行了广泛的实验来验证所提出方法的有效性和优于其他方法的性能。我们相信这项研究是迈向充分利用LLM的全部潜力的重要一步,同时对其性能边界保持敏锐的认识。" 限制 所提出的工作旨在量化预测不确定性并将其分解为偶然性和认识性两部分。虽然我们可以在与其他方法相比中取得最佳结果,但所提出的框架可能仅适用于自然语言理解任务。由于我们无法确定生成序列中哪一部分在语义上是重要的,因此所提出的不确定性估计算法在量化生成任务的不确定性方面可能使用有限。 参考文献 Moloud Abdar, Farhad Pourpanah, Sadiq Hussain, Dana Rezazadegan, Li Liu, Mohammad Ghavamzadeh, Paul Fieguth, Xiaochun Cao, Abbas Khosravi, U Rajendra Acharya, 等。2021。深度学习中的不确定性量化:技术、应用和挑战。信息融合,76:243–297。 Alfonso Amayuelas, Liangming Pan, Wenhu Chen, 和 William Wang。2023。知识的知识:通过大型语言模型探索已知未知的不确定性。arXiv预印本 arXiv:2305.13712。 Guangji Bai, Zheng Chai, Chen Ling, Shiyu Wang, Jiaying Lu, Nan Zhang, Tingwei Shi, Ziyang Yu, Mengdan Zhu, Yifei Zhang, 等。2024。超越效率:系统性调查资源高效的大型语言模型。arXiv预印本 arXiv:2401.00625。 Kamaljit Chowdhary 和 Paul Dupuis。2013。区分和整合不确定性量化中的偶然性和认识性变异。ESAIM: 数学建模和数值分析-数学建模与数值分析,47:635–662。 Stefan Depeweg, José Miguel Hernández-Lobato, Finale Doshi-Velez, 和 Steffen Udluft。2017。具有潜在变量的贝叶斯神经网络中的不确定性分解。arXiv预印本 arXiv:1706.08495。 Shrey Desai 和 Greg Durrett。2020。预训练变换器的校准。arXiv预印本 arXiv:2003.07892。 Ekaterina Fadeeva, Roman Vashurin, Akim Tsvigun, Artem Vazhentsev, Sergey Petrakov, Kirill Fedyanin, Daniil Vasilev, Elizaveta Goncharova, Alexander Panchenko, Maxim Panov, 等。2023。Lm-polygraph:语言模型的不确定性估计。arXiv预印本 arXiv:2311.07383。 Zhengbao Jiang, Jun Araki, Haibo Ding, 和 Graham Neubig。2021。我们如何知道语言模型知道什么?关于问答中语言模型的校准。计算语言学协会交易,9:962–977。 Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiehfer, Zac Hatfield-Dodds, Nova DasSarma, Eli Tran-Johnson, 等。2022。语言模型知道它们知道什么。arXiv预印本 arXiv:2207.05221。 Lorenz Kuhn, Yarin Gal, 和 Sebastian Farquhar。2023。语义不确定性:自然语言生成中不确定性估计的语言不变性。arXiv预印本 arXiv:2302.09664。 Zhen Lin, Shubhendu Trivedi, 和 Jimeng Sun。2023。带着信心生成:黑盒大型语言模型的不确定性量化。arXiv预印本 arXiv:2305.19187。 Zi Lin, Jeremiah Zhe Liu, 和 Jingbo Shang。2022。通过不确定性走向协作的神经-符号图语义解析。计算语言学协会发现:ACL 2022。 Chen Ling, Junji Jiang, Junxiang Wang, 和 Zhao Liang。2022。通过变分自编码器进行图扩散的源定位,用于图逆问题。在第28届ACM SIGKDD会议论文集,页码1010–1020。 Chen Ling, Xuchao Zhang, Xujiang Zhao, Yanchi Liu, Wei Cheng, Mika Oishi, Takao Osaki, Katsushi Matsuda, Haifeng Chen, 和 Liang Zhao。2023a。开放式常识推理与无限制答案候选。计算语言学协会发现:EMNLP 2023,页码8035–8047。 Chen Ling, Xujiang Zhao, Jiaying Lu, Chengyuan Deng, Can Zheng, Junxiang Wang, Tanmoy Chowdhury, Yun Li, Hejie Cui, Xuchao Zhang, Tianjiao Zhao, 等。2023b。领域专业化是使大型语言模型具有颠覆性的关键:一项全面调查。arXiv预印本