总结论文时安全检查不通过，跳过。
这篇文章介绍了一项旨在将多主体辩论引入多模态推理的初步研究。研究解决了两个关键挑战：由于过度总结而导致的观点平庸化，以及由图像引入的干扰概念导致的焦点偏移。这些挑战源于现有辩论方案的归纳性质。为了解决这个问题，我们提出了一种称为“图形上的蓝图辩论”（Blueprint Debate on Graphs，简称BDoG）的演绎辩论方法。在BDoG中，辩论被限制在一个蓝图图上，通过世界级别的总结防止观点平庸化。此外，通过在图的分支中存储证据，BDoG减轻了由频繁但无关紧要的概念引起的干扰。广泛的实验验证了BDoG，在科学问答（Science QA）和MMBench上取得了最先进的结果，比之前的方法有显著提升。

1 引言
多模态推理依赖于两个关键方面：从不同模态创建语义的统一表示，以及在确保逻辑一致性的同时整合这些多样化的语义。虽然大型语言模型的进步使得用自然语言表示语义成为可能[1]，但整合多样化的语义仍然是一个挑战，即使在纯粹的自然语言处理（NLP）任务中也是如此。解决这一挑战的一种方法是多主体辩论，其中多个大型语言模型作为代理，每个代理就目标主题贡献自己的视角，并通过辩论达成共识[4,16]。可以通过将每种模态的特定大型语言模型作为代理来采用这种方案。

尽管在多模态领域相对未被探索，多主体辩论（MAD）在更广泛的背景下遇到了许多挑战。MAD可能会遭受观点平庸化的问题，这是每个辩论回合结束时执行的总结步骤的结果。这一步的目的是寻求参与代理之间关于他们观点的一致意见。因此，这个过程可能导致辩论的焦点被引导向一个通用概念，作为适应不同语义范围的调整。图1中描绘的多模态语言模型的推理中可以观察到一个例子，其中图像模态呈现了一系列多样化的语义，包括熊草、蚯蚓、领圈旅鼠等。因此，这可能导致上下文和总结被平庸化，将重点从苔藓转移到更泛化的苔原生态系统概念，其中越橘和蘑菇表现出高度的相关性。当使用MAD时也存在类似的问题，总结者将多样化的语义总结为像生态系统和食物网这样的通用词汇，使得结论不够具体。此外，MAD可能会遇到焦点偏移的问题，当使用“思维链”（Chain-of-Thoughts，简称CoT）时，新引入的概念与特定概念高度相关，导致该概念在上下文中的权重增加。

我们认为，这些挑战是由于现有辩论方案的归纳性质而产生的，其中代理的观点是从单词级别的不同概念中收集的，并通过自下而上的总结达成共识。这种方法在有限的NLP任务中可能是有效的[8,9]，其中主题通常限于少数概念，CoT的应用仍然受到限制。然而，在多模态场景中，某些模态信息丰富，更有可能引入干扰概念[20]。因此，它增加了上下文中的语义分歧和平庸化的可能性。当CoT放大了这些概念的影响时，特别是当新引入的概念对某些概念有偏见时，语义分歧进一步增加，导致焦点偏移。

为了解决这个问题，我们提出了一个演绎推理方案，称为图形上的蓝图辩论（Blueprint Debate on Graphs，简称BDoG）。BDoG的灵感来自于在现实世界辩论中广泛使用的蓝图辩论，它通过专注于评估和完善解决特定挑战或问题的提案而与其他辩论区别开来。BDoG首先聚合来自模态的概念及其关系，并将它们纳入初始图。这个图作为一个蓝图，限定了讨论的范围，而不是像现有方案那样对不相关的语义开放。更重要的是，BDoG通过在图上记录结论以自上而下的方式进行辩论。这防止了平庸化，因为特定的概念被保留下来，而不是合并成一般概念。这可以从图1中的例子中找到，其中范围被限定在苔原生态系统，而特定的概念如越橘和蘑菇被特别强调。
这段文字是一篇关于人工智能辩论系统的研究论文的一部分。下面是这段内容的中文翻译：

"昌孟·郑，李大勇，张文宇，魏晓勇，蔡达松，和李青
输入：以下哪种生物体曾经包含过苔藓的物质？
越橘 蘑菇
基线模型：MLLM：越橘和蘑菇都包含曾经是苔藓的物质。
MLLM-CoT：理由：图像展示了苔原生态系统中几种动植物之间的食品关系... 苔藓是一种复合生物，由真菌和藻类组成。真菌提供了苔藓的物理结构，而藻类为真菌提供食物。
答案：两者都正确。BDoG蓝图：蚯蚓 驯鹿 被蘑菇吃掉 被吃掉 被分解 被吃掉 被分解 被吃掉 被熊吃掉 越橘 熊 苔藓 被吃掉 被吃掉 被分解 被蘑菇吸收 苔藓被分解成土壤 蘑菇从土壤中获取营养 因此蘑菇包含曾经是苔藓的物质。
答案：蘑菇 辩论初始化-------------
驯鹿
蘑菇 苔藓包含 MAD 辩论第一轮 苔藓位于食物网的底层，所以物质... 因此所有这些生物体都包含... 辩论解决方案在...生态系统中是正确的，并且被许多不同的生物体使用。食物网是一个微妙的平衡，一旦...，它可能会对整个系统产生连锁反应。辩论总结器：---------------第二轮辩论------------
答案：越橘。我们可以使用数学模型来追踪物质的移动... 辩论总结器：我们可以结合数学建模和实验来追踪生态系统中物质的移动...
图1：来自ScienceQA数据集的MLLM、多模态链式思考（Multimodal Chain-of-Thought）、多智能体辩论（Multi-agent Debate）和我们的蓝图辩论（Blueprint Debate on Graph）的直接答案比较结果。
概念如蘑菇和苔藓被保留。此外，图表为讨论过程提供了紧凑和高层次的指导。新引入的概念被合并到相关分支中，而不是作为上下文中的单词级思考。这减少了焦点偏离的可能性，因为在BDoG中，语义的竞争发生在分支级别而不是单词级别。这一点可以从图1中看出，与土壤和驯鹿相关的最相关分支脱颖而出，有效地消除了不相关的语义效应。
除了范围限定指导和分支级竞争的优势外，BDoG还增加了可解释性，允许追踪讨论的进展。这在图1中很明显，其中辩论的进展比单词级推理更容易理解。

2 相关工作
2.1 多模态推理
多模态推理是发展高级人工智能系统的关键组成部分，这些系统旨在复制类似人类的智能[20]。这种类型的推理使AI系统能够以一种综合和协调的方式处理和分析来自各种来源和形式的信息，如文本、图像、音频和视频[3,25]。最新的多模态大型语言模型的进展，如BLIP2[14]、KOSMOS[13]和LLaVA[18]，在复杂推理方面取得了重大进展，因为这些模型[38]现在有能力在产生最终答案之前生成逐步的理由，遵循思考链的方式。郑等人[40]提出了一种职责区分提示方法，其中问题被分解为子问题，以实现深层推理。SCITUNE[10]和T-SciQ[30]旨在通过生成来自大型预训练模型和人类注释者的混合理由来教大型语言模型回答科学问题。变色龙[21]通过集成各种外部工具完成复杂的多模态推理任务。然而，现有方法存在局限性，因为它们严重依赖于少数样本学习或监督来“指导”推理过程。为了克服这种依赖性，我们提出了将辩论特征纳入我们的方法。这使得代理能够进行对抗性讨论，允许它们自主“找出”正确的方向。因此，我们的方法通过减少对外部指导或监督的依赖，使零样本学习成为可能。

2.2 多智能体辩论
为了减轻CoT推理中的错误倾向，Shinn等人[26]和Madaan等人[22]使用模型来反思任务反馈信号，这可以在后续尝试中诱导更好的决策制定。[39]利用之前生成的答案作为提示，逐步引导至正确答案。尽管这些方法有效地提高了LLM的性能，但它们在确定响应后难以产生新的想法，因为它们完全依赖于内部表示进行生成[12]。研究人员目前正在开发多智能体协作系统，以解决纯文本场景中的上述问题[36]。通过设计这些系统，大型语言模型可以共同完成任务或进行有益的辩论，提供对比视角[4,7,16]。张等人[37]进一步揭示了协作"
这篇文章的标题是“一张图胜过一张图表：从社会心理学视角探讨图形在多模态推理机制中的应用蓝图辩论”。这篇文章代表了一种初步尝试，旨在扩展这种方法以促进多模态推理。通过结合来自不同多模态语言模型的多种视角，我们可以帮助解决个别模型的一些局限性。此外，我们通过图形蓝图辩论（Blueprint Debate on Graph, BDoG）解决了传统多代理辩论中观点琐碎化和焦点转移问题。

2.3 图形增强的LLMs
先前的研究已经探讨了如何将结构化图表，例如知识图谱（KGs），整合到大型语言模型（LLMs）中，通过将知识嵌入到底层的神经网络中[17,32]。然而，将KGs嵌入到LLMs中可能会损害知识推理和更新所固有的可解释性和适应性[11]。为了应对这些挑战，近期的研究提出了创新的解决方案。Li等人[15]提出了一个自适应查询生成器，便于创建跨越各种查询语言（例如，SPARQL）的查询以推断理由。Wang等人[29]设计了一种结构化的多轮问答（QA）格式，它提取外部知识并生成基于精确答案的连贯推理轨迹。Sun等人[27]引入了Think-on-Graph（ToG），一种通过顺序推理KGs以找到相关三元组的方法，从而支持LLM预测最终答案。在多模态推理的背景下，CCoT[23]用场景图提取替换了理由生成过程，以增强大型多模态模型的组合能力。另一方面，KAM-CoT[24]在两阶段训练过程中结合了外部KGs，取得了多模态推理中最先进的微调成果。与使用静态图的现有方法不同，我们提出的BDoG通过蓝图辩论过程引导实体、属性和关系的迭代更新，保留了KGs的动态性和精度。

3 初步研究
我们首先概述了解决多模态推理问题现有方法。图2显示了它们之间的具体区别。正式地说，给定一个由𝑡个词组成的𝑄问题，我们的目标是从一组候选答案中识别出正确答案𝐴。在多模态推理的背景下，预期的答案是基于视觉上下文𝐼和文本线索𝐶，以及问题本身来推断的。

香草提示。香草提示方法旨在通过在输入中增加示例𝐷，以及问题𝑄、视觉上下文𝐼和文本线索𝐶来预测答案𝐴。

多模态CoT。正如Lu等人[20]所指出的，加入中间推理步骤（理由）可以帮助预测正确答案，特别是对于复杂的多模态推理任务。为此，我们首先为输入生成一个理由𝑅={𝑟1,𝑟2,...,𝑟𝑘}。然后，生成的理由𝑅与原始语言输入连接起来，以更新语言表示。这种增强的语言输入与原始视觉输入𝐼一起被输入到同一个模型中，以推断最终答案。

DDCoT。责任分明的思维链框架提出了一种新方法，将问题分解为基础子问题，类似于将推理分解为基本步骤。与以前的对话代理工作不同，Zheng等人[40]采用指令请将问题顺序分解为必要的子查询，以获取子问题序列𝑄1,𝑄2,...,𝑄𝑡在单次交互中。在这个框架内，最终响应𝐴是通过聚合对每个子问题𝑄𝑖的答案𝐴𝑖和生成的CoT理由𝑅𝑖来获得的。

自我纠正。自我纠正技术[34]旨在通过利用模型本身生成的反馈来迭代增强模型预测。特别地，采用反馈函数𝑓:𝑅→𝑅′将模型输出映射到精炼的响应。

MAD。多代理辩论[16]提出了一个有前景的框架，促进了对话模型之间的讨论交流和思想交融。考虑一个由𝑗轮组成的辩论，由一组大型语言模型作为对话者。在每一轮中，支持者根据对手在前几轮提出的论点𝑅𝑜生成论点𝑅′𝑝和修订后的回答𝐴𝑝。

4 蓝图辩论图
在本节中，我们介绍了蓝图辩论图（Blueprint Debate-on-Graph, BDoG）。如图2所示，BDoG采取了演绎方法，而不是从词级思维中诱导答案。它使用图形来结构
这段内容是一篇学术论文的一部分，讨论了一种基于辩论的多模态推理方法。以下是对这段英文内容的中文翻译：

"常梦政、李大勇、张文宇、魏晓勇、蔡达胜和李青
𝑄,𝐼,𝐶𝑅𝐴𝑇,𝐼,𝐶𝐶1𝑅1𝑅2𝑅3𝑄2𝑄3𝐴1𝐴2𝐴3𝐴𝑄,𝐼,𝐶𝑅
𝐴𝑅′𝑄,𝐼,𝐶𝑅!𝑅!"𝑅!"𝑅#"𝑅#𝐴!𝐴#𝐴𝑄,𝐼,𝐶
CoTDDCoTSelf-CorrectionMADBDoG𝐺𝐺$𝐺%𝐺∗𝐴参考精炼辩论辩论精炼精炼辩论解构蓝图初始化支持者反对者
图2：比较CoT、职责分明CoT、自我修正、多智能体辩论和我们提出的
基于图的蓝图辩论。Q：输入问题，I：输入图像，C：上下文或提示，A：答案，R：理由，G：蓝图。
应该将从𝐼和𝐶中提取的关系合并
到问题𝑄的关系中，确保G0中包含的所有知识
与问题相关。
对于𝑓𝑡和𝑓𝑣，有广泛的库可用，因为它们已经被
广泛研究。然而，
多模态大型语言模型的最新进展
使得使用基于上下文学习的提示来实现这些子功能变得方便。例如，为了在上下文中扩展查询𝐼，我们可以使用CoT来实现𝑓𝑡，如下所示
𝑓𝑡：给定问题{Q}，请提供回答这个问题所需的步骤。
这里的{ }表示提示中的占位符。
对于𝑓𝑣，其实现取决于所使用的LLM。
对于GPT-4，图像需要以Base64格式编码。Gemini使用PIL进行图像编码。InstructBLIP提供了其EVA-G编码器将图像转换为特征向量。然后𝑓0可以这样实现
𝑓0：给定图像{𝑓𝑣}和问题{𝑓𝑡}，请生成一个带有证据的场景图来回答这个问题。请确保遵守以下约束：{𝑆𝑖𝑧𝑒}，{𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒}。
这里有两个示例约束是
𝑆𝑖𝑧𝑒：图不能为空。请将图中对象的最大数量限制在20个以内。
𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒：图中的对象和关系应与解决问题相关。
值得一提的是，虽然我们提供了一些函数和约束的示例实现，但提示的有效性可能因使用的MLLM而显著变化。多模态推理的成功更多地依赖于为提示模型制定指导原则和约束条件的发展，以规范生成的图。因此，在本节的其余部分，我们的重点在于讨论这些指导原则和约束。
我们的提示实现将在附录中提供。

4.2 代理和角色
在辩论中，我们可以将每个LLM视为一个代理，通过改进蓝图图G0参与讨论。就像在真正的辩论中一样，每个代理𝑎𝑗∈A都有一个分配的明确角色。我们定义了三个角色作为R={𝑃𝑟𝑜𝑝𝑜𝑛𝑒𝑛𝑡,𝑂𝑝𝑝𝑜𝑛𝑒𝑛𝑡,𝑀𝑜𝑑𝑒𝑟𝑎𝑡𝑜𝑟}的一组。
这些角色
这是一篇关于多模态推理的学术论文，讨论了一种基于图的辩论方法（Blueprint Debate-on-Graph, BDoG）。下面是对上述英文内容的中文翻译：

“A Picture Is Worth a Graph: Blueprint Debate on Graph for Multimodal Reasoning
精炼的图应该尽可能简洁，确保蓝图保持专注。
反对者代理通过更新肯定证据图G+为负面证据图G-来挑战并提出反对蓝图的论点
Opponent agents challenge and present arguments against the blueprint G+ by updating it into a negative evidence graph G− as
𝑂𝑝𝑝𝑜𝑛𝑒𝑛𝑡 𝑓−:G+×S↦→G−
⟨V+,E+⟩∪𝑓𝑡(𝑄)∪𝑓𝑣(𝐼)↦→⟨V−,E−⟩
w.r.t. 尺寸，可靠性，复杂性 (4)
一个示例实现是
𝑓+:As {𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦 }, 你被指派为负面辩手
并提供了一个肯定证据图{G+}来回答关于图像{𝑓𝑣(𝐼)}的问题{𝑓𝑡(𝑄)}。尝试检测图中的潜在缺陷和不足，并用你的洞察力更新它。请确保遵守以下限制：{ 𝑆𝑖𝑧𝑒 }，{𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒 }，{𝐶𝑜𝑚𝑝𝑎𝑐𝑡𝑛𝑒𝑠𝑠 }。
函数𝑓+和𝑓−的使用促进了主张者和反对者之间的对抗性动态，确保了多样化和全面的讨论。
为了促进辩论，主持人代理通过合并G+和G−来综合主张者和反对者提出的论点和意见，形成结论图G*作为
𝑀𝑜𝑑𝑒𝑟𝑎𝑡𝑜𝑟 𝑓∗:G+∪G−↦→G∗
⟨V+,E+⟩∪⟨V−,E−⟩↦→⟨V∗,E∗⟩
w.r.t. 尺寸，可靠性，复杂性 (5)
一个示例实现是
𝑓∗:As {𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦 }, 你被指派为主持人，在辩论中被提供了一个肯定证据图{G+}和一个负面证据图{ G−}来处理关于图像{ 𝑓𝑣(𝐼)}的问题{𝑓𝑡(𝑄)}。尝试将两个图整合成一个图，以获得最优解决方案，并提供问题的最终答案。

4.3 辩论进展和图压缩
初始化和角色分配：一旦蓝图G0被初始化，辩论就开始了，通过将角色分配给A中的代理。将角色𝑟∈R分配给代理𝑎𝑗记为𝑎𝑗:=𝑟，为了确保平衡的辩论，平等数量的代理被分配为主张者和反对者，只有一个代理被分配为主持人。角色分配规则写作
{𝑎𝑗|𝑎𝑗:=𝑃𝑟𝑜𝑝𝑜𝑛𝑒𝑛𝑡} = {𝑎𝑘|𝑎𝑘:=𝑂𝑝𝑝𝑜𝑛𝑒𝑛
以下是上述英文内容的中文翻译：

张长梦，李大勇，张文宇，魏晓勇，朱达胜，李庆
模型尺寸 SQA-IMG MMBench
MiniGPT-4 [41] 7B 37.7 24.3
Qwen-VL [2] 7B 58.6 38.2
Qwen-VL-Chat [2] 7B 68.6 60.6
mPLUG-Owl2 [35] 8B 63.9 66.5
CogVLM-Chat [31] 17B 69.6 63.7
LLaVA-v1.5 [18] 13B 71.9 68.2
InstructBLIP [6] 13B 59.2 36.0
InstructBLIP+ BDoG 13B 63.5 55.8
GPT-3.5+CoT [33] 175B 67.4 -
GPT-3.5+DDCoT [40] 175B 72.5 -
GPT-4+CoT [33] - 71.5 75.1
GPT-4+ BDoG - 77.2 79.2
GeminiProVision [28] - 76.5 75.2
GeminiProVision+ BDoG - 81.1 81.3
表1：在ScienceQA-IMG测试集和MMBench开发集上的总体零样本结果。尺寸=骨干模型尺寸。之前在ScienceQA-IMG上发布的零样本结果有限，因此我们重新实现了上述模型并报告了我们的发现。尽可能地，我们包括了LLaVA论文中的结果以供比较。对于MMBench，我们参考官方公共排行榜上列出的分数。
Chat [2]，CogVLM-Chat [31]，mPLUG-Owl2 [35]，LLaVA-v1.5 [18]和InstructBLIP [6]。这些模型的参数规模从7B到17B不等。
•闭源多模态大型语言模型（LLMs）具有大规模参数：
GPT-3.5 [33]，GPT-4V [1]和GeminiProVision [28]。按照一般标准，GPT-3.5和GPT-4已经整合了CoT [33]或DDCoT [40]。这些模型以其超过175B的参数规模而闻名，在大多数文献中被认为是性能最好的。
结果如表1所示。BDoG的整合在不同的骨干上都取得了显著的改进，这体现在SQA-IMG上的性能提升了4.3%∼5.7%，在MMBench上提升了6.1%∼19.8%。值得注意的是，当与GeminiProVision结合时，BDoG在ScienceQA-IMG测试集和MMBench开发集上实现了SOTA（最新进展）性能，准确率分别达到了81.1%和81.3%。BDoG的优势超过SOTA方法的其他观察结果包括：
BDoG帮助缩小了大型模型和小型模型之间的性能差距。人们普遍认为，参数规模更大的模型往往比小型模型表现更好。这个观察在没有BDoG的模型中通常是成立的，如表1所示。然而，BDoG的引入导致了这两种类型模型之间性能差距的缩小。这可以从InstructBLIP取得的改进中看出，该模型在SQA-IMG上的性能提升了4.3%，达到了63.5%的准确率，与GPT-3.5相当。
BDoG加强了多模态推理。从表1中，我们还可以观察到直接多模态推理相对于间接多模态推理的优势。即使是开源的VL模型，也实现了与后者相当的性能，参数规模要小得多。通过BDoG，通过图调节加强了多模态推理，InstructBLIP和GeminiProVision的性能在MMBench数据集上分别提高了6.1%和19.8%。
5.4 消融研究
为了全面理解BDoG，我们进行了消融研究，将BDoG分解为两个变体：
•BDoG𝐷𝑒𝑏𝑎𝑡𝑒：我们移除了图调节和约束，仅保留辩论部分，以研究BDoG辩论部分的具体贡献。
•BDoG𝐺𝑟
这段内容是关于一篇名为“多模态推理的图表蓝图辩论”的学术论文的一部分，它讨论了一种用于多模态推理的模型方法，并提供了一些实验结果和案例研究。以下是对这段内容的中文翻译：

“A Picture Is Worth a Graph: Blueprint Debate on Graph for Multimodal Reasoning
图表胜于数字：用于多模态推理的图表蓝图辩论

模型 方法 科学问答图像开发集(ScienceQA-IMG-Dev) 科学问答图像测试集(ScienceQA-IMG-Test) 多模态基准开发集(MMBench-Dev)
NAT（自然科学） SOC（社会科学） LAN（语言科学） 平均 NAT SOC LAN 平均 逻辑推理（LR） 属性推理（AR） 关系推理（RR） 细粒度感知（FP-S） 细粒度感知（FP-C） 粗粒度感知（CP） 平均
MniGPT-4 [41]
基础 42.9 30.6 43.7 38.4 42.0 30.1 50.0 37.7 7.5 31.3 4.3 30.3 9.0 35.6 24.3
Qwen-VL [2] 52.1 59.8 58.3 55.0 55.7 62.0 77.3 58.7 16.1 44.7 34.8 35.2 39.2 46.6 38.2
Qwen-VL-Chat [2] 60.9 67.4 62.5 63.3 67.7 69.6 75.0 68.6 32.2 59.8 43.5 66.2 48.3 79.4 60.6
mPLUG-Owl2 [35] 60.6 68.0 45.8 62.8 62.5 66.2 61.4 63.9 32.2 72.4 60.9 68.6 60.1 79.4 66.5
CogVLM-Chat [31] 63.1 69.2 77.1 65.6 68.0 72.2 70.4 69.7 29.7 65.8 60 66.9 58 76.7 63.7
LLaVA-v1.5 [18] 66.1 74.9 72.9 69.4 70.1 74.2 81.8 71.9 44.1 67.3 60.0 72.0 59.4 82.1 68.2
InstructBLIP [6]基础 53.7 57.3 47.9 54.8 58.1 61.0 61.4 59.2 14.2 46.3 22.6 37.0 21.4 49.0 36.0
+ BDoG𝑫𝑒𝑏𝑎𝑡𝑒 59.7 55.6 54.2 58.1 63.1 58.2 72.7 61.4 43.7 57.8 31.5 42.7 19.5 39.1 42.6
+ BDoG𝑮𝑟𝑎𝑝ℎ 58.1 61.3 52.1 59.0 60.6 62.6 68.2 61.5 58.8 65.5 41.2 51.2 18.6 46.1 51.1
+ BDoG 61.1 64.0 52.1 61.9 61.1 66.5 75.0 63.5 63.3 
以下是上述英文段落的中文翻译：

"Changmeng Zheng, Dayong Liang, Wengyu Zhang, Xiao-Yong Wei, Tat-Seng Chua, 和 Qing Li，实现了12.2%的增益。这一改进可以归因于在辩论图框架内建立的各种对象之间的连接。
对蓝图的迭代改进进行案例研究：
BDoG 结合了通过图调节的结构化证据和通过辩论进行迭代细化的优势。这一点在蓝图图上观察到的持续改进中表现得尤为明显，展示了这两个组件的结合优势。
图3提供了运行示例，展示了我们提出的BDoG框架相比于BDoG𝐷𝑒𝑏𝑎𝑡𝑒方法的卓越推理性能。
左侧的案例来自ScienceQA数据集，测试地理知识和地图解读。虽然BDoG𝐷𝑒𝑏𝑎𝑡𝑒正确回答了“多米尼加被高亮显示”，但它也生成了关于多米尼加经济发展的不相关信息。这使得代理们走入了离题的讨论，并错误地得出了“巴巴多斯”的结论。相比之下，BDoG专注于问题和选项，迭代地细化蓝图实体和关系，得出了正确的答案“多米尼加”。
右侧的例子来自MMBench数据集，需要跨实例感知。由于图像中既包含糖果又包含罐子，这构成了一个挑战。BDoG𝐷𝑒𝑏𝑎𝑡𝑒仅依赖文本，很难达成一致，因为随着辩论轮次的变化，回应也在不断变化。然而，BDoG首先生成了一个定义图像对象和属性的蓝图。这建立了讨论的范围。然后BDoG修剪了不相关的糖果信息，将讨论集中在特定对象——罐子上。它通过比较和连接两个罐子子子图输出了最终答案。
总之，图3展示了BDoG通过其基于蓝图的方法在两个数据集上都击败了BDoG𝐷𝑒𝑏𝑎𝑡𝑒。
Round ScienceQA-IMG-Test MMBench-Dev
BDoG-S BDoG-L BDoG-S BDoG-L
1 60.5 80.6 51.6 81.0
2 63.5 80.9 54.6 81.1
3 63.1 81.1 55.8 81.3
4 63.3 81.4 55.8 80.9
表3：模型在辩论轮次方面的性能。BDoG-S：带有BDoG的InstructBLIP，BDoG-L：带有BDoG的GeminiProVision。
5.5 监控辩论进展
我们根据表3中的数据，评估了模型在多个辩论轮次中根据终止标准的表现。我们的分析显示，对于参数较小的模型，如InstructBLIP，从单轮辩论到两轮辩论可以显著提高性能。尤其是当辩论轮次从一轮增加到两轮时，这种改进尤为显著。然而，对于较大的模型，它们可能更容易达成一致，当增加辩论轮次时，性能提升相对较小。总的来说，我们发现模型的表现倾向于在第二或第三轮辩论中趋于稳定。这可以归因于底层推理通常能够在2-3步内回答问题。
此外，图4展示了辩论过程中的蓝图收缩情况，展示了BDoG在GeminiProVision上对ScienceQA-IMG测试集的内部和轮次间蓝图的统计数据。#Update：更新属性的数量；#Add：新添加的实体/关系的数量；#Prune：修剪的实体/关系的数量。
R1 R2 R3 R4
轮次 200 400 600 800 1000 1200 1400 1600 图蓝图修改计数
#更新
#修剪
#添加
R1 R2 R3 R4
轮次 200 400 600 800 1000 1200 1400 1600 图蓝图修改计数
图4：BDoG框架的优势在于其能够通过检查图的变化来量化辩论过程。这展示了基于讨论动态调整初始图的有效性。图4的结果也与我们的假设一致，即随着辩论的进行，分歧和错误可以减少。
SQA-IMG-Test SQA-IMG-Dev MMBench-Dev
数据集 0.00 0.20 0.40 0.60 0.81.
这部分触发了 LLM 安全检查，跳过本页。