新开传奇私服

传奇私服发布网

当前位置：首页 > 互联网 IT业界 > LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

admin 5个月前互联网 IT业界 48热度

　　新智元报道

　　编辑：Mindy

　　图是组织信息的一种有用方式，但 LLMs 主要是在常规文本上训练的。谷歌团队找到一种将图转换为 LLMs 可以理解的格式的方法，显著提高 LLMs 在图形问题上超过 60% 的准确性。

　　在计算机科学领域，图形结构由节点（代表实体）和边（表示实体之间的关系）构成。

　　图无处不在。

　　互联网本身就像是一张庞大的网络图，甚至搜索引擎所使用的知识也是以图的形式进行组织和呈现。

　　但由于 LLMs 主要在常规文本上训练，并没有图的结构，将图转化为 LLMs 能理解的文本是一项非常复杂的任务。

　　在 ICLR 2024 上，一支来自谷歌的团队探索了如何将图形数据转换为适合 LLMs 理解的形式。

　　论文地址：https://openreview.net/pdf?id=IuXR1CCrSi

　　使用两种不同的方法将图形编码为文本，并将文本和问题反馈给 LLM 的过程

　　他们还创造了一个名为 GraphQA 的基准，用于研究不同的图推理问题解决方法，并演示了如何以一种让 LLM 能够解决图形相关问题的方式来表述图相关问题。

　　使用正确的方法，使得 LLMs 在图形任务上最高得以提升 60% 的性能。

　　GraphOA：一场对 LLMs 的「考试」

　　首先，谷歌团队设计了 GraphQA 基准测试，它可以被看作是一门考试，旨在评估 LLM 针对特定于图形问题的能力。

　　GraphOA 通过使用多种类型的图表，确保广度和连接数量的多样性，以寻找 LLMs 在处理图形时可能存在的偏差情况，并使整个过程更接近 LLMs 在实际应用中可能遇到的情况。

　　使用 GraphIQA 对 LLMs 进行推理的框架

　　虽然任务很简单，比如检查边是否存在、计算节点或者边的数量等等，但这些任务都需要 LLMs 理解节点和边之间的关系，对于更复杂的图形推理至关重要。

　　同时，团队还探索了如何将图转换为 LLMs 可以处理的文本，比如解决了如下两个关键问题：

　　节点编码：我们如何表示单个节点？节点可以包括简单整数、常用名称（人名、字符）和字母。

　　边缘编码：我们如何描述节点之间的关系？方法可以包括括号符号、短语（如「是朋友」）和符号表示（如箭头）。

　　最终，研究人员通过系统地结合各种节点和边的编码方式，产生了像下图中展示的那些函数。

　　图形编码函数的例子

　　LLMs 表现怎么样呢？

　　研究团队在 GraphOA 上进行了三个关键实验：

测试 LLMs 处理图形任务的能力

测试 LLMs 的大小对性能的影响

测试不同图形形状对性能的影响

　　在第一个实验中，LLMs 表现平平，在大多数基本任务上，LLMs 的表现并不比随机猜测好多少。

　　但编码方式显著影响结果，如下图所示，在大多数情况下，「incident」编码在大多数任务中表现出色。选择合适的编码函数可以极大的提高任务的准确度。

　　基于不同任务准确度的各种图编码器函数的比较

　　在第二个测试中，研究人员在不同大小的模型上测试了相同的图形任务。

　　就结论而言，在图形推理任务中，规模更大的模型表现更好，

　　然而有趣的是，在「边存在性」任务（确定图中两个节点是否相连）中，规模并不像其他任务那么重要。

　　即使是最大的 LLM 在循环检查问题上（确定图中是否存在循环）也无法始终击败简单的基线解决方案。这表明 LLMs 在某些图任务上仍有改进的空间。

　　模型容量对 PaLM 2-XXS、XS、S和L的图推理任务的影响

　　在第三个测试中，对于图形结构是否会影响 LMMs 解决问题的能力，研究人员通过 GraphOA 生成不同结构的图形进行分析。

　　GraphQA 不同图形生成器生成的图形示例。ER、BA、SBM 和 SFN 分别是 Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

　　结果得出，图的结构对 LLMs 的性能有很大影响。

　　例如，在一个询问循环是否存在的任务中，LLMs 在紧密相连的图形中表现出色（这里循环很常见），但在路径图中表现不佳（循环从不发生）。

　　但同时提供一些混合样本有助于 LLMs 适应，比如在循环检测任务中，研究人员在提示中添加了一些包含循环和一些不包含循环的示例作为少样本学习的例子，通过这种方式提高了 LLMs 的性能。

　　在不同的图任务上比较不同的图生成器。主要观察结果是，图结构对 LLM 的性能有显著影响。ER、BA、SBM 和 SFN 分别指的是 Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

　　这仅仅是让 LLMs 理解图的开始

　　在论文中，谷歌团队初步探索了如何将图形最佳地表示为文本，以便 LLMs 能理解他们。

　　在正确编码技术的帮助下，显著提高了 LLMs 在图形问题上的准确性（从大约5% 到超过 60% 的改进）。

　　同时也确定了三个主要的影响因子，分别为图形转换为文本的编码方式、不同图形的任务类型、以及图形的疏密结构。

　　这仅仅是让 LLMs 理解图的开始。在新基准测试 GraphQA 的帮助下，期待进一步研究，探索 LLMs 的更多可能性。

　　参考资料：

　　https://blog.research.google/2024/03/talk-like-graph-encoding-graphs-for.html

更新时间 2024-05-02 08:31:33