最新大模型论文|332
论文标题:GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
主要内容
大语言模型(LLM)的最新进展引发了人们对其形式推理能力的兴趣,尤其是在数学方面。📊 GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现有了显著提高,但它们的数学推理能力是否真正得到了提高仍不清楚,这就对所报告指标的可靠性提出了质疑。
在这项工作中,苹果团队对多个 SOTA 开放和封闭模型进行了大规模研究。🔍 为了克服现有评估的局限性,他们提出了 GSM-Symbolic,这是一种由符号模板创建的改进基准,可以生成一系列不同的问题。GSM-Symbolic 使评估更具可控性,为衡量模型的推理能力提供了关键见解和更可靠的指标。
关键发现
研究结果表明,LLM 在回答同一问题的不同实例时表现出明显的差异。📉 具体来说,在 GSM-Symbolic 基准中,如果只改变问题中的数值,所有模型的性能都会下降。此外,他们还研究了这些模型中数学推理的脆弱性,结果表明,随着问题中条文数量的增加,这些模型的性能也会明显下降。
研究假设
他们假设,这种性能下降的原因是目前的 LLM 无法进行真正的逻辑推理;它们只能复制训练数据中的推理步骤。🔄 在所有 SOTA 模型中,添加一个似乎与问题相关的单个分句会导致性能大幅下降(最高达 65%),即使该分句对最终答案所需的推理链并无贡献。总之,这项工作让我们对 LLM 在数学推理中的能力和局限有了更细致的了解。
总结
通过 GSM-Symbolic,这项研究不仅揭示了大语言模型在数学推理上的脆弱性,还为未来的模型改进提供了新的思路。这一发现鼓励我们思考如何在设计和评估 AI 模型时,更好地考量推理能力的真实性和稳健性。🤔 #大模型 #论文 #LLM #ai #chatgpt #学习分享