Google AI Bard 的逻辑和推理能力提升：实质性的挑战还存在

资讯2年前 (2023)更新花花

1,926 0 0

:2023年6月7日报道巴德近期宣布其在数学任务、编程问题和字符串操作方面取得了进一步的改进，但对于这些改进的评估应该持有一定的批判态度。此外，巴德还新增了与Google Sheets的导出功能。

在高级推理和数学问题方面提供更好的回答一项名为“隐式代码执行”的新技术帮助巴德检测计算型问题并在后台运行代码。因此，它能更准确地回答数学任务、编程问题和字符串操作等问题。巴德将变得更擅长回答以下问题：

15683615的质因数是什么？
计算我的储蓄增长率
将单词“Lollipop”反转给我看

让我们更深入地了解这一新能力以及它如何帮助巴德提升回答能力。

改进的逻辑和推理能力大型语言模型（LLM）就像预测引擎一样，当给定一个提示时，它们通过预测接下来可能出现的词语来生成回答。因此，它们在语言和创造性任务上非常出色，但在推理和数学等领域则较为薄弱。为了帮助巴德在高级推理和逻辑能力方面解决更复杂的问题，仅仅依靠LLM的输出是不够的。

我们的新方法允许巴德生成和执行代码，提升其推理和数学能力。这种方法借鉴了人类智能中的一个被广泛研究的二分法，尤其是丹尼尔·卡尼曼在《思考，快与慢》一书中提到的“系统1”和“系统2”思维的区分。

系统1思维是快速、直觉和轻松的。当爵士乐手即兴演奏或触摸打字者思考一个单词并看到它出现在屏幕上时，他们正在使用系统1思维。相比之下，系统2思维是缓慢、深思熟虑和费力的。当你进行长除法运算或学习如何演奏乐器时，你正在使用系统2思维。在这个类比中，LLMs可以被认为纯粹在系统1下运作，快速生成文本但缺乏深思熟虑。这带来了一些令人难以置信的能力，但在某些意外的情况下可能会有所欠缺（想象一下仅使用系统1解决数学问题：你不能停下来进行算术运算，你只能口出心中最先浮现的答案）。传统计算与系统2思维紧密相连：它是公式化和不灵活的，但正确的步骤序列可以产生令人印象深刻的结果，比如长除法的解答。

通过这一最新更新，我们将LLMs（系统1）和传统代码（系统2）的能力相结合，以帮助提高巴德回答问题的准确性。通过隐式代码执行，巴德识别出可能受益于逻辑代码的提示，将其写入“内部”，执行并使用结果生成更准确的回答。迄今为止，在我们的内部挑战数据集中，我们已经看到这种方法使巴德对基于计算的文字和数学问题的回答准确性提高了约30%。

即使有了这些改进，巴德并不总能做到完美 — 例如，巴德可能不会生成有助于回答提示的代码，它生成的代码可能是错误的，或者巴德可能没有在回答中包含执行的代码。尽管如此，这种改进的能力以结构化的、逻辑驱动的方式回答问题，是使巴德变得更加有用的重要一步。敬请关注更多相关信息。

观点陈述: 巴德在逻辑和推理能力上的提升是一项令人鼓舞的进展。隐式代码执行的引入为巴德在数学、编程和字符串操作等方面的回答提供了更高的准确性。然而，我们也应该保持批判的态度。巴德的能力仍然存在一定局限性，可能无法生成适用于某些问题的代码，或者生成的代码可能存在错误。尽管如此，这一进步为巴德在推理和逻辑能力上迈出了重要的一步，并为其在更广泛的应用领域中的发展铺平了道路。我们期待看到巴德未来的发展和进步，以使其成为更加全面和可靠的工具。