信息差

哈佛研究揭示：大型模型背后的AI“幻觉”之谜——它们真的会“说谎”吗？

大型语言模型（LLM）的横空出世，尤其是ChatGPT等应用的普及，彻底改变了人机交互的方式。这些模型能够生成连贯且全面的文本，令人印象深刻。然而，尽管能力强大，LLM却容易产生“幻觉”，即生成看似真实但实际上是虚构、无意义或与提示不符的内容。

哈佛大学的研究人员对LLM“幻觉”现象进行了深入研究，发现其根源在于LLM的工作原理。 LLM通过对海量文本数据进行机器学习来构建概率模型，并根据词语共现的概率来预测下一个词语。换句话说，LLM并非真正理解语言的含义，而是根据统计概率进行预测。

研究人员将LLM比作“众包”，认为LLM实际上是在输出“网络共识”。就像维基百科或Reddit等平台一样，LLM从大量文本数据中提取信息，并生成最常见的答案。由于大多数语言的使用都是为了描述世界，因此LLM生成的答案通常是准确的。

然而，当LLM遇到模糊、有争议或缺乏共识的主题时，就会出现“幻觉”。为了验证这一假设，研究人员设计了一系列实验，测试了不同LLM在处理不同主题时的表现。实验结果表明，LLM在处理常见主题时表现良好，但在处理模糊或有争议的主题时，准确性明显下降。

这项研究表明，LLM虽然是强大的工具，但其准确性取决于训练数据的质量和数量。在使用LLM时，尤其是在处理模糊或有争议的主题时，需要谨慎对待其输出结果。这项研究也为LLM的未来发展提供了方向，即需要改进LLM处理模糊和有争议主题的能力，并提高其输出结果的可解释性。