信息差

腾讯新专利助力大语言模型训练，增强泛化与准确性

近日，腾讯科技（深圳）有限公司在天眼查 App 上公布了一项关于大语言模型的训练方法及相关设备的专利。这项专利的名称为 “大语言模型的训练方法、装置、计算机设备及存储介质”，旨在通过创新的训练方式，提升大语言模型的学习能力和准确性。

在大语言模型的训练过程中，传统方法往往依赖于单一的文本摘要，可能导致模型过拟合，生成内容的准确性和多样性受到影响。然而，腾讯的新方法引入了两种不同的信息来源 ——第一摘要文本和第二摘要文本。这两个摘要文本的信息量不同，且第一摘要文本中包含了正确与错误的语句，形成了对比学习的基础。

这种对比学习方式使得模型可以在同一文本的不同摘要中进行学习，通过区分第一摘要文本中的正确与错误语句，有效地避免了因为摘要单一而带来的学习误差。这种创新方法不仅提升了模型的泛化能力，使其在面对未知数据时能够表现得更加出色，同时也增强了模型的准确性，减少了生成错误内容的概率。

随着人工智能技术的不断进步，大语言模型的应用范围愈加广泛，从自然语言处理到智能客服，再到内容创作等领域，均显现出巨大的潜力。腾讯这一专利的公布，标志着在大语言模型训练领域的又一次技术突破，有望为未来的相关研究与应用提供新的方向。

可以预见，这项技术的进一步发展将推动智能化应用的持续进步，助力各行各业在数字化转型中更好地利用人工智能带来的便利。

如果觉得文章对你有用，请随意赞赏

快讯

腾讯新专利助力大语言模型训练，增强泛化与准确性

破晓

2025-02-08

2025-02-08

CC BY 4.0