胜过传统方法-用于大语言模型中的动态检索增强-新机器学习框架DRAGIN

编号：23056 分类：最新资讯阅读：次时间：2024-04-05

这项研究来自清华大学和北京理工大学的研究人员，他们开发了一种名为DRAGIN的动态检索增强生成框架，专门针对大型语言模型设计。该框架的目的本生成过程中实时确定何时以及如何检索外部信息，从而提高语言模型的性能。为了解决当前方法在确定检索时机和检索内容方面过于静态的问题，DRAGIN引入了两个关键组件：RIND和QFS。其中，RIND主要用于确定检索时机，考虑语言模型的不确定性和令牌重要性；而QFS则用于构建查询，利用上下文的自注意力机制优先选择与当前上下文相关的令牌。通过这种动态检索方式，DRAGIN在四个知识密集型数据集上表现出色，而且无需额外的训练或提示工程。传统的单轮检索增强方法通过将初始输入作为查询，将外部知识引入到语言模型中。以往的研究已经深入探讨了这种方法，例如REPLUG使用语言模型生成检索模型的训练数据，UniWeb则自我评估是否需要检索。

对于需要大量外部知识的复杂任务，多轮检索变得至关重要。DRAGIN采用了新颖的多轮检索方法，通过FLARE在遇到不确定令牌时触发检索，从而提高检索相关性，同时考虑了语言模型的实时信息需求。DRAGIN是一个旨在解决语言模型动态检索增强方法的框架，通过RIND和QFS优化检索激活时机和查询精度，使得在知识密集型任务上取得更好的性能。尽管它依赖于基于Transformer的语言模型的自注意力机制，但DRAGIN展现出了显著的有效性。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。