llm general,llm lsat

来源:趣玩责编:网络时间:2024-06-19 19:25:00

我想很多人都用过大型LLM模型,但是现有的大型模型或多或少存在以下问题。

LLM 幻觉问题:从《【小白入门篇1】GPT到底是怎样练成?》 我们的大型模型已经变得非常强大,但因为我们本质上是在做一个单词纸牌,并且每个纸牌都是随机的,所以模型有时会回应并说“已知更有可能出现幻觉”。发生。 Meta AI 研究人员引入了一种称为搜索增强生成(RAG)的技术来完成此类知识密集型任务。 RAG 将信息检索组件与文本生成模型相结合,作为解决大型模型中的错觉的强大工具。

数据保存:此外,大型模型是使用离线数据进行训练的,并且不知道任何新知识,这使得模型很难直接回答陈旧或不准确的数据等问题。

数据安全:最后也是最重要的一点是,数据作为许多公司的重要资产,无法直接上传到互联网上的大规模模型。这就需要我们依靠AI来保证安全。最好的做法是将所有数据存储在本地,并在本地完成对企业数据的所有业务计算。在线大规模模型仅完成概要特征,LLM也可以完全本地化和部署。

由于上述三个主要原因,LLM+RAG 非常有用。

01RAG架构概述

RAG的基本思想是将背景知识文档预先向量化并存储在向量数据库中。当用户提出问题时,他们的问题也会被向量化,并使用向量搜索算法(例如向量积)。检索前K 个文档,并将检索到的前K 个文档和用户问题用作大规模模型的输入,该模型最终根据输入生成答案。 LLM 中的参数化知识是静态的,因此事实会随着时间而变化。 RAG 允许语言模型无需重新训练即可获取最新信息,并基于搜索生成产生可靠的输出。

7f012b71738c4f269788a129bd81e7f1~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1719401149&x-signature=sy53wa%2F%2FZFgcmrkOyTWk9Lg28Ig%3DRAG的架构可以分为以下部分:

(1) 数据提取: 大多数现实场景是Word、PDF、pptx 等各种文档数据,需要各种数据加载器分别提取数据和进行数据清理(2) 数据分割由于具有: 个数据库的大型模型有token 长度限制,并且大多数文档数据的长度超过这些限制,文档数据必须分为块(3) 矢量化: 将文本、图像、音频和视频转换为矢量矩阵的过程。换句话说,质量嵌入模型的好坏直接影响后续检索的质量。这可以用于同义词搜索,比传统的关键字匹配更容易理解和使用。 ) 搜索链接: 目前,常见的搜索技术都是利用向量相似度计算。此步骤对文档数据进行矢量化并将其存储在矢量数据库中。由于搜索效果可能不太好,因此使用了多种重定位技术。 (5)生成:搜索结果经过排序后发送给LLM进行导航,并根据LLM的推理能力返回给用户。 02 现有RAG成熟产品

RAG 有各种开源的RAG 工具,一个完整的RAG 可以是像Langchain-chatchat、ragflow、qanything 等。各种开源RAG 架构之间存在细微的差异。第一章介绍了总体框架。

姓名

地址

解释

郎链聊天

https://github.com/chatchat-space/Langchain-Chachat/tree/master

当前之星29K

地毯流

https://github.com/infiniflow/ragflow/tree/main

当前星级9.3k

任何事物

https://github.com/netease-youdao/QAnything/tree/master

当前明星10.2k

……

……

.

当然,RAG比上面提到的三个框架要好得多。之前在《【大模型应用篇4】普通人构建智能体的工具》 中引入的大多数代理也内置了RAG 功能。就目前的明星而言,Chachat 有优势,但Qanything 更胜一筹。经网易认可。还有其他方法可以告诉吗?答案是肯定的。请继续阅读。

另外,如果上面列出的成熟滞后产品不能满足您的需求,您还可以使用Langchain等工具进行定制开发。这种方式比较灵活。比如langchain官网有一个基于langchain开发rag的简单示例https://python.langchain.com/v0.1/docs/use_cases/question_answering/quickstart/。

03 RAG评估

市面上有如此多的RAG 工具,您如何选择一种更好的量化指标来判断您的抹布质量呢?大多数RAG 评估框架都基于答案的相关性、上下文准确性和上下文相关性等。主要的RAG 评估框架有:

姓名

地址

解释

拉加斯

https://github.com/explodinggradients/ragas

Ragas 是一个用于评估RAG 应用程序的框架,包括保真度、答案相关性、上下文准确性、上下文相关性和上下文回忆。其中,检索的质量是通过上下文相关性和上下文回忆来衡量的,同时也是衡量LLM生成质量的。就答案的保真度和相关性而言。

真实镜头

https://github.com/truera/trulens

TruLens 提供了一套用于开发和监控神经网络的工具,包括大规模语言模型。这包括使用TruLens-Eval 评估法学硕士和基于法学硕士的应用程序的工具,以及使用TruLens-Explain 评估深度学习可解释性的工具。 TruLens-Eval 和TruLens-Explain 包含在单独的软件包中,可以独立使用并与Langchain 无缝集成。 RAG 三元组评级模型- 搜索内容与问题的相关性、答案的基本原理(即,所提供的上下文支持较大语言模型答案的程度)以及答案与问题的相关性。

上火车

https://github.com/uptrain-ai/uptrain

一个用于评估和改进生成人工智能应用程序的开源集成平台。它提供了20 多个预配置检查的评分(涵盖语言、代码和内置用例)、故障案例的根本原因分析以及有关如何解决这些问题的见解。示例包括提示注入、越狱检测以及用户对完整对话的满意度。

LangSmith

https://smith.langchain.com/

LangSmith 是一个用于调试、测试和监控LLM 应用程序的集成平台。由大型模型发起的所有请求都会被记录并显示所有输入和输出,以及特定的详细信息,例如:

请求中的所有上下文消息,包括请求的大模型、模型名称、模型参数请求时间、消耗的令牌数量和系统消息。

https://github.com/langfuse/langfuse

作为LangSmith 的替代方案,Langfuse 帮助开发人员和运维团队更好地理解和优化LLM 应用。 LangFuse 提供实时视觉跟踪功能,使识别和解决应用程序性能问题变得更容易、更高效。实现LLM 可观察函数。

……

……

……

使用定量评估工具通过结合特定指标来优化RAG 有效性。我们超越令人头痛的优化过程,帮助您选择正确的RAG 产品、RAG 中的LLM 模型、矢量化模型等。

04 总结

虽然RAG可以快速解决LLM错觉、新鲜度和数据安全问题,但RAG也存在以下局限性:

(1)矢量数据库是一项不成熟的技术,缺乏处理大量数据的通用解决方案,导致数据量较大时速度和性能面临挑战。

(2) 推理过程中需要对用户输入进行预处理和向量化,增加了推理时间和计算成本。

(3)更新和同步外部知识库需要大量的人力、物力和时间。

(4) 需要额外的采集组件,增加了架构复杂性和维护成本。

(5)这不是精度问题。在某些领域,需要获得准确的数据。因此,检索到的文档可能与您的问题无关。同时,每次检索数据并发送给LLM时,并不是每次都返回给用户相同的数据,导致用户的查询体验出现问题。

(6)关于检索问题,有些领域要求知识检索要求尽可能完整。 RAG本质上是一个信息检索系统,并不是所有的检索都能完成。

总体来说,RAG作为LLM在工业应用方面有着广阔的前景,在私人领域仍然值得部署和使用。随着相关RAG研究的发展,RAG具有巨大的潜力。

版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。

猜你喜欢
最新游戏更多
热门专题更多
最新资讯更多