llm general，llm lsat

来源：趣玩责编：网络时间：2024-06-19 19:25:00

我想很多人都用过大型LLM模型，但是现有的大型模型或多或少存在以下问题。

LLM 幻觉问题：从《【小白入门篇1】GPT到底是怎样练成？》我们的大型模型已经变得非常强大，但因为我们本质上是在做一个单词纸牌，并且每个纸牌都是随机的，所以模型有时会回应并说“已知更有可能出现幻觉”。发生。 Meta AI 研究人员引入了一种称为搜索增强生成（RAG）的技术来完成此类知识密集型任务。 RAG 将信息检索组件与文本生成模型相结合，作为解决大型模型中的错觉的强大工具。

数据保存：此外，大型模型是使用离线数据进行训练的，并且不知道任何新知识，这使得模型很难直接回答陈旧或不准确的数据等问题。

数据安全：最后也是最重要的一点是，数据作为许多公司的重要资产，无法直接上传到互联网上的大规模模型。这就需要我们依靠AI来保证安全。最好的做法是将所有数据存储在本地，并在本地完成对企业数据的所有业务计算。在线大规模模型仅完成概要特征，LLM也可以完全本地化和部署。

由于上述三个主要原因，LLM+RAG 非常有用。

01RAG架构概述

RAG的基本思想是将背景知识文档预先向量化并存储在向量数据库中。当用户提出问题时，他们的问题也会被向量化，并使用向量搜索算法（例如向量积）。检索前K 个文档，并将检索到的前K 个文档和用户问题用作大规模模型的输入，该模型最终根据输入生成答案。 LLM 中的参数化知识是静态的，因此事实会随着时间而变化。 RAG 允许语言模型无需重新训练即可获取最新信息，并基于搜索生成产生可靠的输出。

7f012b71738c4f269788a129bd81e7f1~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1719401149&x-signature=sy53wa%2F%2FZFgcmrkOyTWk9Lg28Ig%3D RAG的架构可以分为以下部分：

(1) 数据提取：大多数现实场景是Word、PDF、pptx 等各种文档数据，需要各种数据加载器分别提取数据和进行数据清理(2) 数据分割由于具有：个数据库的大型模型有token 长度限制，并且大多数文档数据的长度超过这些限制，文档数据必须分为块(3) 矢量化：将文本、图像、音频和视频转换为矢量矩阵的过程。换句话说，质量嵌入模型的好坏直接影响后续检索的质量。这可以用于同义词搜索，比传统的关键字匹配更容易理解和使用。 ) 搜索链接：目前，常见的搜索技术都是利用向量相似度计算。此步骤对文档数据进行矢量化并将其存储在矢量数据库中。由于搜索效果可能不太好，因此使用了多种重定位技术。（5）生成：搜索结果经过排序后发送给LLM进行导航，并根据LLM的推理能力返回给用户。 02 现有RAG成熟产品

RAG 有各种开源的RAG 工具，一个完整的RAG 可以是像Langchain-chatchat、ragflow、qanything 等。各种开源RAG 架构之间存在细微的差异。第一章介绍了总体框架。

姓名

地址

解释

郎链聊天

https://github.com/chatchat-space/Langchain-Chachat/tree/master

当前之星29K

地毯流

https://github.com/infiniflow/ragflow/tree/main

当前星级9.3k

任何事物

https://github.com/netease-youdao/QAnything/tree/master

当前明星10.2k

……

当然，RAG比上面提到的三个框架要好得多。之前在《【大模型应用篇4】普通人构建智能体的工具》中引入的大多数代理也内置了RAG 功能。就目前的明星而言，Chachat 有优势，但Qanything 更胜一筹。经网易认可。还有其他方法可以告诉吗？答案是肯定的。请继续阅读。

另外，如果上面列出的成熟滞后产品不能满足您的需求，您还可以使用Langchain等工具进行定制开发。这种方式比较灵活。比如langchain官网有一个基于langchain开发rag的简单示例https://python.langchain.com/v0.1/docs/use_cases/question_answering/quickstart/。

03 RAG评估

市面上有如此多的RAG 工具，您如何选择一种更好的量化指标来判断您的抹布质量呢？大多数RAG 评估框架都基于答案的相关性、上下文准确性和上下文相关性等。主要的RAG 评估框架有：

姓名

地址

解释

拉加斯

https://github.com/explodinggradients/ragas

Ragas 是一个用于评估RAG 应用程序的框架，包括保真度、答案相关性、上下文准确性、上下文相关性和上下文回忆。其中，检索的质量是通过上下文相关性和上下文回忆来衡量的，同时也是衡量LLM生成质量的。就答案的保真度和相关性而言。

真实镜头

https://github.com/truera/trulens

TruLens 提供了一套用于开发和监控神经网络的工具，包括大规模语言模型。这包括使用TruLens-Eval 评估法学硕士和基于法学硕士的应用程序的工具，以及使用TruLens-Explain 评估深度学习可解释性的工具。 TruLens-Eval 和TruLens-Explain 包含在单独的软件包中，可以独立使用并与Langchain 无缝集成。 RAG 三元组评级模型- 搜索内容与问题的相关性、答案的基本原理（即，所提供的上下文支持较大语言模型答案的程度）以及答案与问题的相关性。

上火车

https://github.com/uptrain-ai/uptrain

一个用于评估和改进生成人工智能应用程序的开源集成平台。它提供了20 多个预配置检查的评分（涵盖语言、代码和内置用例）、故障案例的根本原因分析以及有关如何解决这些问题的见解。示例包括提示注入、越狱检测以及用户对完整对话的满意度。