你的位置:手机小程序开发 > 小程序开发价格 > 小程序开发价格 【AI大模子应用缔造】【RAG评估】2. 实战:LangChain x RAGAs x LangSmith磋商评估RAG应用

小程序开发价格 【AI大模子应用缔造】【RAG评估】2. 实战:LangChain x RAGAs x LangSmith磋商评估RAG应用

发布日期:2024-09-28 15:18    点击次数:94
公众号内著述一览

图片小程序开发价格

“我想整个一生我都没有如此吃惊过,”基根-布拉德利星期二在纽约纳斯达克总部正式以莱德杯队长身份亮相时说,“我完全不知道。我花了一段时间才回过神来。

第1-4位号码分析:历史同期第182期出现范围在01-30区段,号码012路比为7:2:3,去年同期开出奖号:01+09+12+14,号码012路比为2:1:1。

上篇著述【AI大模子应用缔造】【RAG评估】1. 下里巴人:深度蛊卦RAGAS评估措施的旨趣与应用 咱们谛视锤真金不怕火了RAGAs的旨趣和已毕格式,今天咱们完好的实战一遍。将RAGAs集成在LangChain的RAG应用中,同期买通LangSmith平台,使评估流程可视化。

履行完之后,通过LangSmith平台,还会故不测得益:带你望望如何诓骗LangSmith平台来有用学习LangChain的使用和联系学问。

0. 前置 - 环境装置

装置 langchain 和 ragas,珍视装置ragas的 0.0.22 版块

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U langchainpip install ragas==0.0.22

若是装置了高版块的 ragas,举例 >= 0.1 版块,运转本文的代码会报错:

ModuleNotFoundError: No module named 'ragas.langchain'

原因是当今 langchain 还莫得对 ragas 0.1 及以后版块作兼容(戒指到 2024-02-25)。咫尺有两个采选:(1)不使用 langchain 来已毕你的功能,也就无用 langchain 内的 ragas,平直使用原生的 ragas。(2)使用 ragas 的 0.0.22 版块

ragas 0.1 does not yet have this feature. We are working on it, for now you have two options

Use ragas natively w/o the chain, in this way, you get all the new capabilities of 0.1 version

reinstall and use 0.0.22

1. 创建RAG0.1 文本加载

这里使用 langchain 中的 WebBaseLoader 来加载 html 数据:loader = WebBaseLoader("https://baike.baidu.com/item/纽约/6230")

WebBaseLoader是LangChain中集成的用于加载网页中笔墨的类,谛视使用格式可参考这里:

https://python.langchain.com/docs/integrations/document_loaders/web_base

from langchain_community.document_loaders import WebBaseLoaderloader = WebBaseLoader("https://baike.baidu.com/item/纽约/6230")loader.requests_kwargs = {'verify':False}data = loader.load()print(data)

将加载到的html数据打印出来看下,如下:

图片

0.2 创建向量索引0.2.1 代码
from langchain.indexes import VectorstoreIndexCreatorindex = VectorstoreIndexCreator().from_loaders([loader])
0.2.2 `VectorstoreIndexCreator` 先容

VectorstoreIndexCreator 是一个用于创建索引的组件,用于查询文本文档。它将文档分割成更小的块,为每个文档生成镶嵌(即数字示意),并将文档过火镶嵌存储在向量库中,然后不错对其进行查询以检索联系文档。

总结咱们创建索引的流程:加载文档 ---> 分割文本 ---> 生成文本向量,存储。参考之前的著述:【AI大模子应用缔造】【LangChain系列】4. 从Chain到LCEL:探索和实战LangChain的奥妙狡计

图片

这里诓骗 VectorstoreIndexCreator 一转代码就贬责了。是以,==VectorstoreIndexCreator便是 LangChain 对以上流程的高层封装==。看下它的源码:

from_loaders:通过传入的Loader加载文本数据,然后调用 from_documents

from_documents:切分文本,生成文本向量并存储

图片

0.3 创建QA链0.3.1 代码
from langchain.chains import RetrievalQAfrom langchain_community.chat_models import ChatOpenAIllm = ChatOpenAI()qa_chain = RetrievalQA.from_chain_type(    llm, retriever=index.vectorstore.as_retriever(), return_source_documents=True)
0.3.2 `RetrievalQA` 先容

参考文档:https://python.langchain.com/docs/modules/chains/#legacy-chains

图片

RetrievalQA 是 LangChain对问答类Chain的高层封装,它里面领先作念检索措施,然后将检索到的文档给到 LLM 生收服从。0.4 发问,运转QA链,得到RAG服从
question = "纽约市的名字是怎样得来的?"result = qa_chain({"query": question})# result["result"]print("========= chain result ==========")print(result)

图片

这里温雅下复返服从的结构,其中的key值为:

query

result

小程序开发

source_documents

这个key值很关键,后头的RAGAs里面便是去取这些Key值里面的本色,错一个字符王人会索取不到数据,报错。

1. 加入评估

context_recall 见解需要给定参考服从,放到key值为"ground_truths"的处所。莫得"ground_truths",该见解的评估会报错。

主要使用 RagasEvaluatorChain 链。

result['ground_truths'] = "纽约市的名字“纽约”着手于荷兰衰落伍将新阿姆斯特丹割让给英国的事件。"from ragas.metrics import faithfulness, answer_relevancy, context_relevancy, context_recallfrom ragas.langchain.evalchain import RagasEvaluatorChain# make eval chainseval_chains = {    m.name: RagasEvaluatorChain(metric=m)     for m in [faithfulness, answer_relevancy, context_relevancy, context_recall]}# evaluatefor name, eval_chain in eval_chains.items():    score_name = f"{name}_score"    print(f"{score_name}: {eval_chain(result)[score_name]}")

运转服从:

图片

2. 接入LangSmith

LangSmith平台的具体使用措施,小程序开发价格不错参考前边的著述:

【AI大模子应用缔造】【LangSmith: 坐褥级AI应用保重平台】0. 一文全览Tracing功能,让程序运转流程一目了然

接入 LangSmith,只需在代码最前边加入以下代码。

import osos.environ["LANGCHAIN_API_KEY"] = "ls__xxxxxx"os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"os.environ["LANGCHAIN_TRACING_V2"]="true"os.environ["LANGCHAIN_PROJECT"]="test-ragas"

运转程序之后,不错在LangSmith平台看到现时程序的运转流程。从下图不错看到一共运转了5个链,一个RetrievalQA链,四个RagasEvaluatorChain评估链(因为使用了四个测试见解),点击相应链,不错看到谛视的运转流程日记和运转统计。

图片

3. 完好代码
import osos.environ["LANGCHAIN_API_KEY"] = "ls__xxxxxx"os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"os.environ["LANGCHAIN_TRACING_V2"]="true"os.environ["LANGCHAIN_PROJECT"]="test-ragas"from langchain_community.document_loaders import WebBaseLoaderfrom langchain.indexes import VectorstoreIndexCreatorfrom langchain.chains import RetrievalQAfrom langchain_community.chat_models import ChatOpenAI# load the Wikipedia page and create indexloader = WebBaseLoader("https://baike.baidu.com/item/纽约/6230")loader.requests_kwargs = {'verify':False}index = VectorstoreIndexCreator().from_loaders([loader])# create the QA chainllm = ChatOpenAI()qa_chain = RetrievalQA.from_chain_type(    llm, retriever=index.vectorstore.as_retriever(), return_source_documents=True)# # testing it outquestion = "纽约市的名字是怎样得来的?"result = qa_chain({"query": question})# result["result"]print("========= chain result ==========")print(result)result['ground_truths'] = "纽约市的名字“纽约”着手于荷兰衰落伍将新阿姆斯特丹割让给英国的事件。"from ragas.metrics import faithfulness, answer_relevancy, context_relevancy, context_recallfrom ragas.langchain.evalchain import RagasEvaluatorChain# make eval chainseval_chains = {    m.name: RagasEvaluatorChain(metric=m)     for m in [faithfulness, answer_relevancy, context_relevancy, context_recall]}# evaluatefor name, eval_chain in eval_chains.items():    score_name = f"{name}_score"    print(f"{score_name}: {eval_chain(result)[score_name]}")
4. 使用LangSmith中的测试数据集进行测试

除了以上在运转流程中及时取得评估服从,咱们还不错针对某些数据集进行荟萃评估。底下是操作措施。

LangSmith平台测试数据集的具体使用措施,不错参考前边的著述:

【AI大模子应用缔造】【LangSmith: 坐褥级AI应用保重平台】1. 快速上手数据集与测试评估流程

4.1 创建及数据集

领先不错创建一个数据集。

create_dataset:用来在LangSmith平台创建数据集

read_dataset:用来读取LangSmith平台的数据集

# 测试数据集eval_questions = [    "纽约市的名字是怎样得来的?",]eval_answers = [    "纽约市的名字“纽约”着手于荷兰衰落伍将新阿姆斯特丹割让给英国的事件。",]examples = [{"query": q, "ground_truths": [eval_answers[i]]} for i, q in enumerate(eval_questions)]# dataset creationfrom langsmith import Clientfrom langsmith.utils import LangSmithErrorclient = Client()dataset_name = "NYC test"try:    # check if dataset exists    dataset = client.read_dataset(dataset_name=dataset_name)    print("using existing dataset: ", dataset.name)except LangSmithError:    # if not create a new one with the generated query examples    dataset = client.create_dataset(        dataset_name=dataset_name, description="NYC test dataset"    )    for e in examples:        client.create_example(            inputs={"query": e["query"]},            outputs={"ground_truths": e["ground_truths"]},            dataset_id=dataset.id,        )    print("Created a new dataset: ", dataset.name)
4.2 使用数据集进行评估

(1)领先界说评估函数:RunEvalConfig,这里填入的是四个评估见解链(2)run_on_dataset,奉行测试

from langchain.smith import RunEvalConfig, run_on_datasetevaluation_config = RunEvalConfig(    custom_evaluators=[        faithfulness_chain,        answer_rel_chain,        context_rel_chain,        context_recall_chain,    ],    prediction_key="result",)result = run_on_dataset(    client,    dataset_name,    qa_chain,    evaluation=evaluation_config,    input_mapper=lambda x: x,)
4.3 完好代码
import osos.environ["LANGCHAIN_TRACING_V2"]="true"os.environ["LANGCHAIN_PROJECT"]="test-ragas2"from langchain_community.document_loaders import WebBaseLoaderfrom langchain.indexes import VectorstoreIndexCreatorfrom langchain.chains import RetrievalQAfrom langchain_community.chat_models import ChatOpenAI# load the Wikipedia page and create indexloader = WebBaseLoader("https://baike.baidu.com/item/纽约/6230")loader.requests_kwargs = {'verify':False}index = VectorstoreIndexCreator().from_loaders([loader])# create the QA chainllm = ChatOpenAI()qa_chain = RetrievalQA.from_chain_type(    llm, retriever=index.vectorstore.as_retriever(), return_source_documents=True)from ragas.metrics import faithfulness, answer_relevancy, context_relevancy, context_recallfrom ragas.langchain.evalchain import RagasEvaluatorChain# create evaluation chainsfaithfulness_chain = RagasEvaluatorChain(metric=faithfulness)answer_rel_chain = RagasEvaluatorChain(metric=answer_relevancy)context_rel_chain = RagasEvaluatorChain(metric=context_relevancy)context_recall_chain = RagasEvaluatorChain(metric=context_recall)# 测试数据集eval_questions = [    "纽约市的名字是怎样得来的?",]eval_answers = [    "纽约市的名字“纽约”着手于荷兰衰落伍将新阿姆斯特丹割让给英国的事件。",]examples = [{"query": q, "ground_truths": [eval_answers[i]]} for i, q in enumerate(eval_questions)]# dataset creationfrom langsmith import Clientfrom langsmith.utils import LangSmithErrorclient = Client()dataset_name = "ragas test data"try:    # check if dataset exists    dataset = client.read_dataset(dataset_name=dataset_name)    print("using existing dataset: ", dataset.name)except LangSmithError:    # if not create a new one with the generated query examples    dataset = client.create_dataset(        dataset_name=dataset_name, description="NYC test dataset"    )    for e in examples:        client.create_example(            inputs={"query": e["query"]},            outputs={"ground_truths": e["ground_truths"]},            dataset_id=dataset.id,        )    print("Created a new dataset: ", dataset.name)from langchain.smith import RunEvalConfig, run_on_datasetevaluation_config = RunEvalConfig(    custom_evaluators=[        faithfulness_chain,        answer_rel_chain,        context_rel_chain,        context_recall_chain,    ],    prediction_key="result",)result = run_on_dataset(    client,    dataset_name,    qa_chain,    evaluation=evaluation_config,    input_mapper=lambda x: x,)

珍视:这里与前边措施的划分在于,诓骗测试数据集来测试时,无用再我方调用大模子取得result了,也无用我方再一个一个调用评估链了,也便是底下的代码无用了,这些在run_on_dataset就帮你作念了。

# # testing it outquestion = "纽约市的名字是怎样得来的?"result = qa_chain({"query": question})# result["result"]print("========= chain result ==========")print(result)result['ground_truths'] = "纽约市的名字“纽约”着手于荷兰衰落伍将新阿姆斯特丹割让给英国的事件。"
# evaluatefor name, eval_chain in eval_chains.items():    score_name = f"{name}_score"    print(f"{score_name}: {eval_chain(result)[score_name]}")
5. LangSmith助力LangChain学习

这里是小数不测得益,跟公共共享一下。

在使用 LangSmith 看运转流程的时候,发现它将 RetrievalQA 的谛视流程列出来了:

领先是使用了Retriever

然后是使用了StuffDocumentsChain下的LLMChain,LLMChain下调用了LLM

图片

而这个流程,在咱们的代码中,仅一转:result = qa_chain({"query": question})。对于像我不异不知谈 RetrievalQA 责任机制的东谈主来说,从上头这个流程不错学习到一些本色,无用看源码就知谈它里面领先我方进行了检索,然后里面我方调用了LLM。

这仅仅一个节略的感受,便是 LangSmith 的 Traces 功能无意候能匡助咱们更好地了解LangChain里面的责任机制和责任措施。

6. 留传问题

我的LangSmith平台上对于评估链的信息是这么的:

图片

它并莫得追踪到谛视运转措施,从前边著述中咱们知谈这几个见解王人需要调用LLM,但这里莫得追踪到。网上的例子不错追踪到评估链调用大模子的流程(诚然这个教程(https://blog.langchain.dev/evaluating-rag-pipelines-with-ragas-langsmith/)技能好早了):

图片

不知谈是不是因为LangChain当今不兼容RAGAS导致的。后续再望望吧。

若是认为本文对你有匡助,坚苦点个赞和温雅呗 ~~~

公共好,我是同学小张,夙昔共享AI学问和实战案例

接待 点赞 + 温雅 👏,捏续学习,捏续干货输出。

公众号内著述一览

图片

本站仅提供存储干事,悉数本色均由用户发布,如发现存害或侵权本色,请点击举报。