


RAG 应用评估


1. 准备待测数据

一个典型的检索增强生成(RAG)应用通常会产生一系列数据。创建 RAG 应用评估任务时,需要以下列条目及格式准备数据,并以 csv 格式存储:

  • 问题(question)list[str]:用户向应用发起的询问
  • 上下文(contexts)list[list[str]]:基于用户的问题,检索器(Retriever)向知识库查找知识条目,形成上下文,并提供给大模型。多条上下文条目间以分号;分割。
  • 回答(answer)list[str]:大模型基于问题、上下文和提示词模板生成的回答


  • 正确答案(ground_truths)list[list[str]]:用户提问所对应的真实、正确的答案。若一个问题下有多条正确答案(例如涉及多个部分的原文),条目间以分号;分割。


  1. 由知识库数据生成 QA 对,作为待测数据中的问题集与正确答案
  2. 将生成的问题集交由 RAG 应用回答,采集回答内容及检索到的知识库上下文内容,作为待测数据中的上下文与回答

2. 准备“裁判”

评估任务需要指定一个大模型或大模型服务作为评估者(或者说”裁判“/"考官")。默认使用 GPT-3.5 作为裁判。


  • 使用 7B 及以上参数量级的模型。更大的模型通常能更好地完成任务。
  • 使用”指令微调“(Instruct fine-tuned)类模型。这类微调模型通常能更好地依照指令返回特定格式的结果。
  • 涉及专业领域知识(如医疗、金融)时,使用经过该领域知识微调的大模型效果更好。

此外,部分指标需要使用 Embedding 模型将数据向量化。默认使用 OpenAI Embedding 接口,也可使用支持 Huggingface 库的本地模型,如 bge 系列。

3. 执行评估

根据给定的参数、待测数据、裁判大模型,执行 ragas_once cli 工具,生成包括记录综合得分的 summary.csv 及单项 QA 得分的 result.csv 文件,作为评估结果。

4. 返回结果




  • 忠实度(Faithfulness)


    • 评估对象:问题、上下文、回答
  • 答案相关度(Answer Relevancy)


    • 该指标不考虑答案正确与否
    • 评估该指标需调用 Embedding 模型
    • 评估对象:问题、回答
  • 上下文准确度(Context Precision)

    检索器从知识库中检索多条上下文条目时,是否能将与正确答案(ground truth)更相关的上下文条目置于搜索结果的靠前位置?该指标衡量检索器将更准确的上下文与问题优先匹配的能力。

    • 评估对象:问题、上下文
  • 上下文相关度(Context Relevancy)


    • 评估对象:问题、上下文
  • 上下文召回率(Context Recall)


    • 评估对象:正确答案、上下文
  • 答案语义相似度(Answer Similarity)


    • 评估该指标需调用 Embedding 模型
    • 评估对象:回答、正确答案
  • 答案正确度(Answer Correctness)


    • 语义相似度与事实相似度的权重默认为 [0.5,0.5],可自定义。
    • 评估该指标需调用 Embedding 模型
    • 评估对象:回答、正确答案

创建评估任务时,默认评估前 5 项指标

RAG 评估 CR 定义示例

// RAGSpec defines the desired state of RAG
type RAGSpec struct {
// CommonSpec
basev1alpha1.CommonSpec `json:",inline"`

// Application(required) defines the target of this RAG evaluation
Application *basev1alpha1.TypedObjectReference `json:"application"`

// Datasets defines the dataset which will be used to generate test datasets
Datasets []Dataset `json:"datasets"`

// JudgeLLM(required) defines the judge which is a LLM to evaluate RAG application against test dataset
JudgeLLM *basev1alpha1.TypedObjectReference `json:"judge_llm"`

// Metrics that this rag evaluation will do
Metrics []Metric `json:"metrics"`

// Report defines the evaluation report configurations
Report Report `json:"report,omitempty"`

// Storage storage must be provided and data needs to be saved throughout the evaluation phase.
Storage *corev1.PersistentVolumeClaimSpec `json:"storage"`

// ServiceAccountName define the user when the job is run
// +kubebuilder:default=default
ServiceAccountName string `json:"serviceAccountName,omitempty"`

// Suspend suspension of the evaluation process
// +kubebuilder:default=false
Suspend bool `json:"suspend,omitempty"`

// RAGStatus defines the observed state of RAG
type RAGStatus struct {
// CompletionTime Evaluation completion time
CompletionTime *metav1.Time `json:"completionTime,omitempty"`

// Phase evaluation current stage,
// init,download,generate,judge,upload,complete
Phase RAGPhase `json:"phase,omitempty"`

// Conditions show the status of the job in the current stage
Conditions []v1.JobCondition `json:"conditions,omitempty"`

Spec 字段详解

  • CommonSpec:基础描述性信息
  • Application:本次评估任务所要评测的 RAG 应用
  • Datasets:用于生成待测数据的QA数据集对象,包含:
    • Source:数据集来源
    • Files:数据集文件
  • JudgeLLM:用于评估待测数据的裁判大模型
  • Metrics:需要评估的指标列表。每个指标对象包括:
    • Kind:指标类型
    • Parameters:以键值对存储的参数,如权重等
    • ToleranceThreshold:该指标的容忍阈值,得分低于该阈值表明 RAG 应用在该指标下表现不佳
  • Report:评估报告
  • Storage:申请的持久化存储,用于存储各类数据文件
  • ServiceAccountName:运行中的任务所属的用户名
  • Suspend:评估任务是否被中止

Status 字段详解:

  • CompletionTime:完成当次评估任务的总耗时
  • Phase:评估任务所处的阶段:
    • QA 生成;待测数据生成;评估;完成
  • Conditions:正在运行的子任务的状态

ragas_once cli 工具

准备 ragas 及 langchain 环境:

pip install ragas==0.0.22 langchain==0.0.354


git clone https://github.com/kubeagi/arcadia.git
cd arcadia/pypi/ragas_once
pip install -e .

使用 openai apikey,评测 fiqa 数据集 demo:

ro --apikey YOUR_API_KEY

使用其他 openai 格式接口及 Huggingface Embedding 模型,评测指定数据集 csv:

ro --model MODEL_NAME --apibase API_BASE_URL --embeddings BAAI/bge-small-en --dataset path/to/dataset.csv
  • Embedding 模型运行需要 sentence-transformers 库:pip install sentence-transformers


  • --model: Specifies the model to use for evaluation.
    • Default value is "gpt-3.5-turbo". Langchain compatible.
  • --apibase: Specifies the base URL for the API.
  • --apikey: Specifies the API key to authenticate requests.
    • Not required if using psuedo-openai API server, e.g. vLLM, Fastchat, etc.
  • --embeddings: Specifies the Huggingface embeddings model to use for evaluation.
    • Embeddings will run locally.
    • Will use OpenAI embeddings if not set.
    • Better set if using psuedo-openai API server.
  • --metrics: Specifies the metrics to use for evaluation.
    • Will use Ragas default metrics if not set.
    • Default metrics: ["answer_relevancy", "context_precision", "faithfulness", "context_recall", "context_relevancy"]
    • Other metrics: "answer_similarity", "answer_correctness"
  • --dataset: Specifies the path to the dataset for evaluation.
    • Dataset format must meet RAGAS requirements.
    • Will use fiqa dataset as demo if not set.