CREA-Eval：用于测试大语言模型理解稀土领域相关问题能力的评估基准

CREA-Eval: An Evaluation Benchmark for Assessing Large Language Models’ Understanding of Rare Earth-Related Questions

作者： 那世航 ^1,2 于佳欣 ^1,2 任少卿 ^1,2 高硕 ^1,2 王誉 ^1,2 闫宏伟 ^1,2
作者单位：

1. 包头稀土研究院

2. 白云鄂博稀土资源研究与综合利用全国重点实验室
通讯作者： 闫宏伟 Email:hongw1125@126.com
提交时间：2026-04-13 14:28:22

摘要: 本研究旨在解决当前大语言模型（LLM）在中文稀土领域缺乏专业评估基准的问题。为此，构建了中文稀土能力评估基准（CREA-Eval），涵盖5个主题、4种题型，共包含2,443条高质量语料，可以高效的评估各个LLM的稀土能力边界。该基准通过人工标注、大语言模型辅助与自动化脚本相结合的方式完成数据收集与审核，并采用LLM裁判结合正则匹配的混合评估策略。基于CREA-Eval，对来自6个平台的22个主流LLM进行了系统评估，报告了各模型在不同主题与题型下的准确率。研究进一步引入教育考试中的主观题与客观题分类，发现部分模型在两个分类间表现存在显著差异；通过余弦相似度差值定量分析表明，该现象可能源于模型训练中特定主题相关的知识概念或事实来自于其他领域文本或主题内容，特定主题相关知识未经过主题内语料充分组织，导致表达与推理能力滞后于事实性知识掌握。CREA-Eval为稀土领域专用大语言模型的评估、选型与微调提供了标准化工具，有助于推动行业大模型的专业化发展。

大语言模型稀土评估基准磁性材料

来自： 那世航
分类： 计算机科学 >> 计算机科学技术其他学科
投稿状态： 未投稿
引用： ChinaXiv:202604.00191 (或此版本 ChinaXiv:202604.00191V1)
DOI:10.12074/202604.00191
CSTR:32003.36.ChinaXiv.202604.00191
科创链TXID： c248efe0-ed52-41ea-bbaa-a0b1b71eae3f
推荐引用方式： 那世航,于佳欣,任少卿,高硕,王誉,闫宏伟.CREA-Eval：用于测试大语言模型理解稀土领域相关问题能力的评估基准.null.[DOI:10.12074/202604.00191] (点此复制)

版本历史

[V1]

2026-04-13 14:28:22

ChinaXiv:202604.00191V1

下载全文

1. 大语言模型驱动的科学假设生成研究综述	2026-04-02
2. 面向矢量图形生成的大语言模型研究综述	2026-01-08
3. 从概念识别到自动化测量：基于大语言模型的国家刻板印象评估	2025-03-11
4. 融合大语言模型与多模态特征的古文命名实体识别	2024-11-20
5. 引导大语言模型生成计算机可解析内容	2024-04-21
6. LLAMA-2 大语言模型的数学形式	2023-08-31
7. 大语言模型旋转位置编码的简易推导	2023-07-12


公开评论匿名评论仅发给作者

CREA-Eval：用于测试大语言模型理解稀土领域相关问题能力的评估基准

版本历史

相关论文推荐