CREA-Eval:用于测试大语言模型理解稀土领域相关问题能力的评估基准
CREA-Eval: An Evaluation Benchmark for Assessing Large Language Models’ Understanding of Rare Earth-Related Questions
-
作者:
那世航
1,2
于佳欣
1,2
任少卿
1,2
高硕
1,2
王誉
1,2
闫宏伟
1,2
-
作者单位:
- 通讯作者:
闫宏伟
Email:hongw1125@126.com
-
提交时间:2026-04-13 14:28:22
摘要: 本研究旨在解决当前大语言模型(LLM)在中文稀土领域缺乏专业评估基准的问题。为此,构建了中文稀土能力评估基准(CREA-Eval),涵盖5个主题、4种题型,共包含2,443条高质量语料,可以高效的评估各个LLM的稀土能力边界。该基准通过人工标注、大语言模型辅助与自动化脚本相结合的方式完成数据收集与审核,并采用LLM裁判结合正则匹配的混合评估策略。基于CREA-Eval,对来自6个平台的22个主流LLM进行了系统评估,报告了各模型在不同主题与题型下的准确率。研究进一步引入教育考试中的主观题与客观题分类,发现部分模型在两个分类间表现存在显著差异;通过余弦相似度差值定量分析表明,该现象可能源于模型训练中特定主题相关的知识概念或事实来自于其他领域文本或主题内容,特定主题相关知识未经过主题内语料充分组织,导致表达与推理能力滞后于事实性知识掌握。CREA-Eval为稀土领域专用大语言模型的评估、选型与微调提供了标准化工具,有助于推动行业大模型的专业化发展。
版本历史
| [V1] |
2026-04-13 14:28:22 |
ChinaXiv:202604.00191V1
|
下载全文 |