您当前的位置: > 详细浏览

融合大语言模型与多模态特征的古文命名实体识别

请选择邀稿期刊:

Named Entity Recognition for Ancient Chinese Texts Using LLMs and Multimodal Features

摘要: [目的/意义] 运用命名实体识别技术深入探索古籍文献,推进中文古籍数字化,便于提取和分析重要信息,提升文化遗产的获取与理解,弘扬传统文化。[方法/过程]提出融合大语言模型与多模态特征的古文命名实体识别方法。首先,利用大语言模型进行数据扩充,生成更丰富的样本;然后,使用滑动窗口将文本分割为固定长度的子序列,并将文本子序列输入编码层,得到文本的特征表示;通过卷积神经网络(CNN)提取字形的局部特征,再利用改进的迭代扩张卷积神经网络(IDCNN)提取长距离特征,从而获得字形的全局信息。最后,将文本特征和字形特征在特征感知层进行拼接,形成每个字的综合表示,将拼接后的综合特征传递到CRF层进行序列标注,完成实体预测。以《左传》和CHED_NER为研究语料,构建人名、地名、时间等命名实体识别任务。[结果/结论]实验结果表明,融合大语言模型与多模态特征的古文命名实体识别方法,相比主流的BERT-BiLSTM-CRF方法,F1值分别提升13.32%和1.03%。融合大语言模型与多模态特征的古文命名实体识别方法,能够精准地实现对古籍文本的命名实体识别。

版本历史

[V3] 2024-11-20 09:59:08 ChinaXiv:202411.00196v3 查看此版本 下载全文
[V2] 2024-11-18 11:21:12 ChinaXiv:202411.00196v2 查看此版本 下载全文
[V1] 2024-11-15 10:04:28 ChinaXiv:202411.00196V1 下载全文
点击下载全文
预览
同行评议状态
待评议
许可声明
metrics指标
  •  点击量2368
  •  下载量1446
评论
分享
申请专家评阅