融合大语言模型与多模态特征的古文命名实体识别
Named Entity Recognition for Ancient Chinese Texts Using LLMs and Multimodal Features
-
作者:
孟佳娜
1
李丰毅
1
刘爽
1
赵迪
1
王博林
1
-
作者单位:
- 通讯作者:
孟佳娜
Email:mengjn@dlnu.edu.cn
-
提交时间:2024-11-18 11:21:12
摘要: [目的/意义] 运用命名实体识别技术深入探索古籍文献,推进中文古籍数字化,便于提取和分析重要信息,提升文化遗产的获取与理解,弘扬传统文化。[方法/过程]提出融合大语言模型与多模态特征的古文命名实体识别方法。首先,利用大语言模型进行数据扩充,生成更丰富的样本;然后,使用滑动窗口将文本分割为固定长度的子序列,并将文本子序列输入编码层,得到文本的特征表示;通过卷积神经网络(CNN)提取字形的局部特征,再利用改进的迭代扩张卷积神经网络(IDCNN)提取长距离特征,从而获得字形的全局信息。最后,将文本特征和字形特征在特征感知层进行拼接,形成每个字的综合表示,将拼接后的综合特征传递到CRF层进行序列标注,完成实体预测。以《左传》和CHED_NER为研究语料,构建人名、地名、时间等命名实体识别任务。[结果/结论]实验结果表明,融合大语言模型与多模态特征的古文命名实体识别方法,相比主流的BERT-BiLSTM-CRF方法,F1值分别提升13.32%和1.03%。融合大语言模型与多模态特征的古文命名实体识别方法,能够精准地实现对古籍文本的命名实体识别。
版本历史
| [V3] |
2024-11-20 09:59:08 |
ChinaXiv:202411.00196v3
查看此版本
|
下载全文 |
| [V2] |
2024-11-18 11:21:12 |
ChinaXiv:202411.00196V2
|
下载全文 |
| [V1] |
2024-11-15 10:04:28 |
ChinaXiv:202411.00196v1
查看此版本
|
下载全文 |