您当前的位置: > 详细浏览

面向低资源语言机器翻译的平行语料句对齐评分

请选择邀稿期刊:

Parallel Corpus Sentence Alignment Scoring for Low-Resource Language Machine Translation

摘要: 目的 量化低资源语言平行语料的句对齐评分,获取高质量平行语料,提升机器翻译的性能。 方法 提出基于神经网络的无监督句嵌入双语平行语料句对齐评分方法 NeuroAlign:将平行句对嵌入至同一向量空间,计算平行语料中给定候选句对的对齐评分,然后根据评分排序过滤分值较低的平行句对,获得高质量的低资源语言双语平行语料。 结果 BUCC2018 平行文本挖掘任务中 F1 值可提升 0.5-0.8;CCMT2021 低资源语言神经机器翻译中 BLEU 值可提升 0.1-10.9;句对齐评分可接近人工评分。 局限 限于低资源双语平行语料的资源匮乏,未在藏汉、维汉、蒙汉以外的语言对上进行探索研究。 结论 可以有效应用至低资源语言平行语料的句对齐评分,从数据源端提升语料质量,进而改进机器翻译的效果。

版本历史

[V1] 2024-06-05 21:02:36 ChinaXiv:202406.00020V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量564
  •  下载量147
评论
分享