qqqqqq
注册 登录
EN | CN
  • 首页
  • 论文提交
  • 论文浏览
  • 论文检索
  • 个人中心
  • 帮助
按提交时间
  • 1
  • 1
  • 4
按主题分类
  • 4
  • 2
按作者
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
按机构
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
当前资源共 6条
隐藏摘要 点击量 时间 下载量
  • 1. ChinaXiv:202307.00104
    下载全文

    基于多策略的临床术语标准化

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2023-07-11

    林楠铠 林晓钿 吴凯莹 陈枫 蒋盛益

    摘要: 临床术语标准化对于处理电子病历中临床术语不规范问题具有重要的研究意义。目前主流的解决方法是采用召回-排序的策略。该文基于中国健康信息处理大会(CHIP2021)评测3中提供的数据集,提出了一个基于多策略的临床术语标准化方法,在召回阶段,采用全匹配策略、相似原词的标准词推荐以及基于TF-IDF与改进的Jaccard系数的相似度计算去召回候选的标准词集合。同时,该文构建了基于BERT模型的标准词数量预测模型,利用对抗训练、Focal Loss与标签平滑策略有效地提高了模型的预测性能和泛化性能。在排序阶段,该文利用基于对抗训练与诊断信息融合的BERT蕴含分数排序模型对候选词集合排序,再根据数量预测模型输出的结果生成最终预测的标准词。在最终的评测中,该文方法准确率达到0.6356,在参赛队伍中位列第二名。

    同行评议状态:待评议

     点击量 8063  下载量 1036  评论 0
  • 2. ChinaXiv:202010.00060
    下载全文

    一种基于BERT和文本相似度的先进的ICD9术语标准化方法

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2020-10-27

    刘宜佳 纪斌 余杰 谭郁松 马俊 吴庆波

    摘要: ICD-9术语标准化任务旨在将医生在病历中记录的口语术语标准化为《国际疾病分类》(ICD-9)第九版中定义的标准术语。在本文中,我们首先提出一种基于BERT和文本相似度的方法(BTSBM),该方法将BERT分类模型与文本相似度计算算法相结合:1)使用N-gram算法为每种口语术语生成候选标准术语集(CSTS) ,用作下一步的训练数据集和测试数据集; 2)使用BERT分类模型对正确的标准术语进行分类。在这种BTSBM方法中,如果采用较大规模的CSTS作为测试数据集,则训练数据集也需要保持较大规模。但是,每个CSTS中只有一个正样本。因此,扩大规模将导致正负样本比例的严重失衡,这将严重降低系统性能。如果我们将测试数据集保持相对较小,则CSTS准确性(CSTSA)将大大降低,这将导致非常低的系统性能上限。为了解决上述问题,我们然后提出了一种优化的术语标准化方法,称为先进的BERT和基于文本相似性方法(ABTSBM),其中1)使用大规模初始CSTS来维持较高的CSTSA以确保较高的系统性能上限; 2)根据身体结构对CSTS进行降噪,以减轻正负样本的不平衡而不降低CSTSA; 3)引入focal loss损失函数以进一步促进正负样本的平衡。实验表明,ABTSBM方法的精度高达83.5%,比BTSBM高0.6%,而ABTSBM的计算成本比BTSBM低26.7%。

    同行评议状态:待评议

     点击量 13646  下载量 2300  评论 0
  • 3. ChinaXiv:201811.00194
    下载全文

    宠物知识图谱的半自动化构建方法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》

    袁琦 刘渊 谢振平 陆菁

    摘要: 提出一种宠物知识图谱的构建框架。通过自顶向下的方式设计并构建了Schema(概念)层,从半结构化和非结构化数据中进行知识抽取构建了数据层。在对非结构化数据的实体抽取方面,提出了一种条件随机场(CRF)与宠物症状词典相结合的症状命名实体识别方法。该方法利用症状词典对文本进行识别,获取语义类别信息,CRF结合语义信息实现对症状实体的识别抽取。实验结果表明了该方法的有效性。在知识表示方面,选用OrientDB数据库支持的属性图模型来表示。知识图谱采用OrientDB图数据库来完成知识的存储,并实例展示了构建的宠物知识图谱。

    通过
     点击量 2688  下载量 1662  评论 0
  • 4. ChinaXiv:201805.00300
    下载全文

    一种基于动态加权PPI网络的关键蛋白质识别算法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》

    杨书新 鲁纪华 汤达荣

    摘要: 与静态PPI网络相比,动态PPI网络更能体现蛋白质之间相互作用的真实情况,并有效降低PPI网络中的假阴性。现有的关键蛋白质预测方法主要应用在静态PPI网络,忽视了PPI网络的动态特性。为有效预测关键蛋白质,利用基因表达数据提取蛋白质的动态信息,再结合静态PPI网络构建动态PPI网络,然后引入GO术语对网络加权,并基于动态加权PPI网络提出一种新的预测方法-DWE。该方法以蛋白质在动态网络中的动态加权边之和与蛋白质在动态网络中出现的次数的比值衡量蛋白质在网络中的关键性。实验结果表明动态加权PPI网络有助于提高关键蛋白质的预测精度,且DWE方法优于其他几种关键蛋白质预测方法。

    通过
     点击量 1527  下载量 832  评论 0
  • 5. ChinaXiv:201805.00368
    下载全文

    维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》

    如先姑力·阿布都热西提 亚森·艾则孜 艾山·吾买尔 阿力木江·艾沙

    摘要: 针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法。首先,将论坛文本进行预处理以删除无用词,并基于N-gram 统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本。在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性。

    通过
     点击量 2639  下载量 1407  评论 0
  • 6. ChinaXiv:201804.02062
    下载全文

    基于BLSTM_Attention_CRF模型的新能源汽车领域术语抽取

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》

    马建红 张亚梅 姚爽 张炳斐 郭昌宏

    摘要: 为提高新能源汽车领域术语抽取准确率,面向新能源汽车专利文本提出一种领域术语抽取模型。传统的领域术语抽取方法过度依赖人工定义特征和领域知识,无法自动挖掘隐含特征,其识别性能过度依赖所选特征的质量。因此,从深度学习的角度出发,提出了一种基于Attention的双向长短时记忆网络(bidirectional long short-term memory,BLSTM)与条件随机场(conditional random fields,CRF)相结合的领域术语抽取模型(BLSTM_Attention_CRF模型),并使用基于词典与规则相结合的方法对结果进行校正,准确率可达到86%以上,该方法切实可行。

    通过
     点击量 2272  下载量 1208  评论 0
友情链接 : ChinaXiv PubScholar 哲学社会科学预印本
  • 运营单位: 中国科学院文献情报中心
  • 制作维护:中国科学院文献情报中心知识系统部
  • 邮箱: eprint@mail.las.ac.cn
  • 地址:北京中关村北四环西路33号
招募预印本评审专家 许可声明 法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心