分类: 计算机科学 >> 计算机应用技术 提交时间: 2024-06-21
摘要: 随着深度学习预训练语言模型(PLM)的发展,人们很快将其应用于科技文献的领域分类,所能达到的效果远远超过传统自然语言处理技术在相同任务中的表现。科技成果登记数据与科技文献有相似之处,都具有高度凝练的标题,有较为详细的长文本简介,可作为基于PLM分类方法的判断依据。同时科技成果又存在其独特之处,它的简介会介绍项目来源、项目背景、应用情况、获奖情况等多方面内容,而科技文献通常高度聚焦于研究内容。这一特殊性增加了基于PLM分类方法对科技成果中图分类做出正确预测的难度。本研究中,我们以预训练BERT模型(RoBERTa)为基础,构建了科技成果中图分类自动标引系统。受生成式大语言模型解码过程的启发引入了解码策略,将原本的分类问题转化为解码问题。该方法不仅提高了预测的准确率,同时解决了以往分类模型只能局限于单一级别执行预测的问题,从而实现了业务所需的动态预测。还可针对预测链上累积概率及终端概率等设置筛选条件,根据实际业务需求在可靠性和分类细致程度之间进行取舍。
分类: 计算机科学 >> 计算机应用技术 提交时间: 2023-07-01
摘要: [目的] 本研究旨在提出一种基于词和词性的联合文本生成模型,以提高生成文本的质量。 [方法] 该模型由两个预训练的文本生成模型组成,一个是基于词的模型,另一个是基于词性的模型。此外,本文还提出并使用了BERT模型对进行二分类任务,以判断文本生成效果。 [结果] 在三个数据集上的实验结果表明,与传统的GPT模型相比,GPT-WP模型生成文本的质量有明显提升。 [局限] BERT模型在二分类任务中参数较大,大规模数据训练下评价效果差,本文提出的模型在数据量较小的场景下表现较好,大规模数据表现差异缩小。 [结论] GPT-WP模型在本文提出的评价方法下表明其能够有效地提高生成文本的质量,对于自然语言生成任务的改进和评估提供了参考。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-11-18 合作期刊: 《数据智能(英文)》
摘要: Currently, as a basic task of military document information extraction, Named Entity Recognition (NER) for military documents has received great attention. In 2020, China Conference on Knowledge Graph and Semantic Computing (CCKS) and System Engineering Research Institute of Academy of Military Sciences (AMS) issued the NER task for test evaluation, which requires the recognition of four types of entities including Test Elements (TE), Performance Indicators (PI), System Components (SC) and Task Scenarios (TS). Due to the particularity and confidentiality of the military field, only 400 items of annotated data are provided by the organizer. In this paper, the task is regarded as a few-shot learning problem for NER, and a method based on BERT and two-level model fusion is proposed. Firstly, the proposed method is based on several basic models fine tuned by BERT on the training data. Then, a two-level fusion strategy applied to the prediction results of multiple basic models is proposed to alleviate the over-fitting problem. Finally, the labeling errors are eliminated by post-processing. This method achieves F1 score of 0.7203 on the test set of the evaluation task.
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-18 合作期刊: 《计算机应用研究》
摘要: 文本表示需要解决文本词语的歧义性问题,并能够准确界定词语在特定上下文语境中的语义特征。针对词语的多义性及语境特征问题,提出了一种文本语义消歧的SCDVAB模型。主要创新点有:基于分区平均技术,将场景语料库转换为文档嵌入,并引入各向异性,改进了软聚类的稀疏复合文档向量(SCDV)算法,以提高BERT的语境化表示能力;将调整各向异性后的BERT词语嵌入,作为静态词语向量的文档嵌入,以提升文本语义消歧的能力。通过大量实验进一步证明,SCDVAB模型的效果明显优于传统的文本消歧算法, SCDVAB模型可有效提高文本语义消歧的综合性能。
分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2022-05-13
摘要: 探讨如何对股吧等金融论坛数据进行爬取并结合深度学习模型进行情感分析。本文将使用BERT模型针对金融语料进行训练,并对深证成指进行对比分析。通过最大互信息系数对比验证,发现将BERT模型应用到金融语料中所得到的情感特征能够证明情绪变量在一定程度上与股票价格存在一定相关性。同时本文是深度学习在金融环境下的运用。在通过深度学习的方法进一步探究投资者情绪对股票市场的影响机制,将有利于国家监管部门和政策部门对维持股票市场稳定性制定更加合理的政策方针。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-10 合作期刊: 《计算机应用研究》
摘要: 方面级情感分析旨在确定评论中对特定方面的情绪极性,但目前较少研究复杂句对情感分类的影响。基于此,提出了一种基于BERT和带相对位置自注意力网络的方面级情感分析模型。首先,通过动态加权采样方法平衡对比句稀缺的问题,使模型学习到更多的对比句特征信息;其次,利用双头自注意力网络提取带相对位置的特征表示,与预训练模型得到的带绝对位置的特征表示联合训练;最后,通过标签平衡技术对模型正则化处理,稳定模型对中性样本的辨识。该模型在SemEval 2014 Task 4 Sub Task 2上进行实验,在两个数据集上的Accuracy和Macro-f1指标都有所提高。实验结果表明,该模型在对比句分类上是有效的,同时在整个测试集上分类也优于其他基准模型。
分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2022-05-10
摘要: 基于2018年1月1日至2019年12月31日东方财富网深证成指股吧的评论数据,本文通过使用深度学习BERT模型提取了其中蕴含的投资者情绪,并应用TVP-VAR模型对投资情绪、股市流动性以及波动性三者之间的时变联动关系进行了研究。实验结果表明,投资者情绪对股市流动性和波动性的冲击更为强烈,而反向的影响虽然相对较小,但其随股市状态变化更为显著。此外,在所有情况下,短期的响应都比中长期更显著,且影响具有非对称性,市场下行时期的冲击更为强烈。
分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2021-10-20
摘要: 最近流行的自然语言处理技术之一是BERT模型,本文给出该模型的数学形式。
分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2020-10-27
摘要: ICD-9术语标准化任务旨在将医生在病历中记录的口语术语标准化为《国际疾病分类》(ICD-9)第九版中定义的标准术语。在本文中,我们首先提出一种基于BERT和文本相似度的方法(BTSBM),该方法将BERT分类模型与文本相似度计算算法相结合:1)使用N-gram算法为每种口语术语生成候选标准术语集(CSTS) ,用作下一步的训练数据集和测试数据集; 2)使用BERT分类模型对正确的标准术语进行分类。在这种BTSBM方法中,如果采用较大规模的CSTS作为测试数据集,则训练数据集也需要保持较大规模。但是,每个CSTS中只有一个正样本。因此,扩大规模将导致正负样本比例的严重失衡,这将严重降低系统性能。如果我们将测试数据集保持相对较小,则CSTS准确性(CSTSA)将大大降低,这将导致非常低的系统性能上限。为了解决上述问题,我们然后提出了一种优化的术语标准化方法,称为先进的BERT和基于文本相似性方法(ABTSBM),其中1)使用大规模初始CSTS来维持较高的CSTSA以确保较高的系统性能上限; 2)根据身体结构对CSTS进行降噪,以减轻正负样本的不平衡而不降低CSTSA; 3)引入focal loss损失函数以进一步促进正负样本的平衡。实验表明,ABTSBM方法的精度高达83.5%,比BTSBM高0.6%,而ABTSBM的计算成本比BTSBM低26.7%。
分类: 计算机科学 >> 自然语言理解与机器翻译 分类: 图书馆学、情报学 >> 情报过程自动化的方法和设备 提交时间: 2019-10-29
摘要: Purpose: Move recognition in scientific abstracts is an NLP task of classifying sentences of the abstracts into different types of language unit. To improve the performance of move recognition in scientific abstracts, a novel model of move recognition is proposed that outperforms BERT-Base method. Design: Prevalent models based on BERT for sentence classification often classify sentences without considering the context of the sentences. In this paper, inspired by the BERT's Masked Language Model (MLM), we propose a novel model called Masked Sentence Model that integrates the content and contextual information of the sentences in move recognition. Experiments are conducted on the benchmark dataset PubMed 20K RCT in three steps. And then compare our model with HSLN-RNN, BERT-Base and SciBERT using the same dataset. Findings: Compared with BERT-Base and SciBERT model, the F1 score of our model outperforms them by 4.96% and 4.34% respectively, which shows the feasibility and effectiveness of the novel model and the result of our model comes closest to the state-of-the-art results of HSLN-RNN at present. Research Limitations: The sequential features of move labels are not considered, which might be one of the reasons why HSLN-RNN has better performance. And our model is restricted to dealing with bio-medical English literature because we use dataset from PubMed which is a typical bio-medical database to fine-tune our model. Practical implications: The proposed model is better and simpler in identifying move structure in scientific abstracts, and is worthy for text classification experiments to capture contextual features of sentences. Originality: The study proposes a Masked Sentence Model based on BERT which takes account of the contextual features of the sentences in abstracts in a new way. And the performance of this classification model is significantly improved by rebuilding the input layer without changing the structure of neural networks.
分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2019-05-12
摘要: Abstract. Computational chemistry develops fast in recent years due to the rapid growth and breakthroughs in AI. Thanks for the progress in natural language processing, researchers can extract more fine-grained knowledge in publications to stimulate the development in computational chemistry. While the works and corpora in chemical entity extraction have been restricted in the biomedicine or life science field instead of the chemistry field, we build a new corpus in chemical bond field anno- tated for 7 types of entities: compound, solvent, method, bond, reaction, pKa and pKa value. This paper presents a novel BERT-CRF model to build scientific chemical data chains by extracting 7 chemical entities and relations from publications. And we propose a joint model to ex- tract the entities and relations simultaneously. Experimental results on our Chemical Special Corpus demonstrate that we achieve state-of-art and competitive NER performance.