刘齐凯,李鹏程,陆伟,程齐凯.科技文献算法嵌套实体识别[J].数字图书馆论坛,2022,(2):2~9 |
科技文献算法嵌套实体识别 |
Nested Algorithm Entity Recognition in Scientific and Technological Literature |
投稿时间:2022-01-28 |
DOI:10.3772/j.issn.1673-2286.2022.02.001 |
中文关键词: 实体识别;嵌套实体识别;数据增强;BART |
英文关键词: Entity Recognition; Nested Entity Recognition; Data Augmentation; BART |
基金项目: |
作者 | 单位 | 刘齐凯 | 武汉大学信息管理学院 武汉大学信息检索与知识挖掘研究所 | 李鹏程 | 武汉大学信息管理学院 武汉大学信息检索与知识挖掘研究所 | 陆伟 | 武汉大学信息管理学院 武汉大学信息检索与知识挖掘研究所 | 程齐凯 | 武汉大学信息管理学院 武汉大学信息检索与知识挖掘研究所 |
|
摘要点击次数: 1387 |
全文下载次数: 1309 |
中文摘要: |
本文探讨了科技文献中算法实体的自动识别研究,着重研究嵌套型算法实体的识别优化问题。首先通过远程监督学习的方式构建算法实体训练语料,再引入数据增强技术扩充语料规模,最后应用BartNER模型实现科技文献中嵌套算法实体的自动识别。实验结果显示,在引用数据增强技术的基础上BartNER模型取得了76.66%的F1值,证明该方法对嵌套算法实体识别的有效性,同时证明数据增强策略能够有效提升嵌套算法实体的识别效果。 |
英文摘要: |
The research of automatic recognition of algorithm entities in scientific literature is discussed, and the optimization of nested algorithmic entity recognition is emphatically studied. Firstly, the algorithm entity training corpus is constructed by means of distant supervision, then data augmentation is introduced to expand the corpus. Finally, the BartNER model is applied to recognize nested algorithm entities in scientific literature. The experimental results show that the BartNER model achieves an F1 value of 76.66% based on data augmentation, which proves the effectiveness of BartNER on the nested entity recognition problem, and also proves that data augmentation can effectively improve the recognition results of the nested algorithm entity. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |