石教祥,朱礼军,望俊成,王政,魏超.面向少量标注数据的命名实体识别研究[J].情报工程,2020,6(4):037-050 |
面向少量标注数据的命名实体识别研究 |
Research on Named Entity Recognition from Sparsely Labeled Data |
|
DOI:10.3772/j.issn.2095-915X.2020.04.004 |
中文关键词: 命名实体识别;深度学习;迁移学习;科技情报 |
英文关键词: Named entity recognition; deep learning; transfer learning; science & technology Intelligence |
基金项目:中国博士后科学基金第 65 批面上项目 “ 流形正则化自编码政策文本表示及主题词抽取方法研究 ”(2019M650804)。 |
作者 | 单位 | 石教祥 | 中国科学技术信息研究所 北京 100038 | 朱礼军 | 中国科学技术信息研究所 北京 100038 | 望俊成 | 中国科学技术信息研究所 北京 100038 | 王政 | 中国科学技术信息研究所 北京 100038 | 魏超 | 中国科学技术信息研究所 北京 100038 |
|
摘要点击次数: 2104 |
全文下载次数: 2518 |
中文摘要: |
作为语义知识库、知识图谱的基本组件,命名实体识别对智能系统建设和科技情报服务都起到重要作用。近年来,深度学习方法在特征抽取深度和模型精度上表现优异,已经超过了传统方法,但无论是传统机器学习还是深度学习方法都依赖大量标注数据来训练模型,而现有的研究对少量标注数据学习问题探讨较少。鉴于此,本文全面总结了少量标注数据命名实体识别方法。具体地,按照数据、模型、特征、知识的学习逻辑区分为 4 类:基于数据增强、模型迁移、特征变换、知识链接的方法,并对这些方法进行分析和比较。此外,我们整合了数据资源以及典型方法评测,最后对未来可能的发展方向进行预测。 |
英文摘要: |
As a basic component of the semantic knowledge base and knowledge graph, named entity recognition plays an important role in intelligent system construction and science & technology intelligence services. In recent years, the deep learning method that excels in feature extraction depth and model accuracy has surpassed the traditional method, but both traditional machine learning and neural network methods rely on a large amount of labeled resources to train the model. Since the existing research rarely discusses the sparsely labeled data problem, this paper comprehensively summarizes the sparsely labeled data named entity recognition methods. Specifically, according to the learning logic of data, model, feature, knowledge, we divide these methods into four categories: the methods based on data augmentation, model migration, feature transformation, knowledge linkage. And then, we analyze and compare these categories. In addition, we integrated data resources and evaluation of typical methods, and finally predict the possible future development direction. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|