蒋志鹏,赵芳芳,关毅,杨锦锋.面向中文电子病历的词法语料标注研究[J].高技术通讯(中文),2014,24(6):609~615 |
面向中文电子病历的词法语料标注研究 |
|
|
DOI: |
中文关键词: 中文电子病历(CEMR), 词性标注, 标注一致性, 语料差异, 错误分析 |
英文关键词: |
基金项目: |
作者 | 单位 | 蒋志鹏 | 哈尔滨工业大学计算机科学与技术学院 | 赵芳芳 | 哈尔滨工业大学计算机科学与技术学院 | 关毅 | 哈尔滨工业大学计算机科学与技术学院 | 杨锦锋 | 哈尔滨工业大学计算机科学与技术学院 |
|
摘要点击次数: 4183 |
全文下载次数: 3590 |
中文摘要: |
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。 |
英文摘要: |
|
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|