文章摘要
郭红梅,袁国华,胡正银.基于概念向量的文本语义相似度方法探索[J].数字图书馆论坛,2017,(6):39~45
基于概念向量的文本语义相似度方法探索
Measurement of Text Semantic Similarity on the Basis of Concept Vector
  
DOI:
中文关键词: 概念向量;语义相似度;文本相似度
英文关键词: Concept Vector;Semantic Similarity;Text Similarity
基金项目:*本研究得到ISTIC-EBSCO文献大数据发现服务联合实验室基金项目"基于clique子团聚类的文本主题识别方法研究"资助.
作者单位
郭红梅 中国科学院文献情报中心 
袁国华 中国科学院文献情报中心 
胡正银 中国科学院成都文献情报中心 
摘要点击次数: 1892
全文下载次数: 1449
中文摘要:
      在对概念语义相似度方法调研的基础上,本文提出基于概念向量的文本语义相似度测度方法,借助MetaMap工具抽取文本中的概念术语,将概念术语通过词表层级结构转化为概念向量,通过计算两文本中概念向量的语义相似度来测度两文本的语义相似度.为验证基于概念向量文本语义相似度方法的准确性,选取TREC-05 genomics track数据进行实验,实验结果表明,本文提出的方法较常用的余弦方法更优,与专家评估方法更接近,在测度文本语义相似度上具有一定的可行性和有效性.
英文摘要:
      Based on the previous studies on the concept semantic similarity, this paper proposed measurement of text semantic similarity on the basis of concept vector. First, mining the concepts or terms from the texts. Second, transforming concepts or terms into concept vector followed by hierarchical structure of vocabulary. At last, measuring the sematic similarity of concepts or terms and further measuring the text semantic similarity. The paper used TREC-05 genomics track data to experiment. The results showed that the method of text semantic similarity on the basis of concept vector was bet er than cosine, which was more closely to expert evaluation result.
查看全文   查看/发表评论  下载PDF阅读器
关闭

分享按钮