曾文,徐红姣,李颖,王莉军,赵婧.基于VSM的科技期刊文献与专利文 献的相似度计算方法研究[J].情报工程,2016,2(3):037-042 |
基于VSM的科技期刊文献与专利文 献的相似度计算方法研究 |
The Study of Correlation Calculation Method Based on the VSM for Scientific and Technological Periodicals and Patents |
|
DOI:10.3772/j.issn.2095-915X.2016.03.005 |
中文关键词: 自然语言处理,TF-IDF,向量空间模型,科技期刊,专利,相似度 |
英文关键词: Natural language processing, TF-IDF, vector space model, journal of science and technology, patent, similarity |
基金项目:本研究得到国家社会科学基金项目(项目编号:14BTQ038)和中国科学技术信息研究所科研项目预研资金项目(项目编 号:YY2016-08)的支持。 |
作者 | 单位 | 曾文 | 中国科学技术信息研究所 | 徐红姣 | 中国科学技术信息研究所 | 李颖 | 中国科学技术信息研究所 | 王莉军 | 中国科学技术信息研究所 | 赵婧 | 中国科学技术信息研究所 |
|
摘要点击次数: 3300 |
全文下载次数: 2791 |
中文摘要: |
文本相似度的计算方法以采用 TF-IDF 的方法对文本建模成词频向量空间模型(VSM)为主,本 文结合科技期刊文献和专利文献特点,对 TF-IDF 的计算方法进行了改进,将词频的统计改进为科技术 语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科 技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术 语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效 的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的 TF-IDF 计算方法。 |
英文摘要: |
Original text similarity measurements employed the TF-IDF method to model the documents as term frequency vector space model (VSM), and compute similarity between the documents. The paper proposed a new literature similarity calculation method for scientific and technological (S&T) documents. According to the characteristics of these documents, we replaced the word frequency statistic method by the scientific term frequency statistic method to improve the algorithm of TF-IDF method. In addition, the new method applied the natural language processing technology to the pretreatment, using the term automatic extraction method for extracting S&T terms. The term weight VSM was constructed to calculate the similarity between S&T periodical literatures and patents by using the new calculation formula. Moreover, this paper used the real S&T documents to test the new method, and compared its results with the original method. The results showed that the proposed method is superior to the original TF-IDF method. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |