赵胜钢,李军莲,陈颖.编辑距离算法在科研基金名称数据分析中的应用[J].数字图书馆论坛,2014,(5):53~58 |
编辑距离算法在科研基金名称数据分析中的应用 |
Using Levenshtein Distance Algorithm in the Name Data Analysis on the Scientific Research Fund |
|
DOI: |
中文关键词: 文本挖掘;聚类算法;科研基金;编辑距离算法 |
英文关键词: Text mining;Data clustering;Scientific research fund;Levenshtein distance |
基金项目: |
作者 | 单位 | 赵胜钢 | 中国医学科学院医学信息研究所 | 李军莲 | 中国医学科学院医学信息研究所 | 陈颖 | 中国医学科学院医学信息研究所 |
|
摘要点击次数: 2074 |
全文下载次数: 1383 |
中文摘要: |
通过对科研基金名称数据特点和文本数据聚类方法的分析,提出并实现了基于编辑距离算法(Levenshtein Distance)的科研基金名称数据分析方法,该算法首先通过设定相似度方式对科研基金名称数据进行聚类形成数据分组,再对分组数据进行二次聚类计算出组的相似度之和,并据此判定数据聚类中心。该方法已经成功应用于中国医学科学院医学信息研究所的医学文献基金数据处理。 |
英文摘要: |
Based on the analysis of the clustering method of text data and the characteristics of the scientific research funds name data, the method of applying the Levenshtein Distance algorithm twice in the scientific research fund name data clustering to identify the clustering center of fund name data automatical y has been discussed. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |