文章摘要
盛怡瑾,张学福,孙巍,郝心宁.数据匹配算法应用对比研究--以期刊数据融合中作者和机构匹配为例[J].数字图书馆论坛,2015,(10):14~20
数据匹配算法应用对比研究--以期刊数据融合中作者和机构匹配为例
Comparative Study of Application for Data Matching Algorithms:Taking Author and Institution Matching in Journal Data Fusion as an Example
  
DOI:
中文关键词: 数据清洗;数据匹配;期刊;作者;机构
英文关键词: Data Cleansing;Data Matching;Journals;Author;Institution
基金项目:
作者单位
盛怡瑾 中国农业科学院农业信息研究所 
张学福 中国农业科学院农业信息研究所 
孙巍 中国农业科学院农业信息研究所 
郝心宁 中国农业科学院农业信息研究所 
摘要点击次数: 2060
全文下载次数: 1598
中文摘要:
      为了评价数据匹配算法中常用的四种字段匹配算法——Smith-Waterman算法、编辑距离(Edit Distance)、Q-gram算法和Jaro-Winkler算法的效果和表现,本文选取由水稻领域18个重点期刊集成得到的作者和机构数据设计实验,使用Febrl清洗工具包对相似重复记录进行匹配。结果表明,四种算法适用条件不同, Smith-Waterman算法运行时间特别长,但综合表现以及精度和召回率都不错;编辑距离(Edit Distance)性价比比较高;Q-gram算法运算快但召回率低;Jaro-Winkler算法在此例中表现比较差。
英文摘要:
      To evaluate the effect and performance of four field matching algorithms commonly used in data matching——Smith-Waterman algorithm, Edit Distance, Q-gram algorithm and Jaro-Winkler algorithm, we chose authors and institutions information integrated from 18 key journals to design experiments, using Febrl to match approximate records. The results showed that the four algorithms have different applicable conditions. Smith-Waterman algorithm runs a particularly long time, but the overal performance, the precision and recal are good. Edit distance is relatively high cost-effective. Q-gram algorithm runs fast but has low recal . Jaro-Winkler algorithm doesn' t perform wel in this case.
查看全文   查看/发表评论  下载PDF阅读器
关闭

分享按钮