王道仁,杨冠灿,傅俊英.专利发明人英文重名识别判据及效度比较分析[J].数字图书馆论坛,2016,(8):2~9 |
专利发明人英文重名识别判据及效度比较分析 |
A Comparative Analysis of English Name Recognition Criterion and the Validity of the Patent Inventor |
|
DOI: |
中文关键词: 发明人姓名;字符串匹配;Jaro-Winkler算法;杰卡德算法 |
英文关键词: Inventor Name;String Matching;Jaro-Winkler Algorithm;Jaccard Algorithm |
基金项目:本研究得到国家科技支撑计划课题“专利信息支撑科研项目管理应用示范”(编号2013BAH21B05)资助。 |
作者 | 单位 | 王道仁 | 中国科学技术信息研究所 | 杨冠灿 | 中国科学技术信息研究所 | 傅俊英 | 中国科学技术信息研究所 |
|
摘要点击次数: 2289 |
全文下载次数: 1524 |
中文摘要: |
本文针对英文专利发明人姓名的字符串匹配问题,利用USPTO发明人姓名的数据集,探索现有字符串匹配算法的适用性。对指向同一发明人不能精确匹配的姓名字符串,分别用10种常用的字符串匹配算法进行处理。比较匹配结果发现:Jaro-Winkler算法对同一发明人姓名字符串匹配效果最好,且结果稳定。通过回归分析可知,杰卡德算法对于发明人的识别效果最佳,基于q-gram的算法在发明人姓名消歧中有重要意义;在发明人消歧中,多种字符串匹配算法的组合运用效果更佳。 |
英文摘要: |
To solve the string matching problem of the English name for the patent inventor, the paper used USPTO data sets, exploring the applicability of the existing string matching algorithm. The string belonging to the same invention, but not exactly matching, were processed with 10 kinds of common string matching algorithms. By comparing the match results, analysis, Jaro-Winkler algorithm name string best match effect to the same inventor, and the results are stable. Regression analysis shows the Jaccard algorithm (Jaccard) works best for inventor recognition, algorithm based on q-gram in the name of the inventor in the disambiguation is important. Disambiguation of the inventor, multiple strings matching algorithm used is bet er. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |