张军欢1 庞 正1 张 辉2.基于关系代数的多源异构数据聚合模型研究[J].中国科技资源导刊,2021,(5):1~10 |
基于关系代数的多源异构数据聚合模型研究 |
Aggregation Model of Heterogeneous Scientific and Technical Resources UsingRelational Algebra |
投稿时间:2021-03-01 |
DOI: |
中文关键词: 科技资源;多源异构数据聚合;关系代数;模式匹配;属性相似度 |
英文关键词: scientific and technical resources, Multi-source heterogeneous data integration, relational algebra,
pattern matching, attribute similarity |
基金项目:重点研发计划项目“分布式科技资源体系及服务评价技术研究”(2017YFB1400200);重点研发计划项目“跨平台科
技资源聚合及规模化服务空间构建”(2018YFB1402904) |
作者 | 单位 | 张军欢1 庞 正1 张 辉2 | (1.北京航空航天大学经济管理学院,北京 100191;2.北京航空航天大学计算机学院,北京 100191) |
|
摘要点击次数: 872 |
全文下载次数: 2721 |
中文摘要: |
:科技资源已成为推动科技进步的关键因素。科技资源的孤岛问题严重阻碍了科技资源的流通及共享,多源
数据聚合成为有效解决该问题的关键。针对论文和专利两种不同来源的异构数据展开聚合研究。首先,利用模式匹配
方法计算出目标表的结构;其次,利用关系代数的方式对数据调解与整合过程进行建模;最后,利用模型对异构数据
进行聚合,得到了聚合的XML数据。在模式匹配中,匹配属性的余弦相似度最高达到0.748,并且聚合结果具有较强的
可解释性,验证了该模型的可行性与正确性。 |
英文摘要: |
Scientific and technical resources have become a key factor in promoting scientific and technical
progress. The isolated island problem of scientific and technical resources has seriously hindered the circulation
and sharing of scientific and technical resources. The aggregation of multi-source data has become the key to
effectively solving this problem. This article focuses on the study of the aggregation problem of heterogeneous
data from two different sources of papers and patents. First, the structure of the target table is calculated using
the pattern matching method, and then the data mediation and integration process is modeled using relational
algebra, and finally the model is used. The aggregation of heterogeneous data is realized, which verifies the
feasibility and correctness of the model. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |