卢志茂,徐森,刘远超,顾国昌.使用“分裂 合并”策略改进文本聚类集成算法的研究[J].高技术通讯(中文),2010,20(7):714~718 |
使用“分裂 合并”策略改进文本聚类集成算法的研究 |
|
|
DOI: |
中文关键词: 聚类集成, 谱聚类, 文本聚类, 分裂 合并(DM), 标准化互信息(NMI) |
英文关键词: |
基金项目:863计划(2007AA01Z172),国家自然科学基金(60975042,60603092)和高等学校博士学科点专项科研基金(20070217043)资助项目 |
作者 | 单位 | 卢志茂 | 哈尔滨工程大学模式识别与自然计算研究室 | 徐森 | 盐城工学院计算机工程系盐城 | 刘远超 | 哈尔滨工业大学智能技术与自然语言处理实验室 | 顾国昌 | 哈尔滨工程大学模式识别与自然计算研究室 |
|
摘要点击次数: 3056 |
全文下载次数: 2250 |
中文摘要: |
探讨了“分裂 合并”(DM)策略对文本聚类集成算法改进的效果。首先在聚类成员生成阶段运行使用DM策略的超球K均值(SKM)算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用凝聚层次聚类方法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用两个快速的谱聚类算法进行集成。在6组真实文本集上进行了实验,使用DM策略的两个聚类集成算法获得的平均标准化互信息(NMI)分别比改进前的算法提高了46和79个百分点,证明了DM策略可以有效提高文本聚类集成算法的聚类质量。 |
英文摘要: |
|
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |