何峰,丁晓青.结合文本聚类和文本检索的语料选取方法[J].高技术通讯(中文),2010,20(12):1224~1228 |
结合文本聚类和文本检索的语料选取方法 |
|
|
DOI: |
中文关键词: 文本聚类, 文本检索, Kullback Leibler距离, 统计语言模型 |
英文关键词: |
基金项目: |
作者 | 单位 | 何峰 | 清华大学电子工程系 | 丁晓青 | 清华大学电子工程系 |
|
摘要点击次数: 2793 |
全文下载次数: 2083 |
中文摘要: |
为了克服用应用相关的文本数据进行语音识别、智能输入等各种自然语言处理中在有些情况下因很难收集到充足的相关数据和缺乏应用相关的训练数据带来的困难,提出了一种通过结合非监督文本聚类和文本检索技术实现相关语料选取的新方法。该方法仅使用少量与特定应用相关的文本,即可从未经整理的大规模语料库中发现更多与此应用相关的文本。利用该方法在手机短信文本和未经整理的大规模语料库上进行了实验,实验结果表明该方法能够有效提取应用相关的文本。 |
英文摘要: |
|
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|