刘鹏远,赵铁军.基于挖掘Web双语词汇关联度的无指导译文消歧[J].高技术通讯(中文),2010,20(4):349~354 |
基于挖掘Web双语词汇关联度的无指导译文消歧 |
Unsupervised translation disambiguation based on mining Web relatedness of bilingual words |
|
DOI: |
中文关键词: 词无指导译文消歧,双语词汇相关,页面计数,间接相关,基于Web |
英文关键词: unsupervised translation disambiguation, bilingual word relatedness, page count, indirect association, web based |
基金项目:973计划(2004CB318102),国家自然科学基金(60903063)和中国博士后科学基金(20090450007)资助项目 |
作者 | 单位 | 刘鹏远 | 北京大学信息科学与技术学院计算语言学研究所 | 赵铁军 | 哈尔滨工业大学计算机科学与技术学院 |
|
摘要点击次数: 3071 |
全文下载次数: 2324 |
中文摘要: |
为缓解译文消歧任务中消歧知识获取困难及数据稀疏问题,提出了一种基于Web的挖掘双语词汇相关关系的无指导译文消歧方法。该方法将双语词汇在语料库中的间接相关拓展到Web,提出了基于Web的双语词汇间接相关模型,在此基础上又提出了一种基于Web的双语词汇相关度的消歧方法,通过构造不同queries并利用搜索引擎抽取返回页面的page counts,最后利用点式互信息来计算词汇间的相关度并用于消歧决策。该方法最好性能(Pmar=0.464)超过了国际语义评测Semeval 2007的Task #5上可比较的最好无 |
英文摘要: |
This paper presents an unsupervised method by mining Web relatedness of bilingual words. It intends to solve the problem of knowledge acquisition and data sparse in translation disambiguation. By introducing an indirect association model of bilingual words first, this paper expands it to bilingual web page. It goes a step further to a bilingual Web relatedness which centers around Web pages. It computes point wise mutual information between words as relatedness and makes disambiguation by constructing different queries and extracting Web page counts through search engine. This method achieves the best performance. It outperforms the best unsupervised system TorMd on Semeval 2007 Task #5 and gets the state of the art results (Pmar=0.464). |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |