曾文,张均胜,徐红姣,李颖,刘敏,屈鹏,刘丹.多语言科技语料库建设研究[J].数字图书馆论坛,2015,(8):43~47 |
多语言科技语料库建设研究 |
Multilingual Science and Technology Corpus Construction |
|
DOI: |
中文关键词: 多语言;科技;语料库 |
英文关键词: Multilingual;Science and Technology;Corpu |
基金项目:本研究得到国家社会科学基金项目“基于事实型科技大数据的情报分析方法及集成分析平台研究”(编号14BTQ038)和中国科学技术信息研究所预研资金项目“多语言科技语料库建设与应用研究”(编号YY2015-08)资助。 |
作者 | 单位 | 曾文 | 中国科学技术信息研究所 | 张均胜 | 中国科学技术信息研究所 | 徐红姣 | 中国科学技术信息研究所 | 李颖 | 中国科学技术信息研究所 | 刘敏 | 中国科学技术信息研究所 | 屈鹏 | 中国科学技术信息研究所 | 刘丹 | 北京大学 |
|
摘要点击次数: 2182 |
全文下载次数: 1400 |
中文摘要: |
多语言科技语料库建设的重要意义在于它能够服务于多语言科技文献信息的组织、科技文献的自动翻译,以及科技文献的情报分析等。科技语料库的建设采用的主要技术方法是运用自然语言处理和计算机处理技术实现语料的采集、自动加工和处理。本文介绍多语言科技语料库建设方面的相关研究工作,主要涉及多语言词表、平行语料的获取与处理,及多语言语法资源的建设等方面的工作成果。研究工作的不足之处在于语料库的数据资源和语法资源的质量和规模有待于提高和完善。 |
英文摘要: |
The important significance of the construction of multilingual corpus is that it can serve the organization of the information of multilingual, automatic translation of scientific documents, and information analysis of scientific literature. The main technology methods of science and technology corpus construction are that use natural language processing and computer technology to realize the automatic colection, processing and processing of data. This paper introduced the research work about multilingual science and technology corpus construction,it included multilingual vocabulary, paralel corpus acquisition and processing, and multilingual grammar resources construction, etc. And the deficiencies of the research work are that the quality and size of corpus data resources and grammatical need to be improved. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|