<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005">
<channel xmlns:cfi="http://www.microsoft.com/schemas/rss/core/2005/internal" cfi:lastdownloaderror="None">
<title cf:type="text"><![CDATA[《情报工程》编辑部 -->自然语言处理]]></title>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[多引擎机器翻译译文重排序与融合研究]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202302009&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的 / 意义 ] 使用不用的模型、方法、语种、数据构建的机器翻译引擎往往在不同的场景下具有不同的翻译效果。因此，很多研究者都在构建机器翻译引擎时尝试使用多引擎译文融合或多翻译方法融合的方式来利用不同翻译引擎的优点，然而过往的工作没有考虑到如何利用用户在使用多引擎机器翻译所产生的数据来获取存在于用户认知域中对这些引擎译文的评价。[ 方法 / 过程 ] 本文研究提出了基于六个翻译引擎的多引擎翻译平台。该平台在长期使用中产生了翻译结果、用户特征、人工校译等数据，本文基于以上大规模历史数据构建了翻译模型训练资源库，结合 Page Rank 算法、贝叶斯公式和 UNQE 方法提出了多引擎机器翻译译文重排序方法，并利用译文重排序的结果与翻译模型训练资源库中的翻译实例相关数据，进一步使用 Transformer 架构训练了译文融合模型。[ 局限 ] 所提方法存在冷启动问题，需要一定时间、大量用户的真实数据才能够实现预期效果。[ 结果 / 结论 ] 实验结果表明了本文提出的方法能够融合多引擎优势，提高不同领域的平均译文质量]]></description>
<pubDate>2023/5/26 16:33:40</pubDate>
<category><![CDATA[自然语言处理]]></category>
<author><![CDATA[李铭，张克亮，唐亮，夏榕璟]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202302009&flag=1]]></guid><cfi:id>3</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[基于长短时记忆和条件随机场藏文分词模型]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202302010&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的 / 意义 ] 本文提出基于长短时记忆 (Long short-term memory，LSTM) 神经网络和条件随机场 (Conditional Random Field, CRF) 的藏文分词模型。[ 方法 / 过程 ] 引入注意力机制，获取更多特征信息 , 提升模型关注上下文信息与当前音节之间联系；提出一种音节扩展方法，获取更多的输入特征信息与语料信息，增强模型单音节特征信息以获取更多语义信息的能力。[ 局限 ] 本文在西藏大学数据集 12261 条的基础上，扩充至 74384 条，形成 Tibetan-News 数据集。[ 结果 / 结论 ] 实验结果表明，在模型中加入注意力机制并使用音节扩展方法后，模型在 Tibetan-News 数据集上的精确率、召回率和 F1 分别提升 2.9%、3.5% 和 3.2%。基于本文模型的分词系统已在工程上应用推广。]]></description>
<pubDate>2023/5/26 16:33:40</pubDate>
<category><![CDATA[自然语言处理]]></category>
<author><![CDATA[于永斌，陆瑞军，尼玛扎西，群诺，王昊，唐倩，彭辰辉，项秀才让]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202302010&flag=1]]></guid><cfi:id>2</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[基于敦煌古藏文语料库的字词属性统计研究]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202302011&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的 / 意义 ] 古藏文字符统计研究能够对机器翻译，以及从海量文本中快速定位核心内容，对情报收集工作有着重要意义。目前，藏文字符统计研究主要依据现代藏文语料库，忽视了古藏文语料库的字符统计研究。[ 方法 / 过程 ]本文以敦煌藏文文献为主，构建了古藏文文献标注语料库。在此基础上，应用 python 语言设计出古藏文频率统计软件，对古藏文和现代藏文的元音、辅音、藏文音节频次等方面进行对比分析。[ 结果 / 结论 ] 归纳出古藏文字符的分布特征，以期为古藏文标注语料库构建和藏文文字特征研究提供参考。]]></description>
<pubDate>2023/5/26 16:33:41</pubDate>
<category><![CDATA[自然语言处理]]></category>
<author><![CDATA[三智多杰，祁坤钰，久仙加]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202302011&flag=1]]></guid><cfi:id>1</cfi:id><cfi:read>true</cfi:read></item>
</channel>
</rss>