<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005">
<channel xmlns:cfi="http://www.microsoft.com/schemas/rss/core/2005/internal" cfi:lastdownloaderror="None">
<title cf:type="text"><![CDATA[《情报工程》编辑部 -->文本处理与分析]]></title>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[语义知识驱动的论文摘要关键词抽取方法]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203001&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的/ 意义] 关键词抽取技术可以帮助用户从海量文本中快速定位核心内容，对情报收集工作有着重要意义。目前，关键词抽取主要依靠词频和共现关系，忽视了知识库对关键词抽取的指导作用。[ 方法/ 过程] 本文提供了一种融合知识的关键词抽取方法，首先基于义原和词林构建词汇知识图谱，其次结合词语的共现关系，生成新的概率转移矩阵，最后实现关键词抽取。[ 结果/ 结论] 基于海量摘要数据集的实验表明，融合知识的关键词抽取方法，能有效提高现有关键词抽取方法的性能。]]></description>
<pubDate>2022/7/25 13:32:50</pubDate>
<category><![CDATA[文本处理与分析]]></category>
<author><![CDATA[段建勇，鲁朝阳，王昊，李欣，何丽]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203001&flag=1]]></guid><cfi:id>5</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[基于参数迁移的领域命名实体识别方法]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203002&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的/ 意义] 命名实体识别是自然语言处理领域中的基础任务，基于深度学习的方法在通用领域的命名实体中取得了显著成果，但在特定领域识别效果不佳。为了解决工业信息化领域标注数据不足，数据特征差异较大、模型难以扩展的问题，首先提出了一种基于Transformer 的有限区间命名实体识别模型。[ 方法/ 过程] 采用预训练模型对文本进行分布式表示，然后利用基于有限区间的标注方法对输入序列进行标注，解决传统标注法在训练过程中可能导致的序列标注不一致的问题。在此基础上，引入迁移学习策略，采用参数共享的方式，将通用领域的命名实体识别模型迁移到工业信息化领域，并在工业信息化领域数据集上进行微调，最终获得在工业信息化领域上表现良好的模型。[ 结果/ 结论]实验结果表明，本文提出的有限区间命名实体识别模型在工业信息化领域数据集上的准确率较基线模型提高了8.7%，基于参数迁移的领域命名实体识别方法在人民日报语料和工业信息化领域数据集上的准确率和综合指标F 值相较未使用迁移学习的模型分别提高了3.1% 和1.1%，证明了迁移策略的有效性。]]></description>
<pubDate>2022/7/25 13:32:50</pubDate>
<category><![CDATA[文本处理与分析]]></category>
<author><![CDATA[孙新，任翔渝，郑洪超，杨凯歌]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203002&flag=1]]></guid><cfi:id>4</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[产业政策知识图谱的自动化构建]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203003&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的/ 意义] 为方便民众和政府工作人员快速了解产业政策中的重要内容，本研究提出了一套自动化的产业政策知识图谱构建框架，用于梳理有关政策文本。[ 方法/ 过程] 具体地，考虑到中文语料的缺乏，本研究利用基于句法分析的三元组抽取模型DSNF 从产业政策中抽取政策实体和关系，并结合政策分析场景的特点对结果进行调整。由于原始三元组的表达较为分散，本研究利用三元组表示模型TransP 和层次聚类模型BIRCH 对原始三元组进行表示和归并。[ 局限] 当前模型的性能尚需要在更大规模的数据集上进行检验，并与已有的方法进行比较。[ 结果/ 结论] 本研究调用并调整了一系列模型用于解决产业政策知识图谱构建过程中的问题，并探索了基于知识图谱的政策分析模式，具有重要的理论和实践意义。]]></description>
<pubDate>2022/7/25 13:32:50</pubDate>
<category><![CDATA[文本处理与分析]]></category>
<author><![CDATA[揣子昂，耿骞，潘慧瑶，靳健]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203003&flag=1]]></guid><cfi:id>3</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[大合规背景下我国网络空间安全政策文本研究]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203004&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的/ 意义] 我国网络空间安全战略的部署和实施推动了网络安全合规，本文结合大合规背景，对我国网络空间安全政策文本进行量化研究，为我国政府相关政策的制定、调整与完善提供建议与参考。[ 方法/ 过程] 本文收集并选取1994-2021 年的网络空间安全政策数据集，提出和构建基于政策工具、网络体系和时间三维分析框架，采用自下而上的编码方法进行政策工具编码，通过编码映射将政策工具编码结果与三维框架相关联，结合网络安全合规背景进行多维量化分析。[ 结果/ 结论] 分析结果表明，我国网络空间安全政策存在政策工具使用结构不合理、各类工具箱内部使用比例不平衡和网络体系聚焦失衡等问题，建议优化政策工具使用结构，注重工具箱内部的使用平衡，增加网络体系要素的组合运用。]]></description>
<pubDate>2022/7/25 13:32:51</pubDate>
<category><![CDATA[文本处理与分析]]></category>
<author><![CDATA[何明祥，杨旭，李冠]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203004&flag=1]]></guid><cfi:id>2</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[基于图的汉语字级别依存分析联合模型]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203005&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的/ 意义] 汉语分词、词性标注和依存句法分析作为汉语自然语言处理的三大基本任务发挥着至关重要的作用。基于转移的三个任务联合模型曾经取得最好精度，但是随着神经网络和计算能力的发展，具有全局信息建模能力的图模型，在单任务和两个任务上已经超过转移模型。如何在基于图模型下联合三个任务，进一步提升精度成为新的挑战。[ 方法/ 过程] 本文提出一种基于图的汉语分词、词性标注和依存句法分析的联合模型，通过设计统一的字级别标签实现三个任务的联合，并采用预训练语言模型融合上下文信息的字表示方法和基于双仿射注意力机制的评分函数。本文也设计了联合模型的解法算法用于三个任务的解码。[ 结果/ 结论] 实验结果表明，本文词性标注任务的引入方式可以建模词性与分词以及词性与依存句法分析之间的关系，从而带来其他两个任务上精度的提升。与目前精度最好的Yan[1] 工作相比，在三个任务上都取得最好精度。]]></description>
<pubDate>2022/7/25 13:32:51</pubDate>
<category><![CDATA[文本处理与分析]]></category>
<author><![CDATA[汪凯，梁宇腾，张玉洁，徐金安，陈钰枫]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202203005&flag=1]]></guid><cfi:id>1</cfi:id><cfi:read>true</cfi:read></item>
</channel>
</rss>