<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005">
<channel xmlns:cfi="http://www.microsoft.com/schemas/rss/core/2005/internal" cfi:lastdownloaderror="None">
<title cf:type="text"><![CDATA[《情报工程》编辑部 -->文本挖掘专题]]></title>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[基于 SciBERT 模型的引文上下文识别系统优化]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202105001&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的 / 意义 ] 本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统。该系统基于 SmartCiteCon（SCC）系统对识别模型进行了优化，本文称该系统为 SmartCiteCon2.0（SCC2.0）。[ 方法 / 过程 ] 该系统的识别模型部分通过 Python 语言编写，基于经过微调的 SciBERT模型构建而成。该模型基于国际计算语言学协会（ACL）会议论文集中人工标注的 27,832 个引用上下文句子对进行训练，并以 SCC 系统使用的 SVM 模型作为对照组以验证效果。[ 结果 / 结论 ] 实验结果表明，微调后的 SciBERT 模型的 F1 值为 90%。相比仅使用句子对文本特征的 SVM 模型 F1 值提升了11%，相比于使用全部特征 SVM 模型的 F1 提升了 3%。在该模型基础上，本文构建的 SCC2.0 系统开箱即用，支持 PDF，以及符合特定标准的 XML 和 JSON 格式的学术文献。该 API 同时支持单文档处理和多文档并发处理，源代码发布于 https://gitee.com/Lan_Tianchen/smart-cite-con。]]></description>
<pubDate>2021/11/23 14:11:40</pubDate>
<category><![CDATA[文本挖掘专题]]></category>
<author><![CDATA[郭晨睿，王佳敏，崔浩冉，武健]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202105001&flag=1]]></guid><cfi:id>4</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[中医文献的句子级联合事件抽取]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202105002&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的 / 意义 ] 中医领域存在大量的文献，这些文献中含有大量中医诊疗的知识。但这些知识往往存在于非结构化文本中，通过信息抽取技术将其转化成结构化文本，不仅能够提高效率，还可以进一步推进中医智能辅助诊疗的发展。[ 方法 / 过程 ] 本文使用了联合事件抽取模型，利用 BERT 对中医文献进行字向量表示，并在此基础上加入 Self-Attention 层，最后与 CRF 模型结合，实现了对中医文献的句子级事件的初步抽取。[ 结果 / 结论 ] 通过实验与 Pipeline 模型进行对比，结果显示，本文使用的模型 F1 值较 Pipeline 模型提高了 14.2%。]]></description>
<pubDate>2021/11/23 14:11:40</pubDate>
<category><![CDATA[文本挖掘专题]]></category>
<author><![CDATA[高甦，陶浒，蒋彦钊，贾麒，张德政，谢永红]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202105002&flag=1]]></guid><cfi:id>3</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[基于Transformer-CRF 的文言文断句方法研究——以唐代墓志铭为例]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202105003&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的 / 意义 ] 本文探索了文言文的断句规则，并以唐代墓志铭为例进行基于语义的句子边界识别，降低了文言文因缺少标点造成的阅读障碍，减少了人工标注标点的工作量，为中国古文的资料分析整理提供技术支撑。[ 方法 / 过程 ] 本文首先使用一种基于汉字偏旁的字表示方法，提取汉字本身隐含的语义信息进行表达。将基于偏旁的字表示输入 Transformer-CRF 模型，并对墓志铭中的缺失字进行了滑动窗口填补操作，降低缺失字对整体模型的影响。该模型在提高并行计算效率的基础上对输出结果进行关联，提高了准确率。[ 结果 / 结论 ] 实验表明，使用基于偏旁的字向量表示方式结合Transformer-CRF 能提升唐代墓志铭的断句准确率，且对于缺失字附近的断句准确率有所提升，该方法对数字人文中信息收集和整理工作起到了一定的辅助支撑作用。]]></description>
<pubDate>2021/11/23 14:11:40</pubDate>
<category><![CDATA[文本挖掘专题]]></category>
<author><![CDATA[韩旭]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202105003&flag=1]]></guid><cfi:id>2</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[融合深度语义表示的开放域复述模板抽取]]></title>
<link><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202105004&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[[ 目的 / 意义 ] 复述知识在自然语言处理领域应用广泛，例如复述生成、自动问答、复述数据构建等，复述模板是复述知识的一种抽象表现形式。[ 方法 / 过程 ] 早期复述模板抽取方法依赖复述实例和可比语料，近年来，有研究在人工给定种子实体对的基础上，利用实体关系，通过自举迭代的方式获取复述模板，规避对特定语料依赖，但是只能获得语义受限的复述模板，且迭代过程中存在语义偏移现象。因此本文提出从英文维基百科的大规模开放域文本中自动获取复述模板的思路，针对问题，设计融合深度语义表示学习的复述模板抽取方法，从大规模开放域文本中抽取高精度多样化的复述模板。[ 结果 / 结论 ] 实验结果表明，本文所提方法可以获取高质量、语义一致、形式多样的复述模板。]]></description>
<pubDate>2021/11/23 14:11:40</pubDate>
<category><![CDATA[文本挖掘专题]]></category>
<author><![CDATA[金波，刘明童，张玉洁，徐金安，陈钰枫]]></author>
<guid><![CDATA[http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202105004&flag=1]]></guid><cfi:id>1</cfi:id><cfi:read>true</cfi:read></item>
</channel>
</rss>