<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005">
<channel xmlns:cfi="http://www.microsoft.com/schemas/rss/core/2005/internal" cfi:lastdownloaderror="None">
<title cf:type="text"><![CDATA[数字图书馆论坛 -->大语言模型驱动的知识组织与应用]]></title>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[大语言模型驱动的知识组织与应用专题前言]]></title>
<link><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501004&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[]]></description>
<pubDate>2025/3/25 14:34:31</pubDate>
<category><![CDATA[大语言模型驱动的知识组织与应用]]></category>
<author><![CDATA[漆桂林]]></author>
<guid><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501004&flag=1]]></guid><cfi:id>5</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[大语言模型文档图像智能问答指令设计与微调方法实证研究]]></title>
<link><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501005&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[文档图像智能问答是实现数字图书馆智能化的关键技术之一。基于多模态预训练模型的文档图像智能问答技术能有效实现文本、视觉和布局信息的融合，但通常需要进行针对性的微调训练，成本高且无法应用于一些数据资源稀缺的场景。以ChatGPT为代表的大语言模型具有良好的零样本学习能力，无需针对性微调即可在各个下游任务上取得良好表现，但大语言模型只能处理纯文本指令，无法直接处理文档图像。因此，提出利用空格符和换行符来模拟表示文档图像中文本间的相对位置关系，生成布局感知文本，并针对不同任务构造不同的指令模板，以文本指令形式指导大语言模型生成符合任务要求的答案。实验证明这种布局与任务感知的指令设计与微调方法显著提升了多种大语言模型的零样本文档图像智能问答表现，其最佳组合在DocVQA、InfographicVQA和MP-DocVQA 3个文档图像问答评测集上的零样本平均规范化莱文斯坦相似度分别为0.865 1、0.545 1和0.612 9，达到甚至超过布局感知预训练模型的全量微调表现水平。所提方法还应用在大学数字图书馆国际合作计划（CADAL）民国报刊扫描文档智能问答场景中，提高读者在扫描文档中定位所需答案的效率。]]></description>
<pubDate>2025/3/25 14:34:32</pubDate>
<category><![CDATA[大语言模型驱动的知识组织与应用]]></category>
<author><![CDATA[王文瑾，李昀昊，张寅]]></author>
<guid><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501005&flag=1]]></guid><cfi:id>4</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[基于AI智能体和关键词映射图谱的同义术语挖掘研究]]></title>
<link><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501006&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[同义术语作为重要的语义资源在信息检索和知识组织等众多领域发挥着重要作用，然而，传统同义术语挖掘方法识别准确度不高且效率低下，难以适应智能化网络时代环境的需要。本文提出使用AI智能体进行同义术语挖掘，基于中文学术文献的中英文关键词映射构建关键词图谱，并提出3种图论算法对存在于同一个关键词图谱的任意两个中文关键词间的同义概率进行量化，从而为AI智能体同义术语挖掘提供辅助参考，实现高效率、精准化同义术语挖掘识别。借助《汉语主题词表》数据对AI智能体进行评估发现，术语关系判断准确率达92.32%，且基于边权连积法对关键词同义概率量化后，量化值前500对关键词数据中同义术语占比近100%，前1 000对关键词数据中同义术语占比超过90%，前1 500对关键词数据中同义术语占比超过80%。实证表明，本文提出的AI智能体和边权连积法相结合的方案可以实现对同义术语的高效率、精准化挖掘发现。]]></description>
<pubDate>2025/3/25 14:34:32</pubDate>
<category><![CDATA[大语言模型驱动的知识组织与应用]]></category>
<author><![CDATA[李泽宇，刘伟，吴雯娜，过烨琪]]></author>
<guid><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501006&flag=1]]></guid><cfi:id>3</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[大模型辅助的汉语文化负载词抽取与知识图谱构建]]></title>
<link><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501007&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[文化负载词能够反映民族文化和风俗，是文化认同与情感共鸣的纽带，广泛应用于跨文化交流、教育等领域。目前研究主要集中于负载词的翻译和教学，缺乏对词汇本身的规范化定义和描述。知识图谱具有整合信息和语义关联的优势，应用于文化负载词领域可推动其规范化组织，促进其在翻译、教育等方面的应用。因此，综合现有对文化负载词分类的研究，设计可扩展的汉语文化负载词本体模型，并从文献、教材以及权威网站收集相关的中文语料，利用UIE模型进行知识抽取。为描述各负载词之间的关联，使用大语言模型，根据上下文对汉语文化负载词进行层次分类以及关系补全。结果表明，基于提出的层次化可扩展本体模型构建的知识图谱，能够系统整合汉语文化负载词的相关属性，映射词汇间的文化关联，解决了传统知识图谱在处理多义词和动态表达时存在的问题，为翻译和文化教育等领域提供准确的语义支持，从而提高文化知识的解释性和实际应用效果。]]></description>
<pubDate>2025/3/25 14:34:33</pubDate>
<category><![CDATA[大语言模型驱动的知识组织与应用]]></category>
<author><![CDATA[张为，肖巧玲，刘海江，任好，蔡子妍，苏鹏鹍，顾进广]]></author>
<guid><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501007&flag=1]]></guid><cfi:id>2</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[基于大语言模型的绿色低碳领域三元组抽取方法]]></title>
<link><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501008&flag=1]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[三元组抽取旨在提取文本中的实体及其相互关系，从而形成结构化的知识表示，是构建自动化知识图谱的关键技术。尽管基于传统深度学习的三元组抽取方法在拥有充足训练数据时表现出色，但在电力行业绿色低碳领域等垂直场景中，由于缺乏规范化的监督数据，人工标注成本高昂，且论文和专利数据中存在大量专业术语，深度学习抽取方法的识别准确度受限。为了解决这些问题，设计了基于大语言模型的三元组抽取方法，利用闭源大模型标注少量高质量监督数据，结合检索增强技术指导开源模型进行抽取，实现了高质量且自动化的垂直领域抽取。此外，为了提升少样本场景下的抽取效率与精确率，本方法还包含了数据分流与复杂数据划分模块，以抽取难易程度为标准将数据分流，并进一步划分复杂数据来简化抽取，从而提升抽取效果。为了验证模型性能，利用GPT-4自动化标注了一个基于电力领域专利和论文的数据集，并引入了ChatGPT和ChatGLM等知名闭源以及开源大模型作对比，实验结果证明提出的方法具有更好的抽取性能。]]></description>
<pubDate>2025/3/25 14:34:34</pubDate>
<category><![CDATA[大语言模型驱动的知识组织与应用]]></category>
<author><![CDATA[王丽君，赵子岩，马丽，蒋慧超，张冉]]></author>
<guid><![CDATA[https://dlf.istic.ac.cn/dlf/ch/reader/view_abstract.aspx?file_no=202501008&flag=1]]></guid><cfi:id>1</cfi:id><cfi:read>true</cfi:read></item>
</channel>
</rss>