赵一方,裴雷,康乐乐.基于段落信息增益的政策文本
主题识别研究[J].数字图书馆论坛,2018,(11):2~10 |
基于段落信息增益的政策文本
主题识别研究 |
A New Method of Topic Detection in Hybrid Policy Documents Based on PIG |
投稿时间:2018-10-25 |
DOI:10.3772/j.issn.1673-2286.2018.11.001 |
中文关键词: 政策文本;主题识别;政策倾向;信息增益 |
英文关键词: Policy Text; Topic Detection; Policy Preference; Information Gain |
基金项目: |
作者 | 单位 | 赵一方 | 南京大学 | 裴雷 | 南京大学 | 康乐乐 | 南京大学 |
|
摘要点击次数: 2141 |
全文下载次数: 1996 |
中文摘要: |
综合性政策文本通常具有多种政策主张的表述,而现有的基于特征词向量的政策主题识别方法一直无法有效分配特定特征词对相似政策主题的"贡献度".本文提出一种基于段落信息增益的半监督化政策文本主题识别方法,在不损耗基本词向量信息的同时,显著降低了矩阵计算的复杂度,平衡了不同主题间的贡献差异.基于该方法,本文进一步通过对2018年31个省级行政机构的政府工作报告的政策主题强度差异和政策倾向进行测算,测算结果与人工标注结果具有一定的秩相关性. |
英文摘要: |
In hybrid policy documents, a number of policy topics being mixed in context may not be completely extracted or computed by the former algorithms based on featured terms. Thus the paper tried to propose a semi-supervised subject classification method and a subject intensity calculation method based on paragraph information gain. In methodology test, 31 provincial government reports issued in 2018 were chosen as test samples, and a significant relevance was observed between automatic topic identification and expert tagging. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |