文章摘要
郑澄璐,王昊,孟序阳,杨思敏.基于改进图像多标签分类的古籍异体字部件识别研究[J].数字图书馆论坛,2025,21(10):12~22
基于改进图像多标签分类的古籍异体字部件识别研究
Component Recognition of Variant Characters in Ancient Books Based on Improved Image Multi-Label Classification
投稿时间:2025-07-30  
DOI:10.3772/j.issn.1673-2286.2025.10.002
中文关键词: 古籍;异体字识别;多标签分类
英文关键词: Ancient Book; Variant Character Recognition; Multi-Label Classification
基金项目:本研究得到国家自然科学基金面上项目“面向多模态非遗文化数据的特征挖掘及全知识图谱构建研究”(编号:72574098)、南京大学中央高校基本科研业务费专项资金资助项目AI for HASS“AI赋能中国古籍史书知识图谱构建研究”(编号:010814370338)、江苏青年社科英才项目、南京大学仲英青年学者项目资助。
作者单位
郑澄璐 南京大学信息管理学院;数据工程与知识服务江苏省高校重点实验室(南京大学) 
王昊 南京大学信息管理学院;数据工程与知识服务江苏省高校重点实验室(南京大学) 
孟序阳 中国人民大学信息资源管理学院 
杨思敏 南京大学信息管理学院;数据工程与知识服务江苏省高校重点实验室(南京大学) 
摘要点击次数: 4
全文下载次数: 4
中文摘要:
      针对古籍异体字多为图像存储,无法直接数字化检索的问题,本研究基于多标签分类的古籍异体字识别方法,构建ECA-HFF-DTA模型,包括增强型通道注意力(ECA)模块、多尺度特征融合分类头(HFFHead)和动态阈值调整(DTA)机制3个模块,自动识别其构成部件并生成多标签分类结果。实验表明,模型在独立测试集上的F1值达到0.578 3,较原始模型提升显著,可以实现基于部件查询异体字的应用功能。但模型对复杂多嵌套结构异体字的识别效果仍有待提高。ECA-HFF-DTA模型提升了古籍异体字部件识别效果,为大规模古籍文献异体字的智能化整理与检索提供思路。
英文摘要:
      In response to the problem that many variant characters in ancient books are stored in images and cannot be directly retrieved digitally, this study proposes an ECA-HFF-DTA model based on a multi-label classification method for recognizing variant characters in ancient books. It includes three modules: enhanced channel attention (ECA) module, hierarchical feature fusion classification head (HFF-Head), and dynamic threshold adjustment (DTA) mechanism, which automatically identify their constituent components and generate multi-label classification results. Experiments show that the model achieves an F1-score of 0.578 3 on the test set, demonstrating a significant improvement over the baseline, and can realize the application function of querying variant characters based on components. However, the recognition performance of the model for complex nested structures of variant characters still needs to be improved. The ECA-HFF-DTA model improves the component recognition effect of variant characters in ancient boks, providing ideas for the intelligent sorting and retrieval of variant characters in large-scale ancient literature.
查看全文   查看/发表评论  下载PDF阅读器
关闭

分享按钮