破解通假字、异体字智能识别困局 国内首个秦简数据库建成

2025-04-21 06:49 [来源:华声在线] [作者:杨元崇] [编辑:刘畅畅]
字体:【

华声在线4月20日讯(全媒体记者 杨元崇)吉首大学今日宣布,由该校陈炳权教授团队研发的国内首个系统性秦简数据库正式建成。该数据库历时6年攻关,整合湖南、湖北等5省市出土秦简资源,收录17269张高清文本图像,标注115996个字符,涵盖2847个古文字类别,首次实现秦简文献的标准化数字集成。

针对秦简字迹模糊、残损等研究瓶颈,团队开发专业标注系统,突破通假字、异体字智能识别技术。数据库采用现代汉字声母排序体系,构建类《新华字典》智能检索功能,支持通过拼音声母精准定位文字图像及上下文语义。目前已系统完成里耶秦简、云梦秦简等全国主要出土文献的数字化处理,并与考古机构、出版社建立“边建边发布”协同更新机制,数据经人工采集、专家校准等7道标准化流程验证。

秦简作为记录秦代政治经济的一手文献,其数字化长期受制于文字辨识困难。该数据库通过深度学习技术对模糊字迹进行图像增强与语义重建,经第三方检测,字符释读准确率达专业研究标准,已支撑国家自然科学基金项目2项、发明专利7项,并培养12名文博数字化骨干人才。

责编:刘畅畅

一审:印奕帆

二审:蒋俊

三审:谭登

来源:华声在线

今日热点
焦点图
站长统计