近日,浙江省杭州市档案馆《OCR+NLP技术在档案数据化中的研究与实践》荣获国家档案局优秀科技成果三等奖。项目成果可成功运用在档案数字化成果质量检查工作中,较传统模式提升工作效率60%以上。
针对传统的简单计算机程序粗检验和人工抽查细检验的模式无法有效保证质量且进度缓慢的问题,市档案馆联合汉王科技设计和制定针对档案业务的OCR(光学字符识别)新的输出标准规范,确保其适用于NLP(自然语言处理)。通过两大技术的融合,开发基于智能OCR+NLP引擎的自动化数据处理工具,对档案内容进行数据化、标签标引、信息抽取,自动生成档案著录信息后与数字化成果进行比对,减少人工检查的工作量并降低错误率,较传统模式提升工作效率60%以上,为加速档案数字化成果质检打造“杭州样本”。
该项目成功打造出基于人工智能的档案质检模型——结合版面特征和语义特征构建档案识别神经网络模型+图像数据的多源数据要素抽取模型,优化“数据预处理”“图像质检”“图像OCR处理”“AI智能质检”“人工审核”“结果导出”等质检流程。质检模型会根据质检批次号对需整改的档案数据进行第二轮或第三轮复检,直至档案符合进馆要求。在实际应用中,已成功实现17.2万件出生医学证明档案30天内完成全量质检。
通过OCR+NLP技术实现档案数据智能化处理和检索,统一了档案质检标准、规范了档案著录用语、保证了数字化图像质量,最终形成标准化、结构化、有序化的数据资源,并探索建立了杭州市疫情防控知识图谱、政府公文智能解析应用、出生医学证明等专题档案知识库,为档案智能、高效、便捷的“数智化”服务提供标准化接口,为显著提升档案进馆工作质量提供支持。 |