在古籍数字化保护的浪潮中,OCR技术作为文字识别的核心引擎,始终面临模糊字迹、异体字形等历史遗留难题。本文提出的多尺度时空注意力机制,通过融合卷积神经网络(CNN)的空间特征解析力与Transformer的时间序列建模能力,构建了跨尺度注意力网络架构,为古籍OCR精度突破提供了新范式。
技术突破点一:双模态特征解耦重构 传统OCR多依赖单一CNN特征提取,难以应对古籍中"墨迹漫漶"与"异体混用"的双重挑战。本研究创新性地将CNN的局部空间感知能力与Transformer的全局上下文建模优势结合:
技术突破点二:跨尺度注意力融合 为解决双模态特征维度不匹配问题,设计动态门控融合单元:
实验数据显示,在《四库全书》残卷、《敦煌遗书》等典型古籍数据集上,该模型对模糊字识别准确率提升至94.7%,异体字召回率达92.3%,较传统CRNN模型分别提高18.2%和21.6%。特别在"朙(明)""叅(参)"等异体字识别场景中,通过上下文语义约束将误识率从37%降至8.9%。
工程化应用价值 该技术已集成至"智识古籍"OCR平台,支持:
随着全国古籍普查登记工作的推进,本技术方案为构建超大规模古籍数字资源库提供了关键技术支撑。未来将探索与多光谱成像、三维形貌重建等技术的融合,进一步突破纸张老化、墨迹褪色等极端条件下的识别瓶颈。