金鸣表格文字识别助手
人工智能识别准 | 批量合并更便捷
在古籍数字化进程中,竖排文字的OCR识别始终是制约行业发展的技术瓶颈。传统横排文本识别技术难以应对竖排文字特有的连笔粘连、笔画交错等特征,导致字符分割准确率长期徘徊在70%以下。针对这一行业痛点,本文提出基于动态笔画重组的竖排文字自适应分割算法,通过创新性的技术融合实现字符级精准分割。
该算法核心在于构建笔画宽度变换(SWT)与图割算法的深度耦合模型。在预处理阶段,通过改进的SWT算法对竖排文本进行多尺度笔画宽度分析,其创新点在于:
在字符分割阶段,创新性地将图割算法与笔画拓扑结构进行融合:
实验数据显示,该算法在《四库全书》等古籍数据集上的字符分割准确率达96.7%,较传统方法提升31.2个百分点。在"永乐大典"数字化项目中,通过该算法处理后的竖排文本识别准确率从68%跃升至94%,有效解决了古籍数字化中的"最后一公里"难题。
该技术的突破不仅为古籍保护提供全新解决方案,其动态笔画重组的思想更可推广至手写书法、碑刻拓片等复杂场景。随着算法持续优化,未来有望建立统一的竖排文本处理技术标准,推动中华文化典籍的数字化传承进入智能新纪元。