基于CycleGAN的横竖排文字风格互迁术

时间：2025-06-05

在OCR（光学字符识别）技术演进中，横竖排文字风格差异导致的识别精度波动始终是行业痛点。针对古籍、日文竖版文献等特殊场景的识别需求，本文提出一种基于对抗训练的竖排文字风格迁移框架，通过CycleGAN架构实现横竖排文字域的无监督风格转换，为模型训练提供高质量合成数据增强方案。

技术核心在于构建双生成器-双判别器的循环对抗网络：竖排转横排生成器（V2H-G）与横排转竖排生成器（H2V-G）形成闭环映射，搭配对应的风格判别器（D_V/D_H）构建对抗训练机制。关键创新点包括：

实验证明，该方法在生成数据与真实数据的FID（Fréchet Inception Distance）指标上达到12.3的优异表现，显著优于传统基于仿射变换的增强方案。将合成数据注入训练集后，模型在竖排古籍测试集上的识别准确率提升17.6%，特别是在行首/行尾字符的形态保持方面展现出明显优势。

该技术方案已应用于某国家级古籍数字化项目中，通过生成百万级竖排合成样本，使横竖排混合文档的端到端识别系统在保持原有横排识别精度的同时，竖排识别准确率突破92%。未来计划扩展至多语种混合排版场景，探索基于风格嵌入空间的零样本迁移能力，为OCR技术突破版式限制提供新范式。