图片转Excel合并单元格精准保留方案

时间：2025-06-24

在OCR技术深度赋能文档数字化的进程中，图片转Excel的格式还原能力已成为衡量系统实用性的核心指标。针对财务报表、统计报表等高复杂度文档中普遍存在的合并单元格结构，传统OCR方案常因格式解析能力不足导致数据错位或结构丢失。本文将解析一套基于深度学习的专用算法框架，其通过结构化检测与格式映射技术，在财务报表场景中实现了95%的原始格式还原准确率。

一、合并单元格检测的技术挑战

合并单元格在Excel中呈现为多行多列的连续矩形区域，其边界往往跨越标准行列网格。传统OCR方案依赖基础表格线检测时，难以区分合并单元格与普通单元格的视觉差异，尤其在以下场景中表现欠佳：

复杂嵌套结构：多层嵌套合并单元格导致行列边界模糊
跨页断点处理：长表格分页时合并单元格的延续性判断
空值干扰：合并区域内的空白单元格易被误判为独立单元格

二、专用算法架构解析

为突破上述瓶颈，我们构建了包含三个核心模块的检测系统：

多尺度特征融合网络
采用改进的Mask R-CNN架构，通过ResNeXt101+FPN主干网络提取多层次视觉特征，在单元格检测分支中引入注意力机制，重点强化合并区域边缘的像素级定位能力。
几何拓扑分析引擎
基于检测到的单元格坐标，构建有向无环图（DAG）模型：
- 节点：单个单元格的坐标范围
- 边：相邻单元格的几何关系（水平/垂直邻接）
  通过图聚类算法识别连续矩形区域，结合合并单元格的行列跨度特征（如宽高比、跨行/列数分布）进行二次验证。
格式映射规则库
建立财务领域知识图谱，收录以下规则：
- 合并单元格必为矩形且边界与行列线对齐
- 跨页合并单元格需在分页符处保留合并标记
- 合并区域内的文本应垂直居中（财务报表常见规范）