前言
现有技术选型
我搜集了一些解决方案,要逐一对比看哪个方案更好
方案对比
对比维度:
转化效果,对GPU的依赖程度,转化速度
minerU
GPU的占用情况

效果如下:
LINK如下:
MonkeyOCR
环境挺复杂的,直接用docker拉起来吧
GPU的占用情况
对显存的压力很大

排版的效果也还行,但是目录的层次结构不够清晰,而且出现了部分项重复
OCR识别出的结果出现了大量的重复,4-MAC地址标签1CFI标准服务Onboard网络卡4-MAC 出现大约10多次的重复

表格布局上比较不错,转化的速度也比较快,有较强的适应性,但是环境配置复杂且占用资源太高了【官方的模型会自动更具】