一、踩坑实录
上周写稿子急需提取书本内容,偷懒没打字,手机咔嚓一拍直接甩给文通OCR。结果你们猜咋样?识别出来的文字跟我家猫在键盘上散步的效果差不多——满屏“日月明”变“曰朋冃”,“支付宝”认成“文寸宝”。气得我当场想给显示器浇杯冰水降降火。
不死心!翻出三年前买的发票重新试,好家伙,“贰零贰壹年”硬生生识别成“武零武艺车”,公司名称里的“科技”两个字直接变成空白。我盯着屏幕直挠头:“这玩意儿真有人用?”(当时内心疯狂刷弹幕:浪费老子28块9!)
二、手动调参实战
第一步:跟光线死磕
把台灯怼到书页60度角斜着打光,手机镜头离纸20公分悬停。这时候打开文通的“图像预处理”:
- 亮度拉到+15(白纸黑字像打了玻尿酸)
- 锐化调到70%(字边缘嗖嗖立起来了)
- 最狠的是开了“反光修复”(效果堪比给纸片磨皮)
重新拍完导入一看,之前糊成团的“有限公司”四个字终于能看清笔画了!虽然“限”字还被认成“银”(可能OCR觉得开公司都得有矿?)
第二步:切换认字模式
默认的“印刷体识别”对竖排古籍简直灾难。手动切成“多方向识别”,结果古籍里“子曰”的“曰”字被旋转180°认成“日”,气得我差点把《论语》扔出窗外。
切到“手写印刷混合”模式(这名字就透着不靠谱),把识别速度拖到最低档。等了足足三分钟——嚯!竖排小楷居然七成能看了!就是“之乎者也”被认成“乙乎者也”,可能系统觉得古人爱写错别字?
第三步:教OCR认字
在专业术语框里塞了50多个词:
- “全栈”提前写好(防识别成“全找”)
- “Kubernetes”手动备注“不是拼音”
- 甚至把“叁佰元整”都写进去(结果下次识别发票真用上了!)
最搞笑的是输“茴香豆”防错,第二天扫菜谱时系统把“茴”字标绿提示我检查——合着把我当孔乙己了?
三、血泪经验
折腾两小时后测试结果:
- 现代印刷体从65%正确率爬到92%(剩下8%多半是手写批注的锅)
- 古籍竖版从全军覆没到勉强能读(别指望它认篆书)
- 发票金额100%正确(毕竟教过它写“叁佰”)
正要庆祝,收到房东催租短信,顺手用文通识别——好么,“押二付三”给翻译成“鸭二付三”,后面还跟着“逾期收鸭”。行,至少证明这工具对禽类货币体系有研究...
忠告: 普通文档够用了,但碰到合同/古籍/医生处方?老老实实手动输入!调参救不了的,真不是所有字都叫“鸭”!