1。在nite07的网站还下载了好几个pdf软件,都支持OCR建立双层pdf。2,这几个对繁体竖排无法做到100%的识别率,我做了ocr后也很少去校对,没必要也没那个时间。ocr的结果对于看书用足够了----可以检索,可以复制,可以进行文字型PDF的注释(指荧光笔和下划线等)。
3,可以OCR的包括:
abbyy 15,16(16效果明显比15好),
Acrobat pro2024,
福昕专业版,foxit phantum,(这两个用福昕editor更好,phantom现在不搞了,并且咨询官方他们用的是abbyy的识别模块)
pdf xchange,
4,这6个都支持繁体竖排的pdf的ocr。找了几本书对比后,基本是福昕editor专业版和abbyy胜出,abbyy有时候会稍微好一点点,pdf xchange也不错。
4,繁体竖排做ocr后,接着的问题是pdf阅读软件,发现了一个奇怪情况,这三个的阅读还不太兼容,指的是福昕的pdf阅读器,在阅读福昕做了ocr的繁体竖排pdf时,比阅读abbyy的ocr的书,检索结果会更多一些。这就有点奇怪了。abbyy也存在这个情况。好像是自己的ocr用自己的阅读,效果更好。很有意思。
但xchange对竖排文字的支持不好,也就是说,阅读竖排书籍,包括竖排台版港版或一些日语竖排,还是abbyy或foxit editor更好。