注:目前仅说明windows下的情况
网上已经有大量的tesseract的识别教程,但是主要有两个缺点:
本文中使用的tesseract版本为3.05;
为什么用3.05呢?
从官方文档上看4.0版本(windows版本于2017年1月30号发布)显著的提高了识别率,同时也加大了性能的消耗。理论上我是应该用4.0。但这不是重点。重点是有windows的版本有诡异的bug! 花了好久没有解决。
不过还好,4.0支持3.05版本的所有语法。换而言之,下面的所有内容在4.0都是可以用的。
可以先不勾选,因为这样直接下载语言的包实在太慢。可以从网页上直接下载语言包,然后等程序安装好后,放入安装目录下tessdata目录下面
安装完毕。
我准备了一份含汉语7000字和大小写英文字母和数字的文档.如果你需要训练所有中文的话,请将所有docx文件内所有字改成你要训练的字体。然后转化成tif格式的图片。