首页 - 信息 - Tesseract训练中文字体识别

Tesseract训练中文字体识别

2023-09-24 19:46

-->

注：目前仅说明windows下的情况

前言

网上已经有大量的tesseract的识别教程，但是主要有两个缺点：

大多数比较老，有部分内容已经不适用。
大部分只是就英文的训练进行探索，很少针对中文的训练。
接下来尽可能详细的介绍自己tesseract训练中文识别的经验。

本文中使用的tesseract版本为3.05;
为什么用3.05呢？
从官方文档上看4.0版本（windows版本于2017年1月30号发布）显著的提高了识别率，同时也加大了性能的消耗。理论上我是应该用4.0。但这不是重点。重点是有windows的版本有诡异的bug! 花了好久没有解决。
不过还好，4.0支持3.05版本的所有语法。换而言之，下面的所有内容在4.0都是可以用的。

工具准备

下载 java(java大法好啊);
下载jTessBoxEditor(依赖于java)
下载tesseract， windows64点这里

安装过程

点击下一步

勾选上同意，然后点击下一步

点击下一步

既然是要训练中文，记得勾选 additional language data

找到中文简体和中文繁体，按需勾选，然后点下一步

可以先不勾选，因为这样直接下载语言的包实在太慢。可以从网页上直接下载语言包,然后等程序安装好后，放入安装目录下tessdata目录下面

目录。。毕竟是你的电脑，随便选，你开心就好，然后点下一步

点击install

安装完毕。

字体训练

我准备了一份含汉语7000字和大小写英文字母和数字的文档.如果你需要训练所有中文的话，请将所有docx文件内所有字改成你要训练的字体。然后转化成tif格式的图片。

相关推荐