辛夷坞

涧户寂无人,纷纷开且落

By - Christen

Tesseract OCR

Tesseract 是一款被广泛使用的开源 OCR 工具,所谓 OCR 是图像识别领域中的一个子领域,该领域专注于对图片中的文字信息进行识别并转换成能被常规文本编辑器编辑的文本。
Tesseract 已经有 30 年历史,开始它是惠普实验室的一款专利软件,然后在 2005 年开源,自 2006 年后由 Google 赞助进行后续的开发和维护。
在 1995 年 Tesseract 曾是世界前三的 OCR 引擎,而且在现在的免费 OCR 引擎中,其识别精度也仍然是出类拔萃的。因为其免费与较好的效果,许多的个人开发者以及一些较小的团队在使用着 Tesseract ,诸如验证码识别、车牌号识别等应用中,不难见到 Tesseract 的身影。

Windows 上的安装很简单,下载对应的安装程序,双击运行,按照提示进行即可。
注意在 “Language data” 那个选项里,默认是只勾选了英文的,如果需要进行其他语言的识别,记得勾选对应的语言。
再一个是,如果需要进行相应的开发工作,建立把 “Tesseract development files” 这个选项也勾选。
安装完成后如无异常,会将安装目录添加到环境变量 PATH 中,这样就可以在 cmd 中直接运行程序了——Tesseract 并没有提供图形界面的工具,只能在命令行中使用,当然了,我们可以自己编写 GUI 应用程序来调用它,这个准备后面再讲。
用例:

tesseract paper.png paper -l chi_sim

Leave a Reply

Your email address will not be published.
*
*