Tesseract使用初步(tesseract怎么用)
lipiwang 2024-11-15 22:01 14 浏览 0 评论
Tesseract 是一个 OCR 库,目前由 Google 赞助。Tesseract是目前公认最优秀,最精确的开源 OCR 系统。除了极高的精确度,Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。
Tesseract 是C++语言开发的二进制软件,使用 CLI 进行交互,也提供 API 接口(C++语言)以便其他语言调用(如Python)。
Tesseract 系统包含:bin(二进制文件),includes(C/C++接口),share(训练数据和配置文件),lib(库文件)。
对于环境的依赖:giflib,jpeg,libpng,libtiff,little-cms2,openjpeg,webp,leptonica
一、安装
由于个人使用Mac Pro,所以这里记录的MacOS下安装(其实就是二进制文件)
MacOS
brew install tesseract
brew info tesseract #查看安装信息
遇到权限问题(/usr/local/lib/pkgconfig),可以设置当前用户为目录属主
sudo chown -R $(whoami) /usr/local/lib/pkgconfig
其他的操作系统安装可以参考链接:
https://tesseract-ocr.github.io/tessdoc/Installation.html
Docker
docker pull tesseractshadow/tesseract4re
docker有re(运行时)和comp(编译时)两种镜像。
下载语言包(训练好的数据),下载文件放在目录 /usr/local/Cellar/tesseract/4.1.1/share/tessdata 中(其中4.1.1是 tesseract 版本)
简体中文
https://raw.githubusercontent.com/tesseract-ocr/tessdata/master/chi_sim.traineddata
简体中文-竖排
https://raw.githubusercontent.com/tesseract-ocr/tessdata/master/chi_sim_vert.traineddata
繁体中文
https://raw.githubusercontent.com/tesseract-ocr/tessdata/master/chi_tra.traineddata
繁体中文-竖排
https://raw.githubusercontent.com/tesseract-ocr/tessdata/master/chi_tra_vert.traineddata
二、使用方法
先上 CLI 支持的所有使用参数
tesseract --help | --help-extra | --help-psm | --help-oem | --version
tesseract --list-langs [--tessdata-dir PATH]
tesseract --print-parameters [options...] [configfile...]
tesseract imagename|imagelist|stdin outputbase|stdout [options...] [configfile...]
1、一般使用(最简模式)
默认使用eng文字库,imgName是图片的地址,result识别结果(自动保存为result.txt,默认eng语言)
tesseract imgName result
2、指定语言
可以指定图片解析语言,比如指定使用简体中文
tesseract -l chi_sim imgName result
3、查看本地存在的语言库
tesseract --list-langs
4、指定多语言
如果图片中可能包含多种语言,需要都指定,多个语言间用+号相连,如下面的例子,图片中包含中英文,需要指定这两个语言训练数据来解析。
tesseract -l chi_sim+eng imgName result
5、其他参数
--oem 选择引擎模式(OCR Engine mode)
0 Legacy engine only.
1 Neural nets LSTM engine only.
2 Legacy + LSTM engines.
3 Default, based on what is available.
默认的引擎是0,也是数据仓库提供训练数据默认的支持格式
--psm 分割模式(page segmentation mode)
0 Orientation and script detection (OSD) only.
1 Automatic page segmentation with OSD.
2 Automatic page segmentation, but no OSD, or OCR. (not implemented)
3 Fully automatic page segmentation, but no OSD. (Default)
4 Assume a single column of text of variable sizes.
5 Assume a single uniform block of vertically aligned text.
6 Assume a single uniform block of text.
7 Treat the image as a single text line.
8 Treat the image as a single word.
9 Treat the image as a single word in a circle.
10 Treat the image as a single character.
11 Sparse text. Find as much text as possible in no particular order.
12 Sparse text with OSD.
13 Raw line. Treat the image as a single text line, bypassing hacks that are Tesseract-specific.
三、输入输出
默认输出为 "文件名.txt" 方式,如上面的例子,会将解析结果保存在当面目录的"result.txt"文档里面,如果需要直接输出到控制台标准输出,可以用关键词 stdout 来表示。
tesseract -l chi_sim+eng imgName stdout
Tesseract 也支持输出为pdf格式文档。
tesseract -l eng+chi_sim test.png test pdf
会生成"test.pdf"文档(文本模式)。
输入除了文件名方式,还支持用管道符结合 stdin 关键词来直接使用标准输入来输入图片数据流。
四、Python使用Tesseract
通过 pip 安装支持Python 版本的 Tesseract库,其实也是对Tesseract的简单封装,在使用的pytesseract前还是要安装Tesseract的。
pip install pytesseract
内部其实还是调用Tesseract进程并捕获输出来获取结果(这点显得有点Low哈)。
通过Python代码可以以更简单直观的方式获取OCR结果:
import pytesseract
from PIL import Image
image = Image.open('/Users/admin/Desktop/test.jpg')
text = pytesseract.image_to_string(image)
print text
五、C++接口
Tesseract默认提供C++接口,可以方便嵌入到系统中使用。
#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>
int main()
{
char *outText;
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
// Initialize tesseract-ocr with English, without specifying tessdata path
if (api->Init(NULL, "eng")) {
fprintf(stderr, "Could not initialize tesseract.\n");
exit(1);
}
// Open input image with leptonica library
Pix *image = pixRead("/usr/src/tesseract/testing/phototest.tif");
api->SetImage(image);
// Get OCR result
outText = api->GetUTF8Text();
printf("OCR output:\n%s", outText);
// Destroy used object and release memory
api->End();
delete api;
delete [] outText;
pixDestroy(&image);
return 0;
}
更多例子可以参考链接:
https://tesseract-ocr.github.io/tessdoc/Examples_C++.html
六、测试结果
实际测试结果,对于印刷体(包括中文情况)准确率确实不错。
相关推荐
- 《每日电讯报》研发数字工具,教你更有效率地报道新闻
-
为鼓励新闻编辑部持续创新,《每日电讯报》正在尝试有战略地研发数字工具。网站的数字媒体主任马尔科姆o科尔斯(MalcolmColes)表示,《每日电讯报》正试图去“创建一些可持续资产”,以便于让记者们...
- html5学得好不好,看掌握多少标签
-
html5你了解了多少?如果你还是入门阶段的话,或者还是一知半解的话,那么我们专门为你们收集的html5常用的标签大全对你就很有帮助了,你需要了解了html5有哪些标签你才能够更好的。驾驭html5...
- 前端分享-少年了解过iframe么(我想了解少年)
-
iframe就像是HTML的「内嵌画布」,允许在页面中加载独立网页,如同在画布上叠加另一幅动态画卷。核心特性包括:独立上下文:每个iframe都拥有独立的DOM/CSS/JS环境(类似浏...
- 做SEO要知道什么是AJAX(人能看到但搜索引擎看不到的内容)
-
一个明显的,人能看到但搜索引擎不能看到的内容是AJAX。那么什么是AJAX呢?其实,了解过的基本上也都清楚,AJAX不是新的编程语言,而是一种使用现有标准的新方法。AJAX最大的优点是在不重新加...
- 介绍最前沿的人工智能创新,‘无反向传播’神经网络训练方法?
-
图像由GoogleImageFX生成前言:本文整理自NoProp原始论文与实践代码,并结合多个公开实现细节进行了全流程复现。对神经网络训练机制的探索仍在不断演进,如果你也在研究反向传播之...
- 说说我们对HTML6的期许(对html的看法)
-
HTML5概述HTML5是HTML语言最受欢迎的版本之一,它支持音频和视频、离线存储、移动端、和标签属性等等。还提供了article,section,header这样的标签来帮助开发者更好...
- 浏览器中在线预览pdf文件,pdf.mjs插件实现web预览pdf
-
背景:本来只是淘宝上卖卖袜子,想着扩展一下业务,准备做同名“来家居”海外袜子馆外贸项目,碰到pdf在线预览的需求,就找了pdf.js插件进行实践后把此方法记录下来,可以通过多种方法来实现,每种方法都有...
- SVG 在前端的7种使用方法,你还知道哪几种?
-
本文简介点赞+关注+收藏=学会了技术一直在演变,在网页中使用SVG的方法也层出不穷。每个时期都有对应的最优解。所以我打算把我知道的7种SVG的使用方法列举出来,有备无患~如果你还...
- HTML5常用标签大全(html5em标签)
-
HTML前端开发最终取决于掌握标签的多少HTML大概有七八百个标签楼主这里给大家总结了下HTML常用标签标签描述<!--...-->定义注释。<!DOCTYPE>定义文档类型...
- "伪君子Snoop Dogg!"... WHAT?| MetroDaily 24/7
-
TUE.01-新作品-虽说年纪大了会有点糊涂,但是最近SnoopDogg的这波操作实在是让粉丝们有点迷,甚至有人表示没想到他是这样的"伪君子"......而这一切都源于他近日在IG上Po出的一...
- 莎夏·班克斯盼望表哥Snoop Dogg为其作出场曲
-
NXT女子冠军莎夏·班克斯(SashaBanks)近日接受了迈阿密先驱报采访,访谈纪要如下:关于她出众的形象:“我一向喜欢与众不同。为了能让人眼前一亮,我的装束总是非常前卫、非常抢眼,这样才能让观众...
- 喜欢Snoop!全球第一间「史努比博物馆」海外分馆在东京!
-
1950年起,由美國漫畫家CharlesM.Schulz創作的作品《Snoopy》史努比,其鮮明的可愛角色與幽默的劇情內容,至今仍成為許多大朋友與小朋友心中的最愛。為了紀念作者所設立的全球首...
- Vetements 推出 Snoop Dogg 肖像「天价」T-Shirt
-
Vetements的CEOGuramGvasalia早前才透露品牌经营策略的秘密–Vetements如何成为人人热议的话题品牌。但似乎他仍有更多需要解释的东西–这个法国奢侈品牌最新...
- 狗爷Snoop Dogg的《I Wanna Thank Me》巡回演唱会旧金山站
-
西海岸匪帮说唱歌手SnoopDogg在《IWannaThankMe》巡回演唱会旧金山站表演(图片来自ICphoto)西海岸匪帮说唱歌手SnoopDogg(图片来自ICphoto)西海...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- maven镜像 (69)
- undefined reference to (60)
- zip格式 (63)
- oracle over (62)
- date_format函数用法 (67)
- 在线代理服务器 (60)
- shell 字符串比较 (74)
- x509证书 (61)
- localhost (65)
- java.awt.headless (66)
- syn_sent (64)
- settings.xml (59)
- 弹出窗口 (56)
- applicationcontextaware (72)
- my.cnf (73)
- httpsession (62)
- pkcs7 (62)
- session cookie (63)
- java 生成uuid (58)
- could not initialize class (58)
- beanpropertyrowmapper (58)
- word空格下划线不显示 (73)
- jar文件 (60)
- jsp内置对象 (58)
- makefile编写规则 (58)