jTessBoxEditor是一款专业好用的ocr识别辅助软件,使用这款软件可以帮助用户提升ocr识别的成功率,拥有操作简单,配置简单的特点,这个需要与JAVA虚拟机配合使用,有需要的用户欢迎下载。

jTessBoxEditor使用说明

步骤如下:

1、运行——CMD(WIN7要以管理员身份运行)

2、清空你的硬盘隐藏的vodcache文件夹内的所有文件

3、从新下载你下载的视频,然后将vodcache文件夹内所有的文件(TDL文件一定要全部)复制到一个磁盘的根目录,比如E:

4、在CMD中输入E:,然后回车,在E:/>后输入copy/b *.tdl 1.mp4

5、你就能看到在你的E盘有一个1.mp4了。

注意: langyp 是本人定义的语言名称, fontyp是本人定义的字体名称,后续都会用到,你可以修改成你喜欢的名字。运行jTessBoxEditor工具,在点击菜单栏中Tools--->Merge TIFF。在弹出的对话框中选择样本图像(按Shift选择多张),合并成num.font.exp0.tif文件。

生成box文件

执行命令生成 langyp.fontyp.exp0.box 文件

tesseract langyp.fontyp.exp0.tif langyp.fontyp.exp0 -l eng -psm 7 batch.nochop makebox

D:\python\lnypcg\new>tesseract langyp.fontyp.exp0.tif langyp.fontyp.exp0 -l eng -psm 7 batch.nochop makeboxTesseract Open Source OCR Engine v3.02 with LeptonicaPage 1 of 101Page 2 of 101Page 3 of 101

……Page 101 of 101D:\python\lnypcg\new>dir

驱动器 D 中的卷没有标签。

卷的序列号是 36D9-CDC7

D:\python\lnypcg\new 的目录

2016-06-03 14:37

.
2016-06-03 14:37

..
2016-06-03 14:30 6,327 langyp.fontyp.exp0.box2016-06-03 13:07 126,056 langyp.fontyp.exp0.tif

2 个文件 132,383 字节

2 个目录 24,869,994,496 可用字节

修改box文件

切换到jTessBoxEditor工具的Box Editor页,点击open,打开前面的tiff文件langyp.fontyp.exp0.tif,工具会自动加载对应的box文件。

检查box数据,如下图所示,数字8被误认成字母H,手工修改H成8,并保存。

点击下图红色框的按钮,逐个核对tif文件的box数据,全部检查结束并保存。

生成font_properties

执行echo命令生成font_properties。

echo fontyp 0 0 0 0 0 >font_properties

也可以手工新建一个名为font_properties的文本文件(注意该文件没有扩展名),内容为字体名fontyp,后面带5个0,分别代表字体的粗体、斜体等属性,这里全部是0

D:\python\lnypcg\new>echo fontyp 0 0 0 0 0 >font_properties

D:\python\lnypcg\new>type font_properties

fontyp 0 0 0 0 0

生成训练文件

执行命令,生成langyp.fontyp.exp0.tr训练文件

tesseract langyp.fontyp.exp0.tif langyp.fontyp.exp0 -l eng -psm 7 nobatch box.train

下载地址

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。