发布时间:2025-06-21
浏览次数:0
向大家推荐一些涉及光学字符识别的软件、相关库以及相关文献资料,热切期待大家的补充。文章结尾处附有这些资源的下载链接。
目录
· 软件方面
OCR引擎
老的OCR引擎
OCR文件格式
HOCR
ALTO XML
TEI
OCR CLI
OCR GUI
OCR预处理
OCR服务
OCR评估
OCR库(按编程语言排序)
Go
Java
.Net
PHP
Ruby
OCR培训工具
· 学术方面
OCR相关出版物和链接列表
博客帖子和教程
OCR一些实例
学术文章
软件方面
OCR引擎
··· - 最基础的奠基性的OCR引擎 2.0
··· - 基于LSTM的OCR引擎codejockcodejock, 2.0
较旧的v0.4版本中,包括了2.04以及iulib,采用C++语言编写。
··· - 交叉版
··· Ocrad - GNU OCR,GPL
数字显示领域,OCR技术得以应用,如功率计等设备,其实现依赖于Caffe。
··· - 机器学习OCR用于历史文件
··· - 快速简单的OCR库,用Swift编写
··· OCR - 使用视觉注意机制OCR引擎
··· RWTH-OCR - 亚琛大学光学字符识别系统
OCR技术及其分支版本,一款结合了numpy库的简易光学字符识别工具。
比较老且可能被废弃的OCR引擎
Clara OCR,一款基于C语言和GPL协议的开源光学字符识别引擎。
··· - OCR由 开发
Eye,一款实验性质的Java OCR(图像转文本)软件程序。
··· - 用于KDE的 OCR软件
··· - 模块化光学字符识别软件
··· ocre - ocr易用版
··· xplab - 用于模式匹配的GTK 2工具
希伯来文字符识别库,曾被称为hocr(详情可参考维基百科相关文章),遵循GPL协议。
OCR文件格式
··· .xslt XSLT脚本
··· OCR转换脚本
HOCR
horc-tools,一款基于hOCR文件格式的实用工具,旨在执行多种有益操作,版本号为2.0。
··· hocr-spec -hOCR 1.1规范
OCR-工具,主要用于在hOCR与ALTO格式之间进行转换,遵循MIT开源协议。
··· hocr- - hOCR规范
··· - hOCR到为ALTO转换XSLT
ALTO XML
致力于开发适用于XML以及ALTO XML格式的相关技术。
··· ALTO XML - ALTO的文档和用例
ALTO工具集,涵盖了处理ALTO文件所需的一系列实用工具。
此脚本由Abbyy 6转换生成,适用于处理ALTO XML格式。
TEI
TEI-OCR,专为OCR定制开发,旨在生成布局与内容信息。
··· TEI SIGon - TEI库的最佳实践
GDZ文档格式,它是以METS/TEI为基础构建的。
OCR CLI
将扫描得到的PDF文件中嵌入OCR文本层,实现内容的可检索功能。
··· - 项目管理界面,另见外部项目主页
OCR GUI
moz-hocr- 是一款专门用于编辑 hOCR 文件的插件,但现在已经不再支持使用。
··· qt-box- - -ocr文件的QT4编辑器。
OCR-GT-Tools,是一款专门用于编辑OCR实际记录的客户端与服务器端软件。
只需借助扫描仪和OCR技术,便能够便捷地将纸质文件转换为打印格式,此功能适用于Linux操作系统。
··· - 扫描,索引和归档所有纸张文档。
这是一款易于使用的GTK或Qt图形用户界面,专为OCR(光学字符识别)功能设计。
这是一个针对OCR引擎设计的Java或.NET图形用户界面,其中包含一个用于图形框数据编辑的功能模块。
···
GTK图形用户界面功能丰富,用户可对字符及边框进行修改,同时具备ODT文件导出功能。
OCR预处理
··· .java in - Java实现
ZBar库中的.c文件,其开发与构建均采用C语言,实现了two的功能。
该库被用于训练以及自然历史收藏和数字人文学科的学术研究。
··· - 二值化算法的比较。博客帖子
··· .py in - 将页面裁剪成文本块
此工具名为one-liner,主要用于对白板上的照片进行清洁与修饰。
··· Fred的脚本 - 处理扫描文档,以清理文本背景
OCR服务
··· Open OCR - 在容器中运行
采用已实现的,适用于OCR功能的网络服务。
··· - - 用于运行 OCR系统的容器。
ABBYY Cloud OCR SDK的代码示例,展示了如何运用受商业版权保护的ABBYY OCR API进行编程。
··· - 可扩展的OCR
用于构建文档处理应用程序的核心结构,诸如OCR技术等。
ocr-tools项目,旨在为常规OCR引擎提供命令行界面和Web服务接口。
在容器环境中,启动并执行ocrad OCR处理程序。
··· - - 在中运行 OCR引擎
ocr.space平台,提供基于某种技术的免费在线OCR服务及OCR API接口,但请注意,该API的代码是未对外公开的。
OCR评估
ISRI OCR评估工具,还有那本1996年发布的用户手册:!:
由@团队在2013年和2014年对这些工具进行了进一步的研发和优化。
··· - 跨格式评估,CLI和GUI
使用ngram-ocr-eval工具,通过ngram方法对OCR技术进行粗略而直接的效能评估。
quack,作为一项质量保障工具,其功能在于对相应的ALTO文件进行扫描。
OCR库(按编程语言排序)
Go
··· - OCR库,包装-ocr。
Java
··· - Java本地访问,绑定到。
Tess-two,这是一种工具,它专门用于在Java API上进行编译操作。
.Net
··· for .net - -ocr的.Net包装器。
PHP
··· OCR for PHP - PHP
··· - 一个用于 的包装器。
··· pyocr - 和的包装。
针对DjVu文件格式,我们运用了专门进行OCR处理的库以及独立的应用程序,这些包括gocr、ocrad等工具。
··· - 基于的,纯 lstm rnn实现
··· gocr.js - gocr的端口()
··· ocrad.js - ocrad的 端口()
··· .js - 的 端口()
··· node- - OCR包的简单包装器。
node--模块是一个基于C++开发的组件,其功能是结合使用,专门用于在node环境中执行OCR操作。
Ruby
··· - 包含和可执行文件的Ruby库。
ruby-库适用于Ruby MRI与JRuby两个版本。
API封装器适用于提供免费OCR服务的ocr.space平台,涵盖了命令行界面CLI。
OCR训练工具
glyph-miner,这款工具能够从早期的印刷品中提取出相应的系统信息。
学术方面
OCR-相关的著作或链接
文本处理工具——包括与光学字符识别技术相关的多种软件和辅助设备。
··· OCR-D - 与OCR相关的一些学术文章.
“OCR小组”——包含34篇涉及光学字符识别技术的文献资料。
eadh.org网站上发布了一些与面部识别技术有关的文献,其中部分内容涉及光学字符识别技术。
··· : of
··· OCR
and Deep
由 @编写
··· Wiki:
博客文章或者入门指导
Old and New OCR (2016)的研究表明,在识别文本方面,相较于传统方法,新型光学字符识别技术展现出更为显著的进步。
已添加了“你需要了解的内容”PPT。
关于《你需要了解的》(2014)这本书,请留意以下内容。
-@, 包含demos
引用自(2015)的图像文本
2015年提出的一个OCR模型,由danvk所贡献。
··· Wiki: and (2016) @
Wiki:2016年发布的《真理》专辑
··· (2016) @jze
o
OCR使用技巧十则(2013)@cneud
-关于OCR 一些需要考虑的东西
图像处理与预SDK领域内
-用于商业图像预处理的列表;具有用于OCR预处理的步骤。
从PDF文档中提取文本;执行光学字符识别;全部内容均为R所有。
-如何基于PDF文件进行OCR, R
··· : -line OCR on a Mac @
-在Mac OSX运行的指导教程
Model 2016相关的研究成果被引用,其中jze是作者之一。
Jean-Camps于2017年发表的文献中提到,OCR技术的研究与应用。
-如何将OCR用于处理医疗文档的指导教程
··· for (2017) @jze
2016年,该OCR技术的演示版本得以推出。
我该如何进行光学字符识别呢?(2016)@
针对不同类型的图片处理,该博客(2016年)提供了若干指导教程。
-Page (code)
- and hand- notes (code)
- text with (code)
OCR 示例
采用Abbyy OCR技术对扫描得到的参议院财务报表进行解析处理。
cvOCR,这是一款专门用于识别简历或CV文本内容的OCR系统,其核心技术和实现均基于C语言。
··· - 打印的科学文档识别系统, pre-alpha
一些重要的学术论文
2011 and
··· High (2003)
··· image (2006) Gatos, ,
···
(2007) Gupta
··· ( ) (2007)
2012
《本地与大规模》(2012年),
2013
《基于LSTM的高效OCR识别方法及其应用研究》(2013),作者乌尔-哈桑与梅斯·阿尔·阿扎维。
能否构建基于LSTM的OCR系统?(2013)乌尔-哈桑提出。
Urdu语言与LSTM模型相结合的研究由Ul-Hasan和Ahmed在2013年进行。
2014
对拉丁文献进行光学字符识别的研究,包括但不限于,如(2014)所述,涵盖了多个方面,诸如,以及,等等,作者为Fink。
在OCR领域,Noisy OCR这一研究成果在2014年脱颖而出,Fitch亦给予了高度评价。
2015
··· : An in (2015)
o On crowd- OCR
··· of LSTM (2015)
2015年的研究中,乌尔、加托斯等人运用了LSTM模型对希腊语进行了处理。
A-Free(2015年),由Ul-Hasan所著。
2015年,Ul-Hasan和Afzal共同撰写了该文献。
2016
2016年,在OCR领域出现的新技术,
o on
o using / for truth data
使用光学字符识别技术对……进行扫描,并配以……工具,针对……进行……分析:一篇基于……的研究案例(2016年),作者为吕……
关于混合语言的(半)识别,Fink在2016年的研究中进行了探讨。
使用2016年的Long Short-Term (长短期记忆)模型,由Ul-Hasan所撰写的Ph.D.论文文本。
···:一篇关于OCR(光学字符识别)的论文,发表于2016年,作者为Ul-Hasan。
2017
采用深度学习技术(2015/2017年),OCR技术得到了显著提升。
o see also , , , #49
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码