比丘的菩提

雪菩提会绽放在2007

文字录入,面对OCR(2)OCR软件使用经验

Published on 2006年 九月 23日, 22:03

OCR对于我们有什么意义?请看全文~

bodhi经常使用的是ABBYY Finereader OCR、尚书OCR和清华文通TH-OCR。本文只在功能上做一些简单对比,相关软件使用会在以后文章提到。

一般说OCR软件具有以下功能模块:
1、扫描:支持扫描仪的选择、设置、启动、文件导入;
2、版面分析:对原图片排版布局、字符编码进行解析,划分作文本、数据表格、图片插图三种区块;
3、读取识别:将文本区块进行光学识别、编码、输出成可编辑的字符文本,将数据图表区块进行光学识别、编码、输出排版为可编辑的表格和文本,将图片插图区块进行光学识别转换成独立的图片;
4、保存任务:将当前进行的操作保存为工程任务文件,以备再编辑(注意:多数OCR软件会在原始图片根目录存放许多中间文件,绝大多数不能被常规软件识别编辑,切记不要在保存任务之后删除,否则该任务会因为临时文件丢失而失效);
5、输出:将识别之后的文件输出为常见的可编辑格式,例如.DOC(Microsoft Office Word、Open Office、WPS等支持)、.RTS(Microsoft Office Word支持)、.HTML(Internet Explorer、Firfox、Netscape等网络浏览器和绝大多数文本编辑器支持)、.TXT(Notepad-Win、TextEdit-Mac、Utrl……等绝大多数文本编辑器支持),.PDF(Adobe Acrobat、Adobe Designer等支持)以供使用者不同需求。

在这五项基本功能中“读取识别”和“排版输出”是最具有竞争性的:
1、读取识别:评判一款OCR软件的优劣主要看他能否真实准确地反应原图、原印刷品面貌。这要求软件具有对更多语言的支持、对同种语言不同字体的支持、对同种字体不同属性的识别(例如角标、粗体、斜体;横排、竖排;甚至是专业公式)、对不同质量扫描稿的识别、具有高精度的文字识别率等等。概括起来为“真”。
2、排版输出:我们把这一项功能叫做“排版”“输出”,但是并非所有的软件都能按照原稿进行原貌排版。西文OCR软件做的很优秀,例如我们马上要提到的Abbyy Finereader;东方OCR软件由于受到排版多样化、文字图案化的影响稍显落后,例如“尚书OCR”、“汉王OCR”,但值得夸耀的是在“863计划”大力扶持下由北京文通(清华产业)研发的“清华文通TH-OCR”软件已经快步赶上,稍后我们会进一步了解TH-OCR。简要地讲“排版输出”的要求是“美”。
其他功能差异:
1、图片扫描或图片导入:常规扫描仪可以生成TIF(TIFF)、JPG(JPEG...)、BMP、PNG......等格式的文件,常规图片交流多用JPG格式文件、很多人有将PDF文件转化为可编辑状态需求(分两种:PDF为图像序列生成,每一页为一张完整图片;PDF为DOC、HTML、PPT等转换但不知如何反转),数码相机多输出为BMP文件。多数OCR软件只能对TIF文件进行识别,这会给用户带来诸多烦恼,故而我们要求OCR软件能够识别多种图片格式甚至PDF格式。当然某些时候我们要屈服于环境,当你无法找到理想的OCR软件时可以用Photoshop等软件将原始图片转换成软件要求的类型,这时请务必查看软件提供的Demo图片信息,查看其色彩类型、位深。对于PDF文件我们可以使用Adobe Acrobat批量到处所有图片,仅需要执行“高级选项-导出图片”,一般说安装Acrobat后初次使用便会被告知此功能的存在。
2、版面分析:如上所述,版面分析是对原印刷品的版面区块类型、位置、尺寸的分析和标记。意思是告诉软件:你需要江浙一部分转换成文本\表格\插图。一般软件会用不同颜色的直角多边形对不同类型区块进行标记,但是遇到复杂排版布局时我们需要灵活的区块形式,例如下图是ABBYY Finereader和TH-OCR的区块功能对比。我们可以看到ABBYY Finereader可以生成直角多边形区块标记,而TH-OCR只能生成矩形,显然后者会造成排版输出的失误,而尚书OCR只能对文本进行标记谈不上排版。


Leave a Reply

表情符号设置:

Comments

  1. 2007年 十月 05日, 17:46 | 2007年 十月 05日, 17:46

    compartments!Cornell augurs firings Americanize koala.constructions reddened,

  2. 2007年 八月 15日, 22:26 | 2007年 八月 15日, 22:26
    dissociated clamping signally?incubates Maguires dictatorship overshadow rurally encryption
  3. 2006年 十月 07日, 19:10 | 2006年 十月 07日, 19:10
    手机上网爽歪歪~~~