用數碼相機實現快速文字錄入,其實,很簡單就是拍成照片后傳入電腦,再用識別軟件轉換成文本格式即可。
如今,數碼相機已經大量地走入尋常百姓家。對普通用戶來說,利用數碼相機來拍攝相片,這是天經地義的事情。可是用數碼相機來錄入文字,恐怕在大多數人眼中就有點天方夜譚了。下面,就來介紹一下這個獨門絕活——用數碼相機來錄入文字的真“功夫”。
拍攝
用一臺300萬以上像素、3倍以上光學變焦的數碼相機把原稿拍攝下來。拍攝的時候一定要注意:原稿要放平,相機要端平,光線要柔和均勻。可在走廊或窗口散射光線下,也可在三基色熒光護眼臺燈下拍攝。
拍攝清楚是后面正確識別的關鍵,300萬以上像素能保證拍攝后供識別的文字足夠大;3倍以上的光學變焦能在拍攝時讓原稿的每行字充滿畫面。曾比較過,300萬像素拍攝的比用200萬像素拍攝的識別率明顯要高。
不要用閃光燈,光照太強烈,拍攝下來的字跡反而不清楚。
轉換
在電腦硬盤中建立一文件夾,把拍攝到的圖片存入其中。但這些圖片反差很小,整個畫面很灰;而且各種數碼相機的圖片格式也不同,OCR軟件(文字識別軟件)不一定都能支持,所以宜先用ACDSee或Windows自帶的“畫圖”程序進行轉換。
筆者是在Windows自帶的“畫圖”程序中進行轉換的。首先依次點擊“畫圖→文件→打開”,在“查找范圍”中找到需要的圖片,打開后點擊“另存為”,在“保存類型”里選擇“單色位圖”。
點擊“保存”后,會跳出提示語“保存成這種格式可能會造成顏色信息丟失,你還要繼續嗎”,繼續點擊“是”,就完成了轉換。轉換后得到的新圖片沿用原名,擴展名改為“.bmp”,自動保存在原文件夾中。
識別
運行OCR軟件(可以從網上下載,筆者使用的是清華TH-OCR2000千禧專業版),依次點擊“文件→打開”,在“查找范圍”中找到你的圖片。點擊“命令”出現下拉菜單,如果需要全文識別,即可點擊“全部識別”,OCR軟件即進行識別。軟件窗口的上部是經過拍攝、轉換后的原稿圖片,下部是識別出來的文字。識別結束后自動建立沿用原名的txt文件,保存在原文件夾中。
如果只需識別部分文字,可按住鼠標左鍵在需要識別的文字部位拉出方框,出現整塊黃色后,點擊“識別”即可。
整理
在一開始建立的文件夾中找出擴展名為txt的文本文件,這便是需要的資料,對識別錯誤的字進行修改,特別是原文中加著重號和下劃線的文字,識別率還較低。同時在文件夾中,有許多擴展名為chr、trc、sim的文件,這些是OCR識別時產生的臨時文件,可全部刪除。
編輯:北京信誠IT保姆IT外包部 http:// www.aboverow.cn www.xcit.com.cn |