瀏覽單個文章
asccpu
Master Member
 

加入日期: Jan 2002
您的住址: U.S.S AGC
文章: 1,669
引用:
作者sibaken
能不能請問一下樓主是怎麼掃描的,

平時掃描都是變成像掃圖一樣,

文字都會有毛邊,你掃得都沒有。


我用300DPI以灰階掃圖(圖是彩色的則集中另一次掃)
以TIF存檔(因此本書共用3.9GB空間,還好灰階頁佔90%,不然更多)
再來把原圖保留備份。
取出每頁中的圖出來成單一TIF檔。
上一步完成後只剩文字,再轉成單色。
之後就開始辨識文字。
有毛邊沒差,OCR軟體可正確辨識就行。
辨識率太差則取出原圖再轉一次單色圖,同時提高轉單色的過濾值。
OCR完成後就照書本編排,再修正辨識錯字。

而本書的所有插圖壓縮後約600MB,彩色圖不多。
畢竟銅版紙用的不多,因此許多黑白圖只與報紙上圖的品質好一點,可能會以EM方式丟出,不過要先整理,這個月會丟出吧
__________________
辭源數位化計劃啟始於2014年1月。請拜訪成果。
舊 2011-06-01, 11:36 PM #23
回應時引用此文章
asccpu離線中