PCDVD數位科技討論區 - 瀏覽單個文章 - 瀛寰搜奇純文字版電子書

引用:

作者sibaken

能不能請問一下樓主是怎麼掃描的，

平時掃描都是變成像掃圖一樣，

文字都會有毛邊，你掃得都沒有。

我用300DPI以灰階掃圖(圖是彩色的則集中另一次掃)
以TIF存檔(因此本書共用3.9GB空間,還好灰階頁佔90%,不然更多)
再來把原圖保留備份。
取出每頁中的圖出來成單一TIF檔。
上一步完成後只剩文字,再轉成單色。
之後就開始辨識文字。
有毛邊沒差,OCR軟體可正確辨識就行。
辨識率太差則取出原圖再轉一次單色圖,同時提高轉單色的過濾值。
OCR完成後就照書本編排,再修正辨識錯字。

而本書的所有插圖壓縮後約600MB,彩色圖不多。
畢竟銅版紙用的不多,因此許多黑白圖只與報紙上圖的品質好一點,可能會以EM方式丟出,不過要先整理,這個月會丟出吧