瀏覽單個文章
GCVincent
*停權中*
 

加入日期: Nov 2018
文章: 1,088
Ptt book 版 自炊
https://www.ptt.cc/bbs/book/search?q=%E8%87%AA%E7%82%8A

看過比較清楚的說明
https://roulesophy.github.io/%E6%88...90%86%E8%A1%93/

https://eternallogger.com/post/18-0...me-brew-ebooks/
這一篇提到

引用:

輸出PDF到電腦

處理好的PDF傳到電腦或雲端,接下來要用電腦處理文件。

如果你使用Google Drive,它本身就配備很強的文字辨識功能,只要選擇用Google Docs開啟PDF檔,就會自動辨識。掃描品質夠好的話,漢字的辨識結果也令人驚喜。不過,全形標點符號往往辨識為半形,分段的辨識也相當差,我用它釀了一本書,發現後續的處理相當耗時,有必要針對整本書進行細校,畢竟連分段都一塌糊塗,決定棄用。

文字辨識:ABBYY FineReader

試用了幾個方案

,最後選擇ABBYY的FineReader,不便宜,但最省事。匯入排好的PDF後,原本拍攝的跨頁會自動被切割為左右頁(所以說一開始就拍跨頁)。我用來辨識繁體中文縱排的小說,文字辨識比起Google Drive看來要更好一些,至少沒有一眼就看出來的明顯錯誤,而且分段都確實找出來了。我讓它分析文本後,剔除天地的眉標和頁碼,再讓它進行文字識別程序。

識別好的成果輸出為純文字檔,並勾選「以一空行區隔段落」,就變成Markdown的分段格式,正合我意。由於我最後將會由Markdown純文字檔轉為EPUB,可以說到這裡已經很接近完成了,FineReader的完成度之高,出乎我意料之外,Mac App Store上也有賣。覺得貴的話不妨去下載試用版把玩看看。


以前在對岸網站看過一篇自炊,有開源文字辨識,忘記關鍵字找不到…

https://web.casio.jp/bookturner/
卡西歐這台自動翻頁機從沒看過實機……當年大概10萬隻羊?!
(耗材 一卷 tape /20冊,翻頁手臂/1000冊?)

要 OCR 才能大幅縮小文字檔案大小,高解析度圖片檔案會很大。
還有文字檔搜尋才會快。
舊 2022-05-11, 03:34 PM #69
回應時引用此文章
GCVincent離線中