PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 數位影音討論群組 > DVD 討論區 > 軟體字幕討論區
帳戶
密碼
 

回應
 
主題工具
lhwangb
New Member
 

加入日期: Aug 2003
文章: 6
Thumbs up 請問SUBRIP如何建立中文的OCR matrix

雖然網路上抓字幕很方便....
但是....還是覺得自己轉比較有成就感
也比較符合同時由DVD轉出來的MP4或AVI檔
所以有沒有大大可以教一下SUBRIP如何建立中文的OCR matrix
因為據說中文的OCR matrix是要靠人一點一點建進去的
所以網路上沒有人要分享....但是可以教導一下如何建立
我們可以自己慢慢建全它.....
也可以讓我知道一下"TNG-matrix_02.sum"檔案長什麼樣子.....
     
      
舊 2006-07-23, 02:39 AM #1
回應時引用此文章
lhwangb離線中  
y52wong
Junior Member
 

加入日期: Apr 2002
文章: 749
用SUBRIP自建中文字庫,我以前都做過好多,不過而家已放棄了。因為很費時,但效果不佳,轉完還要花很多時間去校正。最主要的原因是:中文字是等距的但英文不是,SUBRIP的設計是用於英文的,例如m就大濶過i好多,所以好多左右平排的中文字便會當做2個甚至3個字。於是便會產生很多"分體字",認完還要自己合併。例如變成(人歹中弓)和(女口),要花很多時間自己去search和replace。我有時會用subocr098,效果還不錯,雖然不可以建字庫,但勝在簡單易用。
 
舊 2006-07-23, 07:34 AM #2
回應時引用此文章
y52wong離線中  
y52wong
Junior Member
 

加入日期: Apr 2002
文章: 749
茲附上一個char matrix給你參考,像附圖一樣,我用"三點水"來表示字旁,當認完字幕後便用search & replace將一些字合併。如"三點水"+"青"-->"清","企人"+"十"-->"什"等等。
舊 2006-07-23, 07:51 AM #3
回應時引用此文章
y52wong離線中  
jasonec
Master Member
 
jasonec的大頭照
 

加入日期: Aug 2001
您的住址: Expanse(廣域)
文章: 1,565
要建完整的 Subrip 用的中文字 Matrix是很困難的任務
第一, 中文字型太多, 每換一套字就得重新認識一次
第二, 中文字數太多, 除非你打字速度夠快, 不然打完一套電影大約須花1~2小時(我的經驗)
第三, Matrix存檔本身有容量限制, 無法儲存太多的經驗值.

至於y52wong所提認識到半個字的問題, 有時可以換套顏色試試, 不過即使是只靠認識一半, 也是可以分辨出的
例如--> [個] 這字
當他認到左邊的人字旁時給他空白跳過, 右邊"固"時在告訴它這字是"個"
原因:
1. 因為人字旁太多, 不能以這來當辨識標準
2. 右邊的"固"只有半個字寬大小, 和正式的"固"不會搞混.

另外, 就算將這種半邊字誤認的情況加入, Subrip的辨識效果還是遠遠高於
subocr098
__________________
We are the Borg. Resistance is futile!!
舊 2006-07-23, 12:09 PM #4
回應時引用此文章
jasonec離線中  
y52wong
Junior Member
 

加入日期: Apr 2002
文章: 749
其實我已經很少自己轉SRT檔了,除了一些網上不能下載的外。我上載的matrix也是四年前的事了。當然subocr098不算好,不過也不失為最易用的程式。
Subrip有時會將一個字變成七八個字,要修訂也十分費神。

ApseC.sum 粗黑(簡体) 32x31
AsGoodAsC.sum 細明體 29x28
DH3SaiMing.sum 細明體 30x31
AnkaC 細明體 31x30
BallC.sum 黑體 28x27
BirthdayC.sum 黑體 28x28
WitnessC.sum 黑體 28x28
JohnQC.sum 黑體 30x29
MummyC.sum 黑體 30x30
NES2黑.sum 黑體 32x36
Die Hard2 Black.sum 粗黑 31x32
LivingC.sum 楷書 20x32
LordC.sum 楷書 25x28
GoldenEyeC.sum 楷書 28x32
OctopussyC.sum 楷書 28x32
HavanaC.sum 楷書 32x34
Bugs.sum 楷書 33x33
GraduateC.sum 粗楷 31x32
SpiritedAway.sum 粗楷 32x31
Moulin RougeC.sum 圓 31x32

這是我在Subrip的Matrix一些記錄,有時字形一樣,但長濶不一或用了不同的font也要另做一set的。字體的matrix大小是以"我"字作標準,因為每一套字幕都應該有這字的。

此文章於 2006-07-23 12:31 PM 被 y52wong 編輯.
舊 2006-07-23, 12:26 PM #5
回應時引用此文章
y52wong離線中  
y52wong
Junior Member
 

加入日期: Apr 2002
文章: 749
至於jasonec兄所提出"固"當作"個"的問題也不一定行得通。如果遇到"青"字,那你會叫它做"清"、"請"或"晴"嗎?就是因為這個問題,我才不怕麻煩用邊旁字來再合併。所有邊旁字都用了"企人""柱心""三點水"二點水"等,便不會和完整的字混淆。另外我還有一個檔案,記錄邊旁組合,每次都用來search & replace,所以做起來也省了不少功夫。
當你遇到"相"時,你會要把"木"當"相"還是把"目"當"相"呢?"林"又怎麼辦呢?
舊 2006-07-23, 12:47 PM #6
回應時引用此文章
y52wong離線中  
bebo1210
Senior Member
 
bebo1210的大頭照
 

加入日期: May 2002
您的住址: 陣亡者的靈堂
文章: 1,069
小弟曾想過一個解決的方法,僅供參考。
既然SUBRIP對每一種字體的判別都得經過「學習」,為什麼不一次讓它全部學完?
例如建立一個所有中文字的TXT,給內容一個時間碼,隨便找個DVD編輯軟體變成字幕,再利用SUBRIP來識別。其中關鍵在於識別時如何教電腦自己去尋找對應的字,而不需自己手動輸入。
這就需要會寫程式的朋友幫忙。標楷體、華康粗中細圓等,各有自己的MATRIX,辨別時就快許多。
舊 2006-07-23, 07:06 PM #7
回應時引用此文章
bebo1210現在在線上  
lhwangb
New Member
 

加入日期: Aug 2003
文章: 6
Sorry!!感謝回應的各位大大, 雖然大大們提供了我這麼多的經驗...
但是....我是新手...有沒有人有SUBRIP的使用方法的電子檔....
不然我還真的不知道該如何應用各位大大的經驗ㄋㄟ.....
舊 2006-07-24, 01:51 AM #8
回應時引用此文章
lhwangb離線中  
y52wong
Junior Member
 

加入日期: Apr 2002
文章: 749
剛製作了一個使用SupRip的方法,希望可用得着!
舊 2006-07-24, 02:21 PM #9
回應時引用此文章
y52wong離線中  


回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是11:30 AM.


vBulletin Version 3.0.1
powered_by_vbulletin 2025。