PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 數位影音討論群組 > DVD 討論區 > 軟體字幕討論區
帳戶
密碼
 

  回應
 
主題工具
angp
Major Member
 

加入日期: Dec 2001
文章: 108
Smile 自製的字幕編輯程式 part1 - 以簡體圖形字幕為例

自製的字幕編輯程式 part1 - 以簡體圖形字幕為例

相信很多人都曾經看過DivX影片+簡體字幕,雖然很感謝對岸同胞製作的簡體字幕,但實在太
"難看"了,我老婆看了一分鐘後就立刻請我關掉了.. 字看不懂不打儘,很多同音異義的詞才
令人丈二金鋼摸不著頭腦. 當初寫這個字幕編輯程式的動機也是由此而來..

當然有其它的方法可以達成我想把簡體字幕轉成繁體字幕的作法,不過以下的方法是我目前
所知最快最省力的方法了,若有人知道有更好的方法,希望也能提出來分享給大家...

如果有人覺得為什麼要這麼麻煩的步驟,不是用word的"簡->繁"就好了嗎? 那是因為目前
很多字幕都是以圖型的形態儲存,包括DVD影片上的字幕都是圖型格式的.我下一篇part2
的範例就將會以DVD影片為例子.

OK,以下就開始進行.

1.取得簡體的圖型字幕sub檔.(如何取得我就不細說了,請參閱其它網友的文章)
2.改名為.vob,由SubRip0.97b讀入.

3.將所有字幕轉存為一連串序列的bmp圖 (以"Legally Blonde"為例,大概1,432張),
建議設為白底黑字,辨識最沒問題.

4.將轉出結果存為xxx.srt檔.

5.利用丹青作批次辨識這些bmp圖(我的丹青一次最多只能處理200張,再多就掛了,
只好分6次辨視,不過速度很快,200張一下子就ok了,丹青有個問題,每一行的最後
一個字常常辨視不正確,需要教它學習,若能改善這個缺點,就非常完美了)

6.將辨視結果存成cvs格式的文字檔.

7.利用anSuber讀進之前轉出的srt檔,及參考用的英文字幕檔.

8.將辦視結果的文字檔分批匯進

9.將字幕作細部調整,錯別字,同音字或時間值,依照所需將結果存成SubRip,MicroDVD或
SubViewer檔.

10.大功告成.

以上為整個流程,順利的話,應可在一個小時或更短的時間內完成,若有人對詳細的設定
有疑問的話,我再仔細說明..
     
      
舊 2002-03-18, 12:16 PM #1
回應時引用此文章
angp離線中  
McClintock
Master Member
 
McClintock的大頭照
 

加入日期: Apr 2001
您的住址: POLICE RESCUE
文章: 2,198
Thumbs up

真行。

假設以我做字幕為例,根本沒有中文可看時,那我能用這程式將左視窗及右視窗分別開兩個英文版本的字幕檔嗎?我這樣問的原因是以後就不用開記事本編輯字幕,或者是相互比較哪句有翻錯的。

的確是很好用的程式,但是我沒有單青…
 
舊 2002-03-18, 05:38 PM #2
回應時引用此文章
McClintock離線中  
angp
Major Member
 

加入日期: Dec 2001
文章: 108
引用:
Originally posted by McClintock
真行。

假設以我做字幕為例,根本沒有中文可看時,那我能用這程式將左視窗及右視窗分別開兩個英文版本的字幕檔嗎?我這樣問的原因是以後就不用開記事本編輯字幕,或者是相互比較哪句有翻錯的。

的確是很好用的程式,但是我沒有單青…


左右視窗不限定開啟什麼格式的字幕,所以只要是srt或sub的格式皆可在左右視
窗開啟,甚至左右視窗開啟同一個字幕檔案都是被允許的,唯一的限制是右邊無法
做編輯的動作.

這個程式最主要想解決幾個問題,一個是中文辨識結果的直接匯入,一個是時間
值的調整,常常見大家為了長度不同,而需整個字幕重新調整過,實在是太花時間了,
所以提供了好幾個調整時間的功能,希望能改善這個工作....

其實剛開始我對OCR的軟體抱持得相當懷疑的態度,因為早期使用時並沒有留下
很好的印象,但對簡體的轉換,實在找不出更好的方法,只好姑且一試,試了之後相
當滿意它辨識結果,也許它對手寫的文稿還有待加強,但對這種"印刷體"而言,不管
是繁體或是簡體,幾乎都沒有出錯,而且經由學習之後,辨識率更是大為提昇,如果
能把我遇到的那幾個問題解決之後,真值得我大力推薦..

此文章於 2002-03-18 06:10 PM 被 angp 編輯.
舊 2002-03-18, 06:04 PM #3
回應時引用此文章
angp離線中  
McClintock
Master Member
 
McClintock的大頭照
 

加入日期: Apr 2001
您的住址: POLICE RESCUE
文章: 2,198
引用:
Originally posted by angp


左右視窗不限定開啟什麼格式的字幕,所以只要是srt或sub的格式皆可在左右視
窗開啟,甚至左右視窗開啟同一個字幕檔案都是被允許的,唯一的限制是右邊無法
做編輯的動作.

其實剛開始我對OCR的軟體抱持得相當懷疑的態度,因為早期使用時並沒有留下
很好的印象,但對簡體的轉換,實在找不出更好的方法,只好姑且一試,試了之後相
當滿意它辨識結果,也許它對手寫的文稿還有待加強,但對這種"印刷體"而言,不管
是繁體或是簡體,幾乎都沒有出錯,而且經由學習之後,辨識率更是大為提昇,如果
能把我遇到的那幾個問題解決之後,真值得我大力推薦..


我有看到你把字幕對中的功能加進去了,但是我有點不了解,因為在記事本裡編輯時,分段字幕要以[br]隔開,再進行兩邊全、半形的置中工作,那程式裡的自動置中也是以[br]為準?自動算好兩邊需要的格數?

真是如此的話,那真的就很方便了,以後我就不用看得兩眼昏花算半天,記事本背景白色看得我眼睛很不舒服了。
舊 2002-03-18, 06:12 PM #4
回應時引用此文章
McClintock離線中  
angp
Major Member
 

加入日期: Dec 2001
文章: 108
引用:
Originally posted by McClintock


我有看到你把字幕對中的功能加進去了,但是我有點不了解,因為在記事本裡編輯時,分段字幕要以[br]隔開,再進行兩邊全、半形的置中工作,那程式裡的自動置中也是以[br]為準?自動算好兩邊需要的格數?

真是如此的話,那真的就很方便了,以後我就不用看得兩眼昏花算半天,記事本背景白色看得我眼睛很不舒服了。


呵呵,程式的動作就是這樣沒錯,首先程式會找出這兩行或3行的字幕中最長的那個,
接下來輸出時,把不足這個長度的以全形空白補上,若是差單數格就再補一個半形
空白,當然[br]也會自動加上去,這些動作可完全是照McClintock兄之前文章裡描述
的作法啦. 不好意思,剽竊兄的作法,嘻嘻,正如我所提及寫這個程式的目的,就是
想把大家遇到的困難,儘量用程式來代勞,所以我如果看到有誰提到某某問題時,我
就把它紀錄下來,作為改進的依據,也因此有了這個程式的產生了..

ps1: 我想請問McClintock兄,你所製作的字幕中,有些字幕前面會有"-",請問這是
做什麼用的呢?
ps2: 若下載後有中文顯示亂碼問題的人,請到原下載討論串裡重新下載國際版的java
執行環境,即可解決問題.

自製的字幕編輯程式 anSuber v0.22 裡第4篇

此文章於 2002-03-18 07:30 PM 被 angp 編輯.
舊 2002-03-18, 07:24 PM #5
回應時引用此文章
angp離線中  
McClintock
Master Member
 
McClintock的大頭照
 

加入日期: Apr 2001
您的住址: POLICE RESCUE
文章: 2,198
Thumbs up

引用:
Originally posted by angp


呵呵,程式的動作就是這樣沒錯,首先程式會找出這兩行或3行的字幕中最長的那個,
接下來輸出時,把不足這個長度的以全形空白補上,若是差單數格就再補一個半形
空白,當然[br]也會自動加上去,這些動作可完全是照McClintock兄之前文章裡描述
的作法啦. 不好意思,剽竊兄的作法,嘻嘻,正如我所提及寫這個程式的目的,就是
想把大家遇到的困難,儘量用程式來代勞,所以我如果看到有誰提到某某問題時,我
就把它紀錄下來,作為改進的依據,也因此有了這個程式的產生了..

ps1: 我想請問McClintock兄,你所製作的字幕中,有些字幕前面會有"-",請問這是
做什麼用的呢?
ps2: 若下載後有中文顯示亂碼問題的人,請到原下載討論串裡重新下載國際版的java
執行環境,即可解決問題.

自製的字幕編輯程式 anSuber v0.22 裡第4篇


真的很棒耶,不知道要用幾個大姆指來表達敬意。

剛試了一下,開啟srt的字幕後,再匯成subviewer用的格式,字幕的確都會算好間隔,但是我想:
是不是不能開啟sub的字幕檔?因為我的想法是進行字幕編輯時是在sub檔或srt檔上進行,然後我別去理字幕間的置中,記得自己要斷句時加上[br],然後開啟入程式後匯出成subviewer用的格式,程式再自動去檢查句子中有[br]字樣的部份,去替這些句子進行置中的工作。

或者是設定程式判定需要斷句的句子,把上限設為17個全形字元,超過的會自動斷句這樣?

剛試了一個srt檔,雖然匯出後會自動置中,不過有些句子在中文裡已經很短了,不知道程式加入[br]置中的判定為何?不然還是得逐一檢視完後,把不需要的[br]剔除掉。

還有一個小問題,匯出成sub檔後會有點錯誤,

[COLF]&HFFFFFF,[STYLE]bd,[SIZE]24,[FONT]標楷體
00:01:17.05,00:01:21.58
Three billion human lives ended[br]       onAugust29, 1997.

會直接變成這樣…(連字體大小與字型都預設成我慣用的…真是體貼…
這樣開啟subviewer會無法執行,正常可以執行的會如下:

[COLF]&HFFFFFF,[STYLE]bd,[SIZE]24,[FONT]標楷體
00:00:00.00,00:00:00.10


00:01:01.05,00:01:04.58
洛杉機,西元2029年

需要那一排一堆0的時間列,然後還得空出兩行來,這樣subviewer才能順利執行,不知道你沒有察覺到?雖然這個我自己加上去就可以了。

差點忘了回應,「-」這個就是英文句子裡或是看電視時會出現的符號,用在同時出現的對白中,是兩個人的對話,標示出來讓人比較明白一點,我也只是改變作風把這加進去,看起來效果還不錯。

此文章於 2002-03-18 07:54 PM 被 McClintock 編輯.
舊 2002-03-18, 07:45 PM #6
回應時引用此文章
McClintock離線中  
McClintock
Master Member
 
McClintock的大頭照
 

加入日期: Apr 2001
您的住址: POLICE RESCUE
文章: 2,198
引用:
Originally posted by McClintock


真的很棒耶,不知道要用幾個大姆指來表達敬意。

剛試了一下,開啟srt的字幕後,再匯成subviewer用的格式,字幕的確都會算好間隔,但是我想:
是不是不能開啟sub的字幕檔?因為我的想法是進行字幕編輯時是在sub檔或srt檔上進行,然後我別去理字幕間的置中,記得自己要斷句時加上[br],然後開啟入程式後匯出成subviewer用的格式,程式再自動去檢查句子中有[br]字樣的部份,去替這些句子進行置中的工作。

或者是設定程式判定需要斷句的句子,把上限設為17個全形字元,超過的會自動斷句這樣?

剛試了一個srt檔,雖然匯出後會自動置中,不過有些句子在中文裡已經很短了,不知道程式加入[br]置中的判定為何?不然還是得逐一檢視完後,把不需要的[br]剔除掉。


這部份我大概知道怎麼做了。
舊 2002-03-18, 08:57 PM #7
回應時引用此文章
McClintock離線中  
angp
Major Member
 

加入日期: Dec 2001
文章: 108
引用:
Originally posted by McClintock

這樣開啟subviewer會無法執行,正常可以執行的會如下:

[COLF]&HFFFFFF,[STYLE]bd,[SIZE]24,[FONT]標楷體
00:00:00.00,00:00:00.10

需要那一排一堆0的時間列,然後還得空出兩行來,這樣subviewer才能順利執行,不知道你沒有察覺到?雖然這個我自己加上去就可以了。


嗯,我把這個問題稍為做了些修改 如果從另外兩種格式轉存SubViewer格式時,
程式會自動補上那一行00的時間值,並在後面空2行空白...

引用:
Originally posted by McClintock

剛試了一個srt檔,雖然匯出後會自動置中,不過有些句子在中文裡已經很短了,不知道程式加入[br]置中的判定為何?不然還是得逐一檢視完後,把不需要的[br]剔除掉。

SubRip的斷行是分兩行,MicroDVD是由 ' | '來分開,而SubViewer 是由[br]來分,
為了統一方便編輯,程式中讀進來字幕後,都是用' | '來表示,而在輸出時,才看要儲存
什麼格式的檔案,再把分行符號及空白加入,所以在編輯字幕,若要分行時,只要加一個
'|'符號,將來輸出時,再由系統來替換..

目前最新版為 v0.24 , 若有人使用後與我描述的功能不符,可能是版本不對,請重新
下載覆蓋即可.
舊 2002-03-19, 04:11 AM #8
回應時引用此文章
angp離線中  
McClintock
Master Member
 
McClintock的大頭照
 

加入日期: Apr 2001
您的住址: POLICE RESCUE
文章: 2,198
Thumbs up

引用:
Originally posted by angp

嗯,我把這個問題稍為做了些修改 如果從另外兩種格式轉存SubViewer格式時,
程式會自動補上那一行00的時間值,並在後面空2行空白...
SubRip的斷行是分兩行,MicroDVD是由 ' | '來分開,而SubViewer 是由[br]來分,
為了統一方便編輯,程式中讀進來字幕後,都是用' | '來表示,而在輸出時,才看要儲存
什麼格式的檔案,再把分行符號及空白加入,所以在編輯字幕,若要分行時,只要加一個
'|'符號,將來輸出時,再由系統來替換..
目前最新版為 v0.24 , 若有人使用後與我描述的功能不符,可能是版本不對,請重新
下載覆蓋即可.


好棒!!!
真的很好用,尤其是改以"|"符號來編輯,本來要打[br]四個字元的東西變成只要一個字元就可以了,程式還會自動置中,真是完美的設計。

不過自動加上時間值及空白的功能好像還是無效?
剛試了兩次都沒有自動補上耶,從srt轉sub時。
舊 2002-03-19, 04:24 AM #9
回應時引用此文章
McClintock離線中  
angp
Major Member
 

加入日期: Dec 2001
文章: 108
引用:
Originally posted by McClintock

不過自動加上時間值及空白的功能好像還是無效?
剛試了兩次都沒有自動補上耶,從srt轉sub時。


請兄檢查一次版本是否為 v0.24 , 因為本來上傳了 v0.23 ,
才又發現兄提的這個問題,所以趕緊修改後再上傳了 v0.24,
若兄的版已是0.24...那..那...就是bug了... 我只好再回頭瞧瞧程式了..
舊 2002-03-19, 04:30 AM #10
回應時引用此文章
angp離線中  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是03:10 PM.


vBulletin Version 3.0.1
powered_by_vbulletin 2024。