PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 數位影音討論群組 > DVD 討論區 > 軟體字幕討論區
帳戶
密碼
 

  回應
 
主題工具
SeanLin
Regular Member
 
SeanLin的大頭照
 

加入日期: Mar 2005
您的住址: 台北南區
文章: 77
引用:
作者evilaries
剛剛看了一下 OCR 的成果,只能說是慘不忍睹,中、英、數字混排的辨識率尤其不理想,您是用哪一套 OCR 的,讓大家參考看看,另外小弟都用 SubtoSrt....雖然要自建字庫很辛苦,不過正確率卻是非常有保障的,讓人比較安心.....


我使用丹青5, 效果我覺得不錯, 幾乎不用訂正, 只要大概用眼看過一次藍色的字就可以了。
     
      
__________________
舊 2006-01-12, 12:04 PM #11
回應時引用此文章
SeanLin離線中  
SeanLin
Regular Member
 
SeanLin的大頭照
 

加入日期: Mar 2005
您的住址: 台北南區
文章: 77
引用:
作者y52wong
您好!很多謝您的貢獻。今晚試用大作,用一200行的字幕辦出一段文字,但合併時程式卻說文字只有零個字幕,請問問題出在那裡?


用文字編輯器把 # 取代成 # 就可以啦, 下個版本我再改成 # 與 # 都可以。
 
__________________
舊 2006-01-12, 12:14 PM #12
回應時引用此文章
SeanLin離線中  
y52wong
Junior Member
 

加入日期: Apr 2002
文章: 749
謝謝您的回應,這幾天大忙碌,沒有作嘗試,今晚回家再試。至於OCR,我使用的是舊版的丹青,所以效果很差。請問各位到那處可找到較新的呢?謝謝!
舊 2006-01-12, 12:24 PM #13
回應時引用此文章
y52wong離線中  
evilaries
Major Member
 

加入日期: Feb 2002
文章: 113
Thumbs up 經驗分享

SeanLin 大哥提供的這個解決方案確實省卻了許多字幕處理的困擾,真是讓人由衷感謝。小弟嘗試處理幾部電影的字幕後,覺得效果還不錯,有些心得和建議提供給各位版上的弟兄∼∼

目前小弟嘗試使用「丹青 5.0」來辨識掃瞄出來的字幕,發現最前面有些文字容易和註記用的 # 字號混在一起,造成辨識完的文件要組合時會發現少字幕,建議 SeanLin 大哥是不是可以把 # 字註記的設置和正文間的空白間距增大,讓 # 字標記不會被 OCR 軟體和正文混淆在一起。

以繁體中文的掃瞄狀況,丹青的表現不錯,但是錯誤仍然不少,小弟試過大陸發展的清華文通 OCR 9.0 的辨識率,比起丹青更好,但是清華文通的文字間的空格偵測就不太理想了,在字幕不上標點符號的情況下,以空格來表現停頓的語氣,是國內字幕製作常見的用法,但是清華文通會把所有的空格合併起來,校正的功能視窗也不如丹青來的人性,果然是有一好沒兩好.....。

處理完的 SRT 文件,通常都還是要校稿,我一般不會在 OCR 的視窗下做,因為常常點選個不好,前後變的亂七八糟,不知道大家在校稿上有沒有便利一點的方法.....

不知道版上的各位弟兄都用什麼樣的辨識軟體,辨識率如何?大家來討論一下吧!
舊 2006-01-17, 03:27 PM #14
回應時引用此文章
evilaries離線中  
soeasy1984
New Member
 

加入日期: Aug 2005
文章: 2
我也是用Sub to Srt雖然自建字庫真的很辛苦
但是準確率可以到95%以上(5%是有些空格會不太理想)
舊 2006-01-30, 01:01 PM #15
回應時引用此文章
soeasy1984離線中  
chioumajor
New Member
 

加入日期: Feb 2003
您的住址: tw
文章: 9
新手上路中,多了解一點可以增加一下修改字幕的實力.
舊 2006-02-03, 06:07 PM #16
回應時引用此文章
chioumajor離線中  
ckyl
Regular Member
 

加入日期: Oct 2001
您的住址: Taiwan
文章: 81
引用:
作者evilaries
目前小弟嘗試使用「丹青 5.0」來辨識掃瞄出來的字幕,發現最前面有些文字容易和註記用的 # 字號混在一起,造成辨識完的文件要組合時會發現少字幕,建議 SeanLin 大哥是不是可以把 # 字註記的設置和正文間的空白間距增大,讓 # 字標記不會被 OCR 軟體和正文混淆在一起。


可是,我反而想要讓# 字註記的設置和正文間的空白間距減小
因為發現在丹青下# 和正文是分開辨識,所以辨識完後會....

例:

# 我和你
# 在這裡

變成:

4仟4仟
我和你
在這裡

或是(丹青下將4仟休改為#):
##
我和你
在這裡

此文章於 2006-02-05 09:13 PM 被 ckyl 編輯.
舊 2006-02-05, 09:11 PM #17
回應時引用此文章
ckyl離線中  
bebo1210
Senior Member
 
bebo1210的大頭照
 

加入日期: May 2002
您的住址: 陣亡者的靈堂
文章: 1,069
引用:
作者ckyl
可是,我反而想要讓# 字註記的設置和正文間的空白間距減小
因為發現在丹青下# 和正文是分開辨識,所以辨識完後會....

例:

# 我和你
# 在這裡

變成:

4仟4仟
我和你
在這裡

或是(丹青下將4仟休改為#):
##
我和你
在這裡

使用丹青合併區塊即可解決
感謝大大提供如此好用的軟體
舊 2006-02-07, 03:39 AM #18
回應時引用此文章
bebo1210離線中  
evilaries
Major Member
 

加入日期: Feb 2002
文章: 113
引用:
作者bebo1210
使用丹青合併區塊即可解決
感謝大大提供如此好用的軟體


沒錯,那個問題是版面區塊的問題,你要在分析版面時手動調整把 # 字號和內文調整在同一區塊就可以了。建議是幾個欄位就分幾個區塊,不要分太細。

強烈推薦清華 OCR 辨識率較高,比丹青高的多,唯一的困擾就是空格的偵測是個大問題,清華 OCR 遇到空格就跳過去,挺困擾的,不知道各位怎麼解決字幕中的空格問題,謝謝!
舊 2006-02-09, 12:30 AM #19
回應時引用此文章
evilaries離線中  
nbi
Amateur Member
 

加入日期: May 2002
文章: 38
有這個真的方便多了
舊 2006-02-12, 05:59 AM #20
回應時引用此文章
nbi離線中  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是04:39 PM.


vBulletin Version 3.0.1
powered_by_vbulletin 2025。