![]() |
PCDVD數位科技討論區
(https://www.pcdvd.com.tw/index.php)
- 七嘴八舌異言堂
(https://www.pcdvd.com.tw/forumdisplay.php?f=12)
- - 新酷音詞庫分享計畫from鍵談坊
(https://www.pcdvd.com.tw/showthread.php?t=752105)
|
|---|
新酷音詞庫分享計畫from鍵談坊
以下文章從鍵談坊http://forum.talkdigi.net/phpBB2/index.php洨軟體版轉載
其實這個東西已經在三交腦海中醞釀了很久 特別是看過了對岸的谷歌拼音輸入法 可以線上更新並更新詞庫 所以有了這個計畫的產生 三交的輸入法是嘸蝦米與新酷音混用 嘸蝦米為主,新酷音為輔 由於PCMan大大與新酷音團隊的努力 讓我們可以在免費卻難用的新注音與要錢佔資源的自然音 有著第三個選擇 在此要跟這些大大致意 不過用過新酷音的人都知道 新酷音在選字與斷詞有一些問題 雖然另有新酷音詞庫團隊在維護詞庫,但更新頻率稍慢,而且似乎無法根治選字的問題 而且使用時間愈久 新酷音在選字益發錯亂且斷詞也會變得奇怪 經三交的觀察,應該是使用者自建詞庫(hash.dat)與統計字頻率資料(us_freq.dat)發生搭配上的錯亂所致 而且執行「存入使用者詞庫」的次數愈多,問題就愈嚴重 當然,這有可能三交才會有的情況,或說是個案也可以 在研究「新酷音詞庫修改教學」之後 摸索出以下的方法,不敢保證一定有用 卻有相當程度的解決成效 首先開啟HashEd.exe 執行「存入使用者詞庫」並將詞庫另存匯出 然後到以下資料夾 X:\Documents and Settings\Y\Application Data\Chewing X為磁碟機代號,通常為C Y為使用者帳號 記得解除隱藏檔隱藏的設定 接著將資料夾內檔案全數刪除,再馬上重新開機 切記,刪除後不要用新酷音打字,否則會出現錯誤訊息 開機完成後,再將先前另存的詞庫匯入即可 ============以上為心得=============== 使用過後,選字錯亂問題似乎好很多,不過這不是重點 由於新酷音使用時間一久,每個人都會累積為數不少的詞庫資料庫 雖然有新酷音詞庫計畫,但他們只有維護內建的詞庫以及修正字選擇的優先頻率 對於新詞的增加,數量似乎少了些 但是新酷音又沒有谷歌輸入法有線上詞庫可同步的機制 三交就想以鍵談坊為起點,將新酷音的詞庫放上網路共享 在新酷音的詞庫線上同步機制未出現之前 把自己辛辛苦苦建立的詞庫與大家共享 然後再匯入其他人的建立的詞庫 不但可以節省訓練新酷音的時間 而且能讓新酷音選字更加聰明且好用 這樣的詞庫共享計畫或許是個過渡性的方案 但是可以讓大家在使用新酷音時更方便 何樂而不為呢? 分享的機制很簡單,就是把詞庫上傳 並且以鍵談坊http://forum.talkdigi.net/phpBB2/index.php為統一的分享平台 三交先將自己的詞庫分享給大家,附檔就是三交詞庫 讓下一個人匯入再匯出然後上傳至網路空間 命名的格式為在「檔案註解」裡加上詞庫數量與時間,如 uhash.dat(15131,071020),如附件所示 這樣或許可以去除掉部份重複的情況,也不會有錯亂 然後大家就以最新推文所上傳的詞庫為準 很快地,詞庫就會愈來愈豐富 甚至可以作為未來新酷音線上詞庫的基礎 以及讓目前詞庫維護計畫團隊所使用 以下有幾點事項要注意: 1.匯入其他人的詞庫可能會出現「部份詞重複」的錯誤訊息,這是HashEd.exe的小Bug,可以不用管 2.由於鍵談坊有附件容量限制,上傳時記得先作壓縮 3.如果匯入之後會有選字或斷詞錯亂的情況,記得按照上述的方法,刪掉Chewing資料夾的所有檔案,重新開機後再行匯入即可 4.由於鍵談坊可容量的附件只有256KB,就麻煩後續的網友上傳至其他的網路空間了Orz 5.匯入請透過HashEd.exe PS.要登入鍵談坊會員才能下載詞庫喔 以上文章從鍵談坊http://forum.talkdigi.net/phpBB2/index.php洨軟體版轉載 |
我也是自行增刪詞庫做完備份後,再定期複寫新酷音的詞庫以維持選字的通暢度
新酷音 WIN 上的選字問題,目前應該是無解了,除非整個重寫… 我是建議自己訂比較符合自己的習慣 新酷音連單一一個字,打多了(好像是三次)都會增進詞庫裡,造成以後選字錯亂 要大家的詞庫匯出後再混在一起,恐怕會更亂 :jolin: 而且複寫 uhash.dat 也不用用到重開機,太誇張了,直接複寫就好了,匯入也是… 不要叫出新酷音,也不用執行 HashEd.exe 就可以了 |
剛剛上去 ppt 看到有人將字庫檔放在 badongo 上就下載來試用一下
(不知是否就是原分享的原始檔) 檔名為 hash.dat 將其改名為 uhash.dat 複寫回去就可以了 共 19496 個詞庫,其中我所描述的一個字的&不算是詞的就為數不少囉… ![]() |
引用:
來回答Andy大的問題 1.新酷音在選字上的確有一些小問題,所以才需要這個詞庫分享計畫,讓新酷音變得更聰明。Andy大說得沒錯,如果要徹底改善選字,就要整個新酷音重寫 2.如果你有看上面的文章就會知道選字錯亂跟「單一字」新增到詞庫無關,「單一字」在詞庫中代表「使用頻率」。選字錯亂不是因為詞庫字太多,而是統計字使用頻率資料庫(us_freq.dat)與詞庫(uhash.dat)搭配上的錯亂。如果你發現選字錯亂,代表你的Chewing資料夾的uhash.dat暫存檔一定很多,建議你試試看文中提到的方法 3.不建議用複寫的手法,因為「人家建立」的詞庫就不會跟「自己的」合併了。PTT上的那的檔案是我請朋友放的,我的詞庫檔原本只有14000多,朋友匯入我的詞庫就增加到19000多。看你抓的圖,裡面的詞庫數量為19496,跟我朋友的數量一樣,代表你沒有作匯入的動作,HashEd.exe具有合併詞庫的功能,而且你還把你辛苦建立的詞庫給取代掉,真是可惜呢! 4.如果大家都是新酷音的使用者,而個人的本意也是希望讓新酷音更好用。您提出的意見個人虛心接受,但希望您更了解新酷音後,再來提出建議,而不是發表一些似是而非的言論,或是拿出更有效的方法 PS.uhash.dat所在的位置如下 路徑為X:\Documents and Settings\Y\Application Data\Chewing X為磁碟機代號,通常為C Y為使用者帳號 記得解除隱藏檔隱藏的設定 找不到的話,我可以教你 不會匯入詞庫,我可以教你 不會解除隱藏檔,我也可以教你 覺得這個計畫不好,可以改用新注音或自然音 謝謝你的指教 |
引用:
我不是要跟你嗆… ∴你的口氣可以好一點嗎?? 我想還是請你將原檔放上來好了…你請朋友放上來的檔,跟你的不一樣 看看是不是也是一堆不是詞的詞好了 uhash.dat(15131,071020) 再說新酷音裡頭的單一字變成詞與斷詞,再加上優先選字的錯誤 自訂詞庫裡的字越少恐怕才是比較好的 你朋友放的是 hash.dat 而正確的是 uhash.dat 要選擇匯入或複寫只是差在我自己的詞庫數罷了,何況我都有備份,再複寫回去就行了 我的詞庫嘛,只有 20 個,想到什麼成語或詞先筆記下來,有空才會加上去 盡量做到保持乾淨的詞庫,避免收錄到一堆不是詞的詞,複寫到哪呢 ↓ C:\Documents and Settings\UserName\Application Data\Chewing 跟你的有不同嗎??要教我什麼??不都是一樣!! 匯入嘛…HashEd.exe 就行了,但我為維持詞庫的乾淨度∼嗯∼直接拿舊檔複寫 解除隱藏檔嘛…原本 \Chewing 底下的檔案就不是隱藏的吧,只是程式執行 hang 住而已 不要叫出程式就可以了,要解除什麼隱藏檔呢?? 而且我又沒說新酷音爛,幹嘛叫我換輸入法使用?? |
看來Andy大對新酷音相當有熱情,再接著回答Andy大的疑問:
引用:
1.語氣讓人嗆不嗆,其實是很主觀意識的。如果Andy大覺得個人要教你電腦技巧的使用,是一種「冒犯」,甚至是「侮辱」,在此先行致歉,讓您有這樣的誤解,不過,還是請Andy大詳讀個人的發文,而不要斷章取義,造成彼此之間的誤會 引用:
2.您在PTT上看到的詞庫是「我朋友」與「個人」合併之後所產生的新詞庫,數量為19497個,時間為071021;而個人放到鍵談坊的詞庫,數量為15131,時間為071020,需登入鍵談坊會員才有辦法下載。根據你本文之意,個人的理解為你當下使用的詞庫,是從轉貼至「PTT之處所下載」,那就是較後產生,也就是較新的詞庫,數量是19497,時間為071021的版本。想請教您是否為鍵談坊的會員呢?如果不是,不可能下載到「數量15131,時間071020」的版本,該版本要該論壇會員才能下載 引用:
3.這一段個人同意一半。同意自訂詞庫字愈少愈好,理想中的新酷音本來就該聰明,不必仰賴使用者的自訂詞庫補強選字。 但真實情況就是因為新酷音在斷詞與選字上有一些小問題,才需要自建詞庫的幫助,因為內建詞庫還是跟我們日常使用單字與成語有著不小的落差,若不加入自建詞庫,沒受過「訓練」的新酷音,將會完全以內建詞庫為主,選字就會有一些問題。所以個人認為自建詞庫愈多愈好,立論剛好跟您相反 引用:
4.對新酷音而言,只要是詞庫,不論是hash.dat,抑或uhash.dat,都能成功匯入,不必太過計較檔名上的差異 引用:
5.有備份是好習慣。首先,還是再強調一次,自建詞庫內的「單字」,其作用比較像是「常用字」,可以提昇該單字自動選擇的優先權,而且一定是使用者曾經用過這個字,才會被自建詞庫自動記下,而不是單單只有詞庫的作用,而且使用新酷音愈久,像這樣的單詞在自建詞庫裡會愈來愈多。基於這樣的邏輯,讓自建詞庫很難保持在20個以內,所以文中提到「保持乾淨的詞庫」,以新酷音的運作邏輯,根本不會發生乾淨詞庫的情況。所以在下猜想,會不會是Andy大的新酷音是「卡到陰」,而不是「新酷音」? 另一個令我好奇的是,您平常怎麼去維持自訂詞庫數量在「20個」左右,基本上是違反新酷音的運作邏輯。使用者一直去關注自建詞庫數量的是否「乾淨」,恐怕不是很人性化的操作邏輯,也會讓自己累個半死,而且還要用紙筆來記,在現代時間就是金錢的情況下,這樣原始的方式會讓使用者機會成本提高 詞庫本該要以日常用語為優先,但事實上卻不是。要共享自建詞庫的用意,就是要提昇常用詞語在選字的優先權,以自建詞庫的量,來拉高新酷音選字的正確率,而不是讓使用者一天到晚去維護自建詞庫在20個左右 引用:
6.看來Andy大是個電腦高手,而且對自建詞庫似乎有一些潔癖。如果是用「複寫」的方式,自建詞庫裡不會有新酷音根據Andy大而紀錄的常用字詞,而是直接拿其他人的自建詞庫來用,不作匯入的動作也是可以,只是用「複寫」而不「匯入」的話,自建詞庫若要貼近Andy大的選字習慣,就還要有一段時間的訓練,好讓新酷音去收集並記載Andy大的習慣 如果Andy大不認同個人的「新酷音詞庫共享計畫」,也覺得共享自建詞庫很蠢,個人認為也可以從提高內建詞庫的正確性著手,如果新酷音原本選字就聰明的話,就不會有這個計畫的出現。以下是官方「新酷音輸入法詞庫 libchewing-data」計畫的網頁,那就是修正內建詞庫的概念,歡迎你加入該團隊,讓內建詞庫變得更聰明,那麼,就可以不需要我這個計畫了 我是新酷音輸入法詞庫維護團隊的連結 引用:
7.您是新酷音輸入法的愛好者,而個人也是,我們都是希望新酷音可以更好,你知道,我知道,獨眼龍也知道 與其在這邊爭論,何不如將這些筆戰的心力貢獻出來,我搞我的新酷音詞庫共享計畫,Andy大去改善新酷音程式上的缺陷,如果覺得上述官方「新酷音輸入法詞庫維護專案」不夠有趣,歡迎加入新酷音主程式的維護團隊,他們需要你這樣的人才,如果你程度與熱情都足夠的話...報名網址如下: 我是新酷音輸入法專案官方網頁的連結 |
好吧…其實以前我也傻傻的用,「自訂詞庫」裡老早就破三萬個,光 uhash.dat 就約 5 MB 了吧
到這階段時…真是逢字必選,還得字字選,說真的選的很痛苦,這才讓我下決心將詞庫全洗掉 現在詞庫裡擺 20 個,3KB ,僅靠新酷音本身的內建詞庫 + 少許自訂詞庫就很好用了 常用的字不過一百多…卻搞到詞庫破三萬個,弄到連選個字都很難選,單就詞庫上來比 微軟新注音還不會搞成這樣 使用者只能以定期清理才不會讓詞庫過度肥大;但新酷音的標點還真是好用…就一直用下來了 當然自訂鍵盤、標點等功能也是在下一直用下去的原因 除非整個重寫,不然使用者所能做的幾乎就是有限。 如:把單一字變詞、斷詞、固定優先選字…等這些不是 BUG 的 BUG 給改掉 再交由使用者來自定(擴充)詞庫才顯得有其意義 |
這麼複雜....我還是回去用新注音....
等到酷音重寫的時候我再考慮 |
| 所有的時間均為GMT +8。 現在的時間是02:59 PM. |
vBulletin Version 3.0.1
powered_by_vbulletin 2025。