瀏覽單個文章
FLYFLY4
*停權中*
 

加入日期: Feb 2018
文章: 33
中華民國中央研究院旗下有一些有關中文斷詞研究的專案,
例如新版的中文詞彙網路
https://lopentu.github.io/CwnWeb/#download
有設計成電腦資料庫的模式呈現,
相關資料也都公告在網站上,讓你下載取用。
然後我發現,如果我想要嘗試進階加值應用這些「中文資料」,
我必須「先學會英文」,因為其資料庫內容都是在「英文環境」中來建構的。
身為一個中文的母語母文字使用者,
當我嘗試要進階的應用自己的的母語母文字的時候,
卻反倒先得學好「外文/外語」,
才會有相對應的技術能力來加值應用自己的母語母文字,
我會覺得這是一種悲哀。

這個網站的網頁版,下中文詞彙關鍵字串查詢之後,
呈現出來的資料內容,是對中文詞彙基礎教育有幫助的「資料」,
我當然會偷懶,想要直接下載整套「懶人包」,在本機直接查閱比較方便,
就像中華民國教育部國語辭典公眾授權網,
可以下載試算表格式的辭典資料檔懶人包那樣,
可是這套專案採用的是 Python 程式語言技術框架,
也就是如果想要直接探索整個「中文」資料檔的「內容」,
例如 pyobj,那就必須先具備一定的英文程度和程式開發能力。
我沒有這樣的英文程度和成開發能力,
所以我沒有辦法把這個「中文」資料庫的內容解析出來,
明明中文是我的母語母文字,
卻因為這個中文資料庫所隔的那層皮是英文的,導致我解析不了它,
遺憾!
舊 2023-03-03, 12:47 AM #535
回應時引用此文章
FLYFLY4離線中