瀏覽單個文章
FLYFLY3
*停權中*
 

加入日期: Oct 2016
您的住址: NewTaipeiCity
文章: 48
自編Unicode資料彙整分享,和編後感。

UNICODE10.0.0v2.ods
https://sites.google.com/site/ianho...eCharactersList

請使用LibreOffice Calc 5.X 版 來開啟這個試算表檔案,因為裡頭包含有十三萬六千多個完全不同的碼位的關係,檔案開啟可能要耗時將近兩分鐘。

過往在做文書編輯的時候,不論是在MsWindows或MacOSX平台,我不定時的會開啟系統內建的 字元對應表/字元面板 挑選字元或符號來用。
這兩個平台基本上都有把字元或符號的「分類」翻譯成正體中文,但是字元和符號的「名稱」就都還是原始的英文。
我的英文程度沒那麼好,這樣在挑選字元和符號的時候還是得查閱英漢字典,閱讀上是覺得有那麼些的吃力。
然後用膝蓋想也知道微軟公司和蘋果公司也不可能為了我一個人的需求,去把 Unicode v10.0 所規範的十三萬六千多個字元和符號名稱,全部都翻譯成符合臺灣用語習慣的正體中文,這校稿起來也是一個很耗時的工程了。
然後我google關鍵字,發現到目前為止,Unicode官方網站和第三方網站,也都「沒有」把這十三萬六千多個字元和符號名稱「全都」翻譯整理成「符合臺灣用語習慣」的「正體中文」的資料。
於是我就想說,我有沒有辦法靠自己來整裡?這一定會痛苦幾個月的時間,但是整理完了之後,以後自己查閱字元和符號名稱資料,就輕鬆且順眼多了,看的是自己整理出來的「符合臺灣用語習慣」的「正體中文」詞彙。
幾個月之後,靠著土法煉鋼查英漢字典、還有google關鍵字、還有極少數屈指可數的幾個翻譯字眼是跟網友問來的,達成進度約百分之九十五,剩下的我放棄了,個人能力不足∼∼∼
然後檔案我就編輯出來了。當然,這份檔案是包含有「免責聲明」的,絕對「不保證」裡頭的字元和符號名稱的「正體中文」詞彙是有高準確度的。
有需要在單一檔案內查閱Unicode v.10.0.0所規範的十三萬六千多個字元和符號的網友,或許參考。
檔案裡頭基本上是一個unicode block,分配一個頁籤,並務請「先看過」「請先完整讀完我」頁籤。
再來,嚴格來說這個檔案裡頭會有26萬7千多個完全不同的unicode碼位,因為我把「兩個」包含有65536個碼位的私人造字區block也都放進去了。
當你點 LO功能表(選單列)\選檔案\屬性 的時候,滑鼠游標可能會在那邊狂轉好一段時間,因為畢竟包含有unicode碼位的格子「太多了」。

檔案編輯完之後,基本上也相當於把十三萬六千多個字元和符號快速地看完一遍了。然後有些個人感受∼∼∼

Unicode這個組織本質上就是「西洋人的組織」,所以你不要期待他們對於CJKV能夠有多深入的了解,尤其關於"C"的部分,也就是說,關於中文漢字體系的字元和符號「名稱」,有部分的英文字串其實是「錯誤」的解讀了「漢文化」的字元和符號。
這些「名稱」在「中翻英的階段」「出包了」,以結果論而言,Unicode規範文件內的英文名稱字串算是「錯誤」的。
然而Unicode這個組織的做法並不是在下一個規範版本發行時,修正這些中翻英的字元和符號名稱的錯誤,而是另外寫一份文件表示發現哪裡錯了,原本的錯誤「將錯就錯」不再修改。
這下好了,「錯誤」的中翻英名稱字串,在電腦資訊環境就這樣持續下去了?甚至有可能會擴散影響到電腦資訊環境之外的生活應用上?

然後我自己的推理是,除非「漢文化」的生活圈,在既有的二進位「硬體」之上,「完全重做」「底層」「只能認識」「正體中文漢字」:字根、部首、部件 的電腦作業系統軟體,這就可以完全「治根」的避開Unicode了。
     
      
舊 2017-11-23, 02:13 PM #1
回應時引用此文章
FLYFLY3離線中