PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 其他群組 > 七嘴八舌異言堂
帳戶
密碼
 

  回應
 
主題工具
FLYFLY3
*停權中*
 

加入日期: Oct 2016
您的住址: NewTaipeiCity
文章: 48
自編Unicode資料彙整分享,和編後感。

UNICODE10.0.0v2.ods
https://sites.google.com/site/ianho...eCharactersList

請使用LibreOffice Calc 5.X 版 來開啟這個試算表檔案,因為裡頭包含有十三萬六千多個完全不同的碼位的關係,檔案開啟可能要耗時將近兩分鐘。

過往在做文書編輯的時候,不論是在MsWindows或MacOSX平台,我不定時的會開啟系統內建的 字元對應表/字元面板 挑選字元或符號來用。
這兩個平台基本上都有把字元或符號的「分類」翻譯成正體中文,但是字元和符號的「名稱」就都還是原始的英文。
我的英文程度沒那麼好,這樣在挑選字元和符號的時候還是得查閱英漢字典,閱讀上是覺得有那麼些的吃力。
然後用膝蓋想也知道微軟公司和蘋果公司也不可能為了我一個人的需求,去把 Unicode v10.0 所規範的十三萬六千多個字元和符號名稱,全部都翻譯成符合臺灣用語習慣的正體中文,這校稿起來也是一個很耗時的工程了。
然後我google關鍵字,發現到目前為止,Unicode官方網站和第三方網站,也都「沒有」把這十三萬六千多個字元和符號名稱「全都」翻譯整理成「符合臺灣用語習慣」的「正體中文」的資料。
於是我就想說,我有沒有辦法靠自己來整裡?這一定會痛苦幾個月的時間,但是整理完了之後,以後自己查閱字元和符號名稱資料,就輕鬆且順眼多了,看的是自己整理出來的「符合臺灣用語習慣」的「正體中文」詞彙。
幾個月之後,靠著土法煉鋼查英漢字典、還有google關鍵字、還有極少數屈指可數的幾個翻譯字眼是跟網友問來的,達成進度約百分之九十五,剩下的我放棄了,個人能力不足∼∼∼
然後檔案我就編輯出來了。當然,這份檔案是包含有「免責聲明」的,絕對「不保證」裡頭的字元和符號名稱的「正體中文」詞彙是有高準確度的。
有需要在單一檔案內查閱Unicode v.10.0.0所規範的十三萬六千多個字元和符號的網友,或許參考。
檔案裡頭基本上是一個unicode block,分配一個頁籤,並務請「先看過」「請先完整讀完我」頁籤。
再來,嚴格來說這個檔案裡頭會有26萬7千多個完全不同的unicode碼位,因為我把「兩個」包含有65536個碼位的私人造字區block也都放進去了。
當你點 LO功能表(選單列)\選檔案\屬性 的時候,滑鼠游標可能會在那邊狂轉好一段時間,因為畢竟包含有unicode碼位的格子「太多了」。

檔案編輯完之後,基本上也相當於把十三萬六千多個字元和符號快速地看完一遍了。然後有些個人感受∼∼∼

Unicode這個組織本質上就是「西洋人的組織」,所以你不要期待他們對於CJKV能夠有多深入的了解,尤其關於"C"的部分,也就是說,關於中文漢字體系的字元和符號「名稱」,有部分的英文字串其實是「錯誤」的解讀了「漢文化」的字元和符號。
這些「名稱」在「中翻英的階段」「出包了」,以結果論而言,Unicode規範文件內的英文名稱字串算是「錯誤」的。
然而Unicode這個組織的做法並不是在下一個規範版本發行時,修正這些中翻英的字元和符號名稱的錯誤,而是另外寫一份文件表示發現哪裡錯了,原本的錯誤「將錯就錯」不再修改。
這下好了,「錯誤」的中翻英名稱字串,在電腦資訊環境就這樣持續下去了?甚至有可能會擴散影響到電腦資訊環境之外的生活應用上?

然後我自己的推理是,除非「漢文化」的生活圈,在既有的二進位「硬體」之上,「完全重做」「底層」「只能認識」「正體中文漢字」:字根、部首、部件 的電腦作業系統軟體,這就可以完全「治根」的避開Unicode了。
     
      
舊 2017-11-23, 02:13 PM #1
回應時引用此文章
FLYFLY3離線中  
over55Stars
Junior Member
 

加入日期: Jun 2001
您的住址: 高雄市.嘉義市
文章: 986
先謝過大人的苦勞及疲勞 <(_._)>
剛剛點太快, 不小心按到 "要求存取權"


前人們討論中文電腦已久
方塊字的發展除了脈絡, 還有一些先人的將錯就錯. 郢書燕說
在下一個突破點出現前, 注定難有成果 (所以上一段不提 "功勞")


在下不是相關科系
請教大人這方面的網站. 論壇有哪些 ?
 (在下認為以目前的成果, 暫不適合在 PCDVD 上討論)
 
__________________
麥田管理學院最新課程公告:
本校開設[高等講理藝術]科目,授課由
客座教授 美國長堤大學 維多.柯里昂教授 擔綱

柯里昂教授小傳
美籍義大利裔移民,經營保全業.飯店業有成,而後投入教育事業;大家尊稱他'先生',或稱呼他'教父';
他相信友誼,並且願意先表示他的誠意
舊 2017-11-23, 02:52 PM #2
回應時引用此文章
over55Stars離線中  
FLYFLY3
*停權中*
 

加入日期: Oct 2016
您的住址: NewTaipeiCity
文章: 48
引用:
作者over55Stars
先謝過大人的苦勞及疲勞 <(_._)>
剛剛點太快, 不小心按到 "要求存取權"


前人們討論中文電腦已久
方塊字的發展除了脈絡, 還有一些先人的將錯就錯. 郢書燕說
在下一個突破點出現前, 注定難有成果 (所以上一段不提 "功勞")


在下不是相關科系
請教大人這方面的網站. 論壇有哪些 ?
 (在下認為以目前的成果, 暫不適合在 PCDVD 上討論)



“這方面” 是指什麼? 太籠統了我看不懂。

再補充,你的 將錯就錯, 跟我的 將錯就錯 ,背後所指的應該是「不一樣」的!?

此文章於 2017-11-23 03:06 PM 被 FLYFLY3 編輯.
舊 2017-11-23, 03:01 PM #3
回應時引用此文章
FLYFLY3離線中  
FLYFLY3
*停權中*
 

加入日期: Oct 2016
您的住址: NewTaipeiCity
文章: 48
有問有機會,我查閱了unicode官網的 UnicodeStandard-10.0.pdf,翻閱到章節"24.1"然後遭遇到以下的英文字串,
我嘗試google以下字串的「符合」「臺灣正體中文用詞習慣」的「意譯」的現成的網路資料,但是我google不出所以然來,
(港式中文和對岸中國用詞習慣的翻譯和“直譯”「沒有符合」我的提問需求),所以這裡有問有機會,臺灣正體中文「公眾網路」環境在「現階段」真的就是“沒有”以下這些字串的「意譯」(針對Unicode文件而言)的資料嗎?
還是只是我搜尋能力不足所以找不到? 如果 臺灣正體中文「公眾網路」環境已經有這些資料的話,絕對路徑直連網址哪裡有?
alternative names
informative note
cross reference
compatibility decomposition
canonical decomposition
standardized variation sequence
Informative Aliases
Normative Aliases
Cross References
Related Names
Blind Cross References
Decompositions
Compatibility mappings are marked with an almost equal
Positional Forms
Formal Alias
---
舊 2017-11-29, 10:33 PM #4
回應時引用此文章
FLYFLY3離線中  
linsia
Amateur Member
 
linsia的大頭照
 

加入日期: Jul 2004
文章: 49
說道UNICODE,以前我曾經用 EXCEL連續數字遞增功能作出超陽春UNICODE呢

例如:&#120001遞增到&#130000,再複製貼上到記事本另存成網頁,
這樣就作出包括草寫英文字母和其他英文字形與emoji表情符號
附上文件參考參考

(附加檔案好像只能上傳txt,請把副檔名txt改成html)
上傳的附加檔案
文件類型: txt 120001-130000.txt (97.7 KB, 20次瀏覽)
舊 2017-11-30, 02:00 PM #5
回應時引用此文章
linsia離線中  
linsia
Amateur Member
 
linsia的大頭照
 

加入日期: Jul 2004
文章: 49
另外想請教
例如剪刀符號✂
Unicode是&#9986;
後面加上️&#65039;
Unicode就是&#9986;&#65039;
就變成彩色剪刀符號✂️

其他例子還有
原始符號
⏳ ⌚ ⏰ ⏱ ⏲ ☠ ♻ ⚠ ⛔ ⭕ ➰ ☀ ⭐
☔ ☂ ☃ ⛄ ❄ ⚡ ⛅ ✨ ☄ ☕ ♨ ✈ ⛽
☑ ✅ ❎ ✔ ❌ ➕ ➖ ✖ ➗
⚜ ⚖ ⚒ ⚓ ⚔ ⛓ ⛏ ⛑ ❗ ❓ ☎ ☹
⚽ ⚾ ⛷ ⛸ ⛹ ⛺ ⛰ ⛱ ⛲ ⛳ ⛴ ⛵
⛩ ⛪ ❣ ☘ ✊ ✋ ✌ ☝ ✍ ✏ ✒ Ⓜ ⚱

彩色符號
⏳️ ⌚️ ⏰️ ⏱️ ⏲️ ☠️ ♻️ ⚠️ ⛔️ ⭕️ ➰️ ☀️ ⭐️
☔️ ☂️ ☃️ ⛄️ ❄️ ⚡️ ⛅️ ✨️ ☄️ ☕️ ♨️ ✈️ ⛽️
☑️ ✅️ ❎️ ✔️ ❌️ ➕️ ➖️ ✖️ ➗️
⚜️ ⚖️ ⚒️ ⚓️ ⚔️ ⛓️ ⛏️ ⛑️ ❗️ ❓️ ☎️ ☹️
⚽️ ⚾️ ⛷️ ⛸️ ⛹️ ⛺️ ⛰️ ⛱️ ⛲️ ⛳️ ⛴️ ⛵️
⛩️ ⛪️ ❣️ ☘️ ✊️ ✋️ ✌️ ☝️ ✍️ ✏️ ✒️ Ⓜ️ ⚱️


請問這是怎樣的Unicode編碼?

此文章於 2017-11-30 02:35 PM 被 linsia 編輯.
舊 2017-11-30, 02:30 PM #6
回應時引用此文章
linsia離線中  
linsia
Amateur Member
 
linsia的大頭照
 

加入日期: Jul 2004
文章: 49
忘了補充,Edge瀏覽器看都是彩色的
所以請用Firefox瀏覽器看
舊 2017-11-30, 02:52 PM #7
回應時引用此文章
linsia離線中  
asccpu
Master Member
 

加入日期: Jan 2002
您的住址: U.S.S AGC
文章: 1,667
都是一樣的東西,帶彩色的字是最新字型規格 WOFF 格式,專用在網頁上的,稱之雲端字型,這個恐怕得自行去找資料來看了。
__________________
辭源數位化計劃啟始於2014年1月。請拜訪成果。
舊 2017-11-30, 09:32 PM #8
回應時引用此文章
asccpu離線中  
ethanliu
Regular Member
 
ethanliu的大頭照
 

加入日期: Aug 2003
文章: 61
引用:
作者linsia
請問這是怎樣的Unicode編碼?


那個是 modifier
比如不同膚色的 emoji

很多文字也是類似的方式組合,可以省掉很多字元

https://emojipedia.org/modifiers/
https://unicode.org/emoji/charts/em...#person-gesture
舊 2017-11-30, 10:37 PM #9
回應時引用此文章
ethanliu離線中  
喵刹
*停權中*
 
喵刹的大頭照
 

加入日期: Oct 2017
文章: 7
引用:
作者linsia

請問這是怎樣的Unicode編碼?



1.


2.


3.


舊 2017-12-01, 06:13 AM #10
回應時引用此文章
喵刹離線中  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是04:22 AM.


vBulletin Version 3.0.1
powered_by_vbulletin 2024。