瀏覽單個文章
FLYFLY4
*停權中*
 

加入日期: Feb 2018
文章: 33
再分享一個細節,中華民國內政部
全國姓名統計分析(編印日期:107年10月)pdf
https://www.ris.gov.tw/documents/ht...-quart-pub.html
這份PDF換算成西元就是2018的版本,然後我查閱到其中的 表五十七 姓氏排名,
人口由多到少約排序了1800多個姓氏用字,文件內的排序方式,對我來說閱讀困難,
於是我嘗試把這堆姓氏用字複製出來,在我自己編輯的文件檔內排序,
這樣我個人視覺上閱讀比較舒適。
再把姓氏用字從PDF內複製出來的過程中,就遭遇到某些罕用字,
其背後是所謂的 unicode 私人造字區碼位(U+E000∼U+F8FF),
然後我得放大這些字元,用我自己的肉眼儘可能地去辨識這些罕用字的一筆一畫,
再從 中華民國行政院數發部CNS11643全字庫 網站裡頭,
透過其 筆畫、部件、部首等等搜尋功能,推論、比對,找出相同的字。
比對結果,發現在全字庫網站中,我找出來的這些罕用字,
基本上都被放在 unicode U+2xxxx 或 U+Fxxxx 的碼位範圍,
而不是內政部PDF所放置的(U+E000∼U+F8FF)碼位範圍。
說白了,這就是典型的中華民國中央政府各級機關「多頭馬車、各自為政」的行事風格。
行政院CNS11643全字庫 網站上線於2009年,一上線就是將近有九萬五千字,包含不少罕用字。
「內政部」在2018公告發行的全國姓名統計分析(編印日期:107年10月)pdf,
如果把文件內罕用字的碼位編排,全部都依循「行政院」CNS11643全字庫的碼位,
那我在文書處理碰到這些罕用字的時候,只要簡單的複製貼上切換對應全字庫字形即可,
在全字庫網站找字也會方便許多,把PDF文件內的字元複製貼上到全字庫網站或資料集既可。
就是因為中華民國各級機關多頭馬車各自為政,
導致我找字和編輯文件的過程,變得很麻煩、充滿不確定因素,很不便民、很擾民。
舊 2023-01-08, 01:49 AM #523
回應時引用此文章
FLYFLY4離線中