一個有些複雜的狀況,有問有機會:
我正在嘗試把兩份中華民國教育部官網公告的老資料做重新整理,遇到了瓶頸,
這兩份資料各自分別可以整理出「不重複的國字」數千個,
我需要整理出各自的兩份不重複國字列表出來,要以unicode規範內碼位來呈現,
整理出來的國字列表會分別輸入到 LibreOffice Calc 試算表內擺放,再做一些後續的資料彙整。
我手邊的系統環境的Host OS是 macOS Monterey。
中華民國教育部國小學童常用字詞調查報告書 民國九十一年三月 二版
https://language.moe.gov.tw/001/Upl...hindex.htm?open
頁面拉到最底看最後的文字段落,下載各種資料庫DBF、純文字檔、統計表
https://language.moe.gov.tw/001/Upl...hrest2.htm?open
有提供「造字檔」,西元2000年的發行版本,mdfont.zip/diction.tte 微軟格式的點陣圖造字檔案,預設給Win95使用。
https://language.moe.gov.tw/001/Upl...hrest7.htm?open
教育部官網提供的 SHREST1.DBF (5021個字表,我要用的表格)開啟後,
搭配 mdfont.zip / diction.tte ,理論上可以呈現5021個教育部的選字,
我摸索之後發現Win10的造字程式無法匯入 mdfont.zip/diction.tte,
我把早年購入的盒裝正版WinME拿出來灌入虛擬機器裡頭嘗試,
WinME的造字程式可以匯入 mdfont.zip/diction.tte,
然後WinME環境中我使用 openoffice.org Calc 2.4.2 來開啟 SHREST1.DBF ,
有部分的點陣圖造字顯示出來了,
結果還是有多個字,無法被解析(顯示)出來。
例如 U+EC18、U+EC19、U+EC1A、U+EC1B,我無法從WinME造字程式的字圖列表,
肉眼對應出來到底是哪個字元?
民國88年版教育部國語一字多音審訂表
https://language.moe.gov.tw/001/Upl...s/wxiao89/a.pdf
這份檔案其實是2018年的再編輯版本,
我嘗試把文件內所有的漢字列表(包含多音字列表、單音字列表),
全都複製到純文字編輯器內先做初步的彙整,結果發現單音字的部分有狀況,
文件內的字表的部分,「理論上」應該要是一個unicode規範內碼位對應一個向量字圖,
但探索文件的過程中卻發現文件內有點陣圖、私人造字區碼位的狀況,
這導致我必須用肉眼逐一檢查對照字表內的數千個所有的每一個字元,
來確認複製出來的字表內,缺漏字有哪些,
要對照的字,數量真的太多,會有沒完沒了的感覺。
對了,不要嗆我說:你怎麼不「先」去問教育部?
過去一個十年,我查閱教育部官網的國語文/漢字相關公告「規範」和「範本」資料,
遭遇問題一堆,教育部的電話我沒有少打過、部長民意信箱我沒有少投遞過,
然而教育部給我的回應內容,我個人累積了一個十年的整體觀感就是:敷衍了事+治標不治本!
很多官方公告文件的資料瑕疵問題「還是沒有」被「根本的解決」。
於是之後我遭遇到的問題,我寧可「先」試試看民間網路環境的討論串,
「之後」再考慮教育部的電話和部長民意信箱的可能性。