我正在做一個個人資料彙整的嘗試,我想要把:
中華民國教育部
中華民國九十一年三月 國語文教育叢書四十三 國小學童常用字詞調查報告書 二版
https://language.moe.gov.tw/001/Upl...ARY/SHINDEX.HTM
國字標準字體教師手冊
https://language.moe.gov.tw/001/Upl...STD/c4.htm?open
這兩個傳統網頁(其子網頁群可能會 big5、unicode編碼混搭)的「所有內容」,
全部複製下來,並且以
Libreoffice v7.x Writer (*.ODT)文件排版 + Calc (*.ODS)試算表
(我在macOS環境編輯檔案)
的格式來呈現。
目前我遭遇了不少困難,有些解決了,有些還沒有解決。
目前為止的整體觀感是:
國小學童常用字詞調查報告書 這份資料集:
我發現,win10的造字程式「無法解析」教育部或可能是在Win95環境編製的中文造字檔,
然後WinME「無法百分之百」的解析教育部或可能是在Win95環境編製的中文造字檔,
我手邊生不出臺灣中文版的Win95OSR2.5。
我自己的能力範圍內,無法搞定去百分之百的解析「二十年前的」中華民國教育部所公告的中文造字檔內的「所有的字元」。
我只能解析到百分之九十五左右,剩下的字元我解析不出來。
(網路上曾經翻找過一份 5021字 pdf ,我整個瀏覽過一遍,我的直覺是無法百分之百的信任)
這裡所謂的解析,指得是該造字檔內的「每一個字元」,都必須由肉眼確認能夠對應到
最新標準版的 中華民國教育部標準楷書、中華民國行政院全字庫正楷體。
國字標準字體教師手冊 這份資料的內容,有不少異體字,
教育部掃描實體紙本成點陣圖檔的時候,採用的解析度很低,
有些異體字筆畫多,整個看起來就是小不拉嘰的跟螞蟻一樣的筆畫都黏在一起,
放大點陣圖檔也沒用,還是糊的。
我難以肉眼辨識,來去跟CNS11643全字庫、教育部異體字字典作對照,到底是什麼字?
然後我發現教師手冊內,有些異體字,中華民國公家機關應造字而未造字(這裡指全字庫)。
一拖三十年。