蒼頡檢字法《內碼對照表》文本化計劃
仓颉吧
全部回复
仅看楼主
吧务
level 14
2025年11月02日 12点11分 1
吧务
level 14
長久以來,坊間流傳的蒼頡檢字法(蒼頡六代)碼表,由於整理時間較早,且編寫者最初對蒼頡檢字法的輔助字形與規則等理解不足,導致存在許多錯誤和不自洽之處,與官方碼表牴牾,甚至出現了出於作者喜好而修改常見字編碼的情況。
然而,由於倉頡官方使用的內碼系統不同於現今流行的 Unicode,官方交予坊間的資料僅有一份 PDF 文件和一份文本化不完全的 Word 文件。在這份 Word 文件中,僅有部分基本區和少數 A 區漢字得以文本化,其餘漢字則以 &~倉頡碼;的形式代替。
由於文本化的不完全以及其中存在的 Unicode 對應錯誤,這份 Word 中的編碼無法滿足日常使用。因此,蒼頡檢字法用戶不得不繼續使用坊間存在諸多錯訛的碼表,導致許多新用戶被錯誤編碼誤導。
出於改善倉頡輸入法生態、為社區盡一份力的意願,我與 @insb 共同啟動了蒼頡文本化計劃,將《內碼對照表》PDF 中的內容,在 Word 文件的基礎上逐行輸入至電腦,以期讓基於 Unicode 的計算機也能使用到原汁原味的蒼頡檢字法碼表。
2025年11月02日 12点11分 3
吧务
level 14
特点① 完全忠实於官方编码本码表完全忠实於官方苍颉检字法码表,不更改《内码对照表》的编码,即使其中存在笔误亦然,完全体现苍颉检字法原貌。② 采用 IDS 表示未收录汉字对於尚未收录於 Unicode 的汉字,我们采用表意文字描述符(IDS,Ideograph Description Sequence)表示,例如:&~AABDD; 目前尚未收入 Unicode,暂以「昍冧」代之。③ 增设「全码」栏位除了官方的「苍颉检字法官方内码」与「2003 版五代内码」以外,我们另增二栏,以方便用户使用:1. 苍颉检字法全码《内码对照表》中收录的苍颉检字法编码与 2003 版五代编码皆为内码,为保证唯一性,苍颉检字法编码后面可能带有数字。码长小於五时: 数字不会占去编码,例如:「已」SU1 (全码 SU)。码长等於五时: 数字可能占去编码,例如:「⻽」MVIY1 (全码 MVIYE)。此栏会参考苍颉检字法辅助字形和重码情况,删去或补足编码,以提供完整的编码。2. 2003 版五代仓颉全码由於该项资料已於《汉文库典》中提供,我们使用 Danny Lin @Danny0838 爬取的《汉文库典》数据。④ 码表排列形式文本化后的码表以以下形式排列:
2025年11月02日 12点11分 4
吧务
level 14
經過文本化,若不計入同一Unicode字符不同編碼的情況,則本碼表目前收錄以下區域的漢字,日後若 Unicode 擴增,此處統計可能更新。
2025年11月02日 12点11分 5
吧务
level 14
下面不完全列舉本碼表與坊間蒼頡檢字法碼表的不同之處:
2025年11月02日 12点11分 6
吧务
level 14
感謝 @wcshds、@yi-bai 先生,為我和 @insb 的文本化工作提供了許多支持,若沒有這些協助,蒼頡檢字法文本化計劃不會以如此高的品質與大家見面。感謝 @Danny0838 爬取的漢文庫典資料,使得我們可以方便準確地补全2003版五代倉頡的全碼。
2025年11月02日 12点11分 7
吧务
level 14
下載地址等內容,請見倉頡之友:https://www.chinesecj.com/forum/forum.php?mod=viewthread&tid=196704
2025年11月02日 12点11分 8
1