拼写规则
本方案使用 30 个键编码:
- 大集合:20 个键
bpmfdtnlgkhjqxzcsryw,记为集合A; - 小集合:8 个键
aoeiuv;/,记为集合B; - 其他:2 个键
,.
全部 30 个键的集合记为 U。
声母
声母 zh, ch, sh 分别合并到 z, c, s 键,零声母合并到 r 键。其余声母均在原本的按键。
字根
本方案中,字根分为两类:
- 意符字根:是指布局在大集合
bpmfdtnlgkhjqxzcsryw以及,.两个键上的字根。意符字根基本都是常见的偏旁部首,在汉字中通常具有相对固定的表意功能; - 音符字根:是指布局在小集合
aoeiuv;/上的字根。音符字根基本都是简单的笔画组合,在汉字中通常不具有固定的表意功能。
拆分规则
我们首先尝试按照汉字结构将字分部。如果不能分部,则称该字为部件字;反之,如果能分部,则称为复合体字。
对于部件字,将部件拆分为若干个音符字根,然后取最多前三个字根。
对于复合体字,我们需要将字分为两部分,一部分称为正部,另一部分称为余部:
- 包围结构
- 如果外面是字根,取外面为正部;
- 如果外面不是字根,取里面为正部;
- 上下(或上中下)结构和左右(或左中右)结构
- 只考虑首尾两部分(不考虑中间)
- 首尾两部分有一个是字根,取这一部分为正部
- 首尾两部分都是字根或都不是字根,取左、上为正部
确定正部之后,正部以外的部分称为余部。
- 第二码:在正部找一个字根作为正根
- 如果正部整体是字根,就取这个字根;
- 如果正部整体不是字根,将正部再次分部之后取左、上、外部分,如果是字根就取这个字根;
- 最终得到的部件如果不是字根,取这个部件拆分为音符字根时的首根;
- 第三码、第四码:在余部取最多两个字根作为余根
- 如果余部是部件:取这个部件拆分为音符字根时的前两个字根;
- 如果余部是复合体:将余部再次分部之后取前两部分,分别取这两部分的首个部件拆分为音符字根时的首根;
总结:
- 部件字的全码为:
AB,ABB,ABBB - 复合体字的全码为:
AUB,AUBB
关于分部的细节规则
一般情况下,总是按照汉字的自然间隙来分部,且优先以上下(上中下)、左右(左中右)的方式分部,其次以包围、嵌套结构分部。但有以下几个例外:
字根优先原理
如果字中的包围结构构成了字根,则优先分为字根和其他。例如,「衔」等字分为「行」和中间的部分,「哀」等字分为「衣框」和中间的部分,「旅」等字分为「旅字框」和右下的部分。
如果字根和其他部分相连,可以忽略自然间隙优先分出字根。例如,「章竟」分出「音」和其他部分,而不是「立」。
注意,这条规则不适用于被包围结构构成字根的情况。例如,不能从「辩」中优先分出「讠」和「辡」,也不能从「彀」中优先分出「弓」和「彀字框」。这些字仍然按照常规的上下(上中下)、左右(左中右)的方式分部。
粘连原理
有一部分在上下结构和包围结构中出现的笔形和主体之间的关系不明确,容易引发歧义。故明确如下:
- 一横下面有「儿、八、厶」等笔形的,视为粘连,不从此处分部。例如,「其兵真」等看成是一个部件而非复合体;
- 右下角是「又」的,视为粘连,不从此处分部。例如,「反友发皮」等看成是部件而非复合体;
准包围原理
上下结构中上面以「𠆢、八、大、冖」等笔形覆盖在下面的,视为包围结构,按照包围结构规则处理。例如,「营」视为包围结构,外面不是字根,因此取里面的首根「口」作为正根。
关于部件拆分的细节规则
(未完待续)