标签:
五笔字型汉字编码方案采用字根拼形输入的方案,它使成千上万的汉字,只用130种字根像搭积木一样,即可拼合而成。这种方法以其井然有序,易学好用,可拼合出全部汉字和词组等优点,在众多方案中独树一帜。无论多么复杂的汉字和词组,最多只需击四个键,即可输入电脑。每个字平均码长为2.6键。重码率低于万分之二,可以盲打。经过指法训练的操作员,每分钟能输入120到160个多字,成为我国最受欢迎的汉字输入技术。此项发明在国际上也有很大的影响;1984年应邀到联合国表演时,使所有在场的人目瞪口呆,引起了轰动;1986年获美国专利;1987年获英国专利。目前,固化的五笔字型电脑产品已源源出口美国、新加坡、日本等国家和香港地区,倍受欢迎,成为举世公认的最先进的汉字输入技术。
五笔字型编码基础
计算机要在中国普及应用,就必须对汉字的结构规律进行深入的研究和分析,给计算机提供汉字的编码,解决汉字的输入问题,从而实现汉字信息的处理。汉字可划分为三个层次:即笔划、字根、单字。也就是说:由若干笔划复合连接交叉形成相对不变的结构组成字根;再将字根按一定的位置关系拼合起来就构成了汉字。“五笔字型”方案的基本出发点之一是遵从人们的习惯书写顺序,以字根为基本单位组字编码、拼形输入汉字。
一、汉字的五种笔画
笔画是书写汉字时,一次写成的一个连续不断的线段。
需要解释的是,这里的“写”不是日常按行书写的习惯,那样太不规范。所说的“写”应该是:
1)按楷书字形而非其他行书、草书体字形。
2)按国家标准字形。
3)按简化后的新字形而不是简化前的老字形。
带转折的笔画(左竖钩并入竖是唯一的例外)都归为折,编号为5。
有以下标准笔画的变体要具体说明:
1.“提笔”视为横
2.现场特扛冲(各字左部末笔都是‘提’,视为横)
3.点点均为捺
4.学家寸心(各字中的点,包括的左点都为捺)
5.左竖钩为竖
6.带转折均为折(带转折的,除左竖钩,编码都是5)
汉字自然也可以看做是由一系列笔画组成的。这其实就是五笔画编码的根据,但五笔画编码方法能给出的不同编码的总数合计为3905个,当待编码汉字增加时,其重码会很重。
各类依字型检字的方法中,广泛使用偏旁部首的办法。就是把基本笔画组成的相对不变的结构划分出来,由它们拼合组成汉字。五笔字型方法中,把由基本笔画组成的这些相对不变的结构称为字根。平时常说木子李,立早章是说李字由“木”和“子”组成,章字由字根“立”和“早”组成。木、子、立、早都是五笔字型基本字根。也可以说,李字由字根“木”和“子”组成,章字由字根“立”和“早”组成。平时说的弓长张,是说张字由“弓”、“长”组成,“弓”字是五笔字型基本字根,但“长”不是五笔字型字根,在五笔字型方法中,“长”字还需要分解。
二、汉字的130个基本字根
由笔画交叉连接而形成的相对不变结构现通称为偏旁、部首,在汉字编码中有称为字元的,有称为部件的,五笔字型中称为字根。这些相对不变结构的种类、数量、名称都不统一。从汉字输入编码应用角度考虑,这些结构数量要适当(太多难记忆,也难于在键盘上安埃 倩嵩黾勇氤せ蛟黾又芈耄 N灞首中头椒ㄖ芯 罅客臣坪头锤词杂米詈笥叛×?30个字根。
五笔字型字根优选的原则是:组字能力强,而且在日常汉语文字中出现次数多(实用频度高)。这些字根可以按较为统一规则拼形组成汉字,或者说汉字可以按较统一规则拆分为基本字根的确定组合,不要产生多种可能拆分,造成二义性。
130个基本字根又按起笔的笔画分为五大区,每区内又分五个位,十数位为区号,个数位为位号,以11-55共计25个代码表示。这样就建立起“五笔字型”汉字编码方案的字根总图,只有这130种字根才有资格参加编码,其他任何形态的笔划结构,都要全部理解为是由这130种基本字根组成的。因此,这130种基本字根既是组字的依据,又是拆字的依据,是对任何汉字及词汇编码的“基本构件”。这130种字根中又可分为键名字、笔形和基本字根三种,它们都统称为基本字根。
这130个基本字根都反映在字根总图中(在汉字输入训练中按F3键可切换)。
以下是五笔字型字根助记词,方便用户记忆这130个基本字根。
11王旁青头戋(兼)五一 12土士二干十寸雨
13大犬三羊古石厂 14木丁西 15工戈草头右框七
21目具上止卜虎皮 22日早两竖与虫依 23口与川,字根稀
24田甲方框四车力 25山由贝,下框几
31禾竹一撇双人立,反文条头共三一 32白手看头三二斤
33月彡(衫)乃用家衣底 34人和八,三四里
35金勺缺点无尾鱼,犬旁留儿一点夕,氏无七(妻)
41言文方广在四一,高头一捺谁人去 42立辛两点六门疒
43水旁兴头小倒立 44火业头,四点米
45之字军盖道建底,摘礻(示)衤(衣)
51已半巳满不出己,左框折尸心和羽 52子耳了也框向上
53女刀九臼山朝西 54又巴马,丢矢矣
55慈母无心弓和匕,幼无力
三、字根间的结构关系
基本字根可以拼合组成所有汉字。在组成汉字时,字根间的位置关系可以分为四种类型,概括为单、散、连、交。
■1.单 本身就单独成为汉字的字根,这在130个基本字根中,占很大比重,有八九十个。
■2.散 构成汉字不止一个字根,且字根间保持一定距离,不相连也不相交。如:汉字 笔型 培训
■3.连 五笔字型中字根间的相连关系并非通俗的望文生意的相互连接之意。五笔字型中并不把以下字认为是字根相连得到的。
足 充 首 左 页 美 易 麦
五笔字型中字根间的相连关系特指以下两种情况:
(1)单笔画与某基本字根相连。如:
自 丿连目 千 丿连十 且:月连一
尺 尸连丶 不 一连小 主:丶连王
产 立连丿 下 一连卜 入:丿连丶
单笔画与基本字根间有明显间距者不认为相连。如:个少么旦幻旧孔乞鱼
(2)带点结构,认为相连。
这类字如:勺 术 太 主 义 斗 头
这些字中的点与另外的基本字根并不一定相连,其间可连可不连,可稍远可稍近。在五笔字型中把上述1)、2)种情况一律视为相连。即不承认它们之间是上下结合或左右结合。这种规定有利于字型判定中简化、明确。
■4.交 指两个或多个字根交叉套迭构成的汉字。如:
夫:二交人 申:日交丨
里:日交土 果:日交木
必:心交丿 专:二交乙
四、汉字分解为字根的拆分原则
上节讨论字根以那些方式拼合交连而成汉字,这里说汉字如何分解为字根。
上面所说单的情况,汉字本身就是一个基本字根,因而也就无需再拆分,这类字的五笔字型编码有单独规定。
上面所说散的情况,由于字根之间疏离分立,所以也就容易拆分。这种情况也不赘述。
拆分问题集中于要解决连、交及混合型的情况。具体拆分中要注意掌握下面口诀给出的四个要点。
取大优先,兼顾直观,能连不交,能散不连。
见以下拆分实例:
夷: 一 弓 人 无:二儿 天: 一 大
取大优先也叫能大不小。在可能拆分中以拆分出字根数量少的那种为优先。要字根数少用字根尽可能大实现。尽可能大,指再加一笔不能构成已知字根来判断。见下面实例:
正确 错误
果 日木 旦小(旦 非基本字根)
相连关系,按上面三种规定,只是单笔画与基本字根之间的关系才视为连。这类字也就直接拆分单笔和基本字根两者的组合。这类的字如:
且 月一 太 大丶
拆分中还应注意,一个笔画不能割断在两个字根中。如:
正确 错误
果 日木 田木
故口诀不防加四句,补为下:
单勿需拆 散拆简单 难在交连 笔画勿断
能散不拆 兼顾直观 能连不交 取大优先
五、汉字的三种字型结构
在成千上万的方块汉字中,可分为三种类型:左右型、上下型、杂合型。三种字根的划分是基于对汉字 整体轮廓的认识,指的是整个汉字中字根之间排列的相互位置关系,搞清这一点,对于确定多字根的汉字的类型是十分重要的。
●1.左右型汉字
在左右型汉字中,包括两种情况:
1)在双合字中,两个部分分列左右,整个汉字中有着明显的界线,如:肚、胡、理、胆、咽、拥等。咽和枫的右边也由两个字根构成,虽然这两个字根之间是外内型关系,但整个汉字却属于左右字型。
2)三合字中,整字的三个部分从左到右并列:或者单独占据一边的一部分与另外的两个部分呈左右排列,如:侧、别、谈等,都应属于左右型。
●2.上下型汉字
上下型 汉字也包括两种情况:
1)双合字中,两个部分分列上下,其间有一定距离,如:字、节、看等。
2)三合字中,三个部分上下排列,或者单占一层的部分与另外两部分作上下排列,如:意、想、花等。
●3.杂合型棗内外型汉字和单体型汉字
杂合型指组合成整字的各部分之间没有简单明确的左右上下型关系进。如:团、同、这、半、头等。
汉字的字型特征,是每一个有文化的中国人从上小学起就熟知的。这里,可以用作为识别汉字的一个重要的依据。如:“口”、“八”上下排列为“只”,左右排列即为“叭”等。因此,我们还可以把三种字型叫做字根的三种排列方式。在我们向计算机中输入汉字时,除了键入组成汉字的字根外,有时还有必要告诉机器那些键入的字根是以什么方式排列的,即补充键入一个字型信息。
各型的划分中,还有以下约定:
凡属字根相连(指单笔与字根相连或带点结构)一律视为三型,即杂合型。
凡键面字(本身是基本字根),有单独编码方法,不必利用字型信息。
主要对属于散、交两类字根结合关系,要区分字型。
五笔字型单字输入编码规则
五笔字型将单字主要分为三类:键名字,成字字根及键外字。
三类汉字的五笔编码各不相同,输入时请注意。
另外单笔画的成字字根,五笔字型特别规定了五个笔画的编码。
一、编码歌诀
单字的五笔字型输入编码有歌诀如下:
五笔字型均直观,依照笔顺把码编;
键名汉字打四下,基本字根请照搬;
一二三末取四码,顺序拆分大优先;
不足四码要注意,交叉识别补后边。
歌诀中包括了以下原则:
1)取码顺序,依照从左到右,从上到下,从外到内的书写顺序(见“依照笔顺把码编”句)
2)键名汉字(见“键名汉字打四下”句)
3)字根数不足四或大于四时,按一、二、三、末字根顺序取四码(见“一二三末取四码”句)
4)不足四个字根时,打完字根码后,补交叉识别码于尾部。此种情况下,码长为3或4(见歌诀末行)。
歌诀中“基本字根请照搬”句和“顺序拆分大优先”是拆分原则。就是说在拆分中以基本字根为单位,并且在拆分时“取大优先”,尽可能先拆出笔画最多的字根。或者说拆分出的字根数要尽量少。
二、键名汉字的编码
有25个键名汉字,即:
言 立 水 火 之
王 土 大 木 工
目 日 口 田 山
禾 白 月 人 金
已 子 女 又 纟
这25个字每字各占一键,它们的编码是把所在键的字母连击四次,即:
“王”字编码为:GGGG,输入时需连击G四下。
“目”字编码为:HHHH,输入时需连击H四下,等等。
之所以这样规定:是由于已把这些单键分给25个高频字,对25个高频字击一下便可输入一个汉字,而键名只好委屈些和其它统一使用四码。25个高频字的输入见一级简码。
三、成字字根汉字的编码
在130个基本字根中,除25个键名字根外,还有几十个本身也是汉字,称它们为“成字字根”。键名和成字字根合称键面字。成字字根的编码公式为:
▲ 报户口+首笔码+次笔码+末笔码
当成字字根仅为两笔时,只有三码,公式为:
▲ 报户口+首笔码+末笔码+空格
键名码即所在键字母,击此键又称报户口。
首笔码、次笔码和末笔码,不是按字根取码,而是按单笔画取码、横竖撇捺折五种单笔的单笔画取码即各类第一字母,对应关系如下:
单笔画种类:横、竖、撇、捺、折
单笔画码: G H T Y N
下面给出几个成字字根的编码:
五:GGHG
雨:FGHY
木:SGHY
二:FGG空格
丁:SGH空格
单笔画横和汉字数码“一”及汉字“乙”(单笔画折的代表)都是只有一笔的成字字根。用上述公式不能概括,而单笔画有时也需单独使用,特别规定五个笔画的编码如下:
一:GGLL
丨:HHLL
丿:TTLL
丶:YYLL
乙:NNLL
编码的前两位可视为和前述公式有统一性,第一为户口码或键名码,第二为首笔画码。因无其它笔画补打两次L键。
四、键外字的编码
上述键名字及成字字根中的键面字总共有一百多个。键面字以外的汉字都是键外字,键外字是大量的。我们遵循以下原则将汉字拆分成基本字根。
◆1.顺序拆分。依照汉字的书写顺序拆分。例如:
新:“立”“木”“斤” 正确
新:“立”“斤”“木” 错误
◆2.取大优先。它指的是在各种可能的拆法中,保证按书写顺序每次都拆出尽可能大的字根。例如:
果:“日”“木” 正确
果:“日”“一”“小” 错误
◆3.兼顾直观。前面的取大优先也不是绝对的,为了照顾直观性,在可能的几种拆法中,拆出的字根数越少,越直观。
◆4.能连不交。这名话指的是:如果一个结构可以视为几个基本字根能按连的关系拆分,就不要按相交的关系。例如:
天:“一”“大” 正确(单笔画加字根的连的关系)
天:“二”“人” 错误(两字根相交的关系)
键外字按以上规则拆分成字根后,在编码选字根时,还要遵循以下原则:
①超过四码:取该字的1、2、3、末字根码。例如:
慧:三丨三心 DHDN
续:纟十乙大 SFND
②刚好四码:依次全部选取。例如
照:日刀口灬 JVKO
容:宀八八口 PWWK
③不足四码:在字根键入完后由于信息量不够,需要另外加打“末笔字型交叉识别码”,仍不足四码,补空格键。
五、末笔画字型交叉识别码
当键外字其字根不足四个时,依次击入字根后,最后补一个识别码,识别码由末笔画的类型编号和字型编号组成。具体地说,识别代码为两位数字,第一位(十位)是末笔画类型编号(横1、竖2、撇3、捺4、折6),第二位(个位)是字型代码(左右型1、上下型2、杂合型3)。把识别代码看成为一个键的区位码,这就会得到交叉识别(字母)码,码表如下:
左右 上下 杂合
横 11G 12F 13D
竖 21H 22J 23K
撇 31T 32R 33E
捺 41Y 42U 43I
折 51N 52B 53V
加识别码后仍不足四码时,击空格键。
加识别码的作用是减少重码,加快选字,在不用识别码时,旮、旭二个汉字重码,加识码后就分开了。例:
程:末笔代号为1,字型代号为1,识别码为11G。
足:末笔代号为4,字型代号为2,识别码为42U。
困:末笔代号为4,字型代号为3,识别码为43I。
关于末笔画有如下规定,这规定可使取码简单,明确。
1)末字根为“力、刀、九、七”等时,一律认为末笔画为折。
2)进逞远等字,不以走之底的末笔为末笔(书写时确实是末笔,但这样末笔都一样,减少了识别信息量)约定以去掉走之底部分后的末笔为整个字的末笔构造识别码。进、逞、远的识别码为:23,K;13,D;53,V。
3)我、成等字的末笔取撇“丿”。
关于字型有如下约定:
1)凡单笔画与字根相连或带点结构都视为杂合型。
2)字型区分时,也用“能散不连”的原则。知、卡、严都视为上下型。
3)内外型字属杂合型,如困、匝。但“见”为上下型。
4)含两字根且相交者杂合型,如:东、串、电、本、无。
5)含走之底的字为杂合型:进、逞。
6)以下各字为杂合型:司、床、厅、尼、式、后、反、办、皮,但相似的左、右、有、看、者、布、友等为上下型。
简码输入
上节所介绍的汉字的五笔字型编码,一律为码长为四(字根数大于等于四的用四个字母码;字根为三的补一个识别码也可为四个字母码;字根数为二的补一个识别码,再补一个空格键仍是四键;键面字也一律用四码),为了简化输入,减少码长,设计了简码输入法。简码分一、二、三级,分别只需击一、二、三个字母键再击一空格键来输入简码汉字。显然,一级简码字25个;二级简码字25*25=625个;三级简码字最多25*25*25=15625个,实际上三级简码字安排了约4400多个,简码字总数约为5000个。在五笔字型方案中,由于具有各级简码的汉字总数已有5000多个,它们已占了常用汉字中的绝大多数,因此使得编码输入变得非常简明直观,如能熟练应用,可以大大提高输入效率。有的字同时有几种简码,例如“经”字,就有高频字一级简码,二级简码,三级简码及全码四种输入编码。
一、一级简码
一级简码,即高频字码。“五笔字型”中,从11-55共25个键位代码,根据每键位上的字根形态特征,每键安排一个最为常用的高频汉字,这类字只要击键一次,再击一次空格键,即可输入。
这些高频字及编码如下:
一(G) 地(F) 在(D) 要(S) 工(A)
上(H) 是(J) 中(K) 国(L) 同(M)
和(T) 的(R) 有(E) 人(W) 我(Q)
主(Y) 产(U) 不(I) 为(O) 这(P)
民(N) 了(B) 发(V) 以(C) 经(X)
二、二级简码
二级简码字的简码和其全码的前两位相同,即只用前两个字根编码,具有二级简码的汉字有:
GFDSA HJKLM TREWQ YUIOP NBVCX
G五于天末开 下理事画现 玫珠表珍列 玉平不来 与屯妻到互
F二寺城霜载 直是吉协南 才垢圾夫无 坟增示赫过 志地雪支
D三夺大厅左 丰百右历成 帮原胡春克 太磁砂灰达 成顾肆友龙
S本村枯林械 相查可楞机 格析极检构 术样档杰棕 杨李要权楷
A七革基苛式 牙划或功贡 攻匠菜共区 芳燕东 芝 世节切芭药
H睛睦睚盯虎 止旧占卤贞 睡睥肯具餐 眩瞳步眯瞎 卢 眼皮此
J量时晨果虹 早昌蝇曙遇 昨蝗明蛤晚 景暗晃显晕 电最归紧昆
K呈叶顺呆呀 中虽吕另员 呼听吸只史 嘛啼吵噗喧 叫啊哪吧哟
L车轩因困轼 四辊加男轴 力斩胃办罗 罚较 辚边 思囝轨轻累
M同财央朵曲 由则 崭册 几贩骨内风 凡赠峭赕迪 岂邮 凤嶷
T生行知条长 处得各力向 笔物秀答称 入科秒秋管 秘季委么第
R后持拓打找 年提扣押抽 手折扔失换 扩拉朱搂近 所报扫反批
E且肝须采肛 胩胆肿肋肌 用遥朋脸胸 及胶膛膦爱 甩服妥肥脂
W全会估休代 个介保佃仙 作伯仍从你 信们偿伙 亿他分公化
Q钱针然钉氏 外旬名锣负 儿铁角欠多 久匀乐炙锭 包凶争色
Y主计庆订度 让刘训为高 放诉衣认义 方说就变这 记离良充率
U闰半关亲并 站间部曾商 产瓣前闪交 六立冰普帝 决闻妆冯北
I汪法尖洒江 小浊澡渐没 少泊肖兴光 注洋水淡学 沁池当汉涨
O业灶类灯煤 粘烛炽烟灿 烽煌粗伙炮 米料炒炎迷 断籽娄烃糨
P定守害宁宽 寂审宫军宙 客宾家空宛 社实宵灾之 官字安 它
N怀导居 民 收慢避惭届 必怕 愉懈 心习悄屡忱 忆敢恨怪尼
B卫际承阿陈 耻阳职阵出 降孤阴队隐 防联孙耿辽 也子限取陛
V姨寻姑杂毁 叟旭如舅妯 九 奶 婚 妨嫌录灵巡 刀好妇妈姆
C骊对参骠戏 骒台劝观 矣牟能难允 驻骈 驼 马邓艰双
X线结顷 红 引旨强细纲 张绵级给约 纺弱纱继综 纪弛绿经比
三、三级简码
三级简码字字数多,输入三级简码字也只需击四键(含一个空格键),三个简码字母与全码的前三者相同。但用空格代替了末字根或代替识别码。
三级简码看上去击键次数仍为四键,没有减少总的击键次数,但由于省略了前三个字根之后的字根判定或者交叉识别码的判定,因而可提高输入速度。
词语输入
在汉字输入方案中,以词语为单位的输入方法常可达到减少码长,提高效率的目的。在五笔字型输入方法中也设计了词语的输入方法,并给出开放式结构,以利于用户根据自己专业需要自行组织词库。五笔字型词语输入还有一个特点,即词语输入和单字输入统一,不加字或词的输入标记,也无需换档。这是由于词语的编码也是四码。全部四码空间的大小为25*25*25*25=390625(约39万),而一二级汉字单字编码共占1.2万左右,大量编码空间空闲。词汇码在绝大部分插入空闲区,也就是说:单字码与词汇码有着很不相同的分布规律,二者混在一起不用换档,绝大多数情况下是不会发生冲突的。单字与词汇编码可以共存共容互不影响。词汇码的输入和单字码的输入可混合进行。记得的就打词汇以求其快,记不清的仍打单字以求其准。二者之间不需要任何的换档操作。这种设计在实际使用中,给操作者带来了极大的方便。
1.二字词
二字词的词语由所含的两个汉字各取两个字根码组成,即每字按笔顺取前两个字根编码。如:
机器:木几口口 SMKK
汉字:氵又宀子 ICPB
计算:讠十竹目 YFTH
时间:日寸门日 JFUJ
2.三字词
三字词前两汉字各取第一码,最后一字取前两码。如:
计算机:讠竹木几 YTSM
电视机:日礻木几 JPSM
操作员:扌亻口贝 RWKM
组织部:纟纟立口 XXUK
3.四字词
四字词的词语由每个汉字的第一码组成输入码。如:
家用电器:宀冂日口 PEJK
汉字编码:氵宀纟石 IPXD
五笔字型:一竹宀一 GTPG
程序设计:禾广讠讠 TYYY
4.多字词
超过四个字的词,前三个字各取第一个字根码,词语的第四码由最末一个汉字的首码组成。换句话说:是由一二三和末四个字的第一字根构成的。如
电子计算机:日子言木 JBYS
中华人民共和国:口亻人口 KWWL
摘要:
我公司长年生产各种橡胶制品、胶管、胶条、胶辊、胶板等,需大量生产原材料,新型产品更是需要,各生产商请提供产品型号、价格、简单说明,发货方式以物流为主。可留言或邮件联系。szpping@163.com,长期有效。
标签:
摘要:
JIS A型度数=0。975×邵尔A型硬度数,如JIS A型度数为60、70、80、90,则换算为邵尔A型度数相应为61.5,71.8,82,91.3
标签:
摘要:
混炼胶的质量问题及产生的原因很复杂,应根据具体情况进行分析,以便采用相应的措施进行改进。
标签:
摘要:
(1) 混炼过程的检查
(2) 混炼胶的检查
标签:
摘要:
旭龙公司技术部
史占平
二○○五年八月
标签:
摘要:
未注尺寸公差按GB/T1804-m
线性尺寸的极限偏差数值(GB/T1804-2000)
标签:
摘要:
德国标准DIN ISO 2768-1:1989(E)标准
标签:
摘要:
硫化橡胶的一般物理机械性能包括拉伸强度、定伸应力、拉断伸长率、永久变形、弹性、硬度、撕裂强度、耐磨耗性、抗压缩变形性、耐老化性、耐油性、耐化学药品性等
标签:
摘要:
中华人民共和国汽车行业标准
橡胶堵塞 QC/T624—1999
标签:
摘要:
中华人民共和国行业标准
SB/T10118—92
锤片粉碎机 锤片
标签:
摘要:
(HG6—669—83)
表3.1—8各组胶料的性能及工作条件
标签:
摘要:
中华人民共和国化工行业标准
酸碱用O形圈橡胶材料 HG 2181—91
标签:
摘要:
GB1235—76(外径) GB3452.1—82(内径
标签:
摘要:
未注公差尺寸极限偏差GB1804—1979
标签:
摘要:
第一部分:尺寸公差
第二部分:几何公差
标签:
摘要:
逐批检查计数抽样程序及抽样表
(适用于连续批的检查)
标签:
摘要:
一、材料的分类
二、技术要求
三、检验规则