怎么“啰嗦”这个词里的“啰”字是GBK字,而“嗦”字不是……
五笔吧
全部回复
仅看楼主
level 15
今天打“啰嗦”这个词,搞了半天才发现前一个字是GBK字……难道这个词有别的写法?
2013年08月03日 16点08分 1
level 13
消灭十点大哥的零回复!
2013年08月03日 16点08分 2
2013年08月04日 00点08分
level 10
觉得这里面说得不错:
http://zhidao.baidu.com/question/124610386.html
微软拼音是“罗嗦”与“啰嗦”都有,但“罗嗦”列在前面:
查字典发现现在的最标准写法应是“啰唆”,也作“啰嗦”,而“罗嗦”已被除名:
注:上面的PDF电子字典是第五版,不是最新版,最新的是第六版,网上还找不到电子版的。此PDF电子版有书签,容易使用,如果感兴趣,可以下载“现代汉语词典-[中文第五版, 商务印书馆, 第一版标签, 2013年2月23日]”(http://ishare.iask.sina.com.cn/f/35843467.html)。
所以一切还得向最新的字典、国家和国际的标准看齐啊,这一点王码公司的新世纪五笔值得肯定。产品对标准的遵守可能会滞后,但一定要有紧跟标准的意识,否则日积月累,太多的不标准会带来可迁移性方面的问题,终将被淘汰。
2013年08月03日 16点08分 3
啰嗦、啰唆,是异形词关系,但目前多数输入法似乎都推荐前者。我没仔细考证哪个更合理或权威,所以山人输入法暂时也随大流首选啰嗦,次选啰唆,三选罗嗦。
2013年08月04日 09点08分
level 10
因为当初简化字把啰字与罗字合并了,所以一度只有“罗嗦”这个写法。GB2312字集也没收录“啰”字。
1986简化字公布了修正方案,恢复了几个被不合理简化的字,如啰、覆、叠等字。
从此,“啰嗦”又变为规范写法了。
但电脑还是打不出,直到“啰”字被后续的GBK字集收录后,才可以正常打出。所以目前“罗嗦”一词还残存在一些输入法和一些人的习惯里。
类似过度简化的字还很多,比如,恶心的恶、叮当的当、啰哩啰嗦的哩、丁冬(叮咚),等等,都是把口旁省略没了。
2013年08月03日 17点08分 4
level 10
输入法根本不应该根据GB或GBK来设置开关,而应该根据实际使用频度来设置选项。
山人输入法就是这样设计的。默认时支持1万个汉字左右,打开超大字集后支持近8万字左右。
因为一般使用者并不知道哪些字属于GBK。强制划分势必导致经常有人打不出某些常见字,进而误以为输入法里没有这个字。比如“囧、啰、〇”这类的字,就应该默认模式可以打出才是合理的设计。
2013年08月04日 09点08分 9
字频啊字频……规范啊规范……很难一致的……
2013年08月04日 10点08分
回复 时间奇点000 : 没必要一致,感觉有用的就收录。就好比编一本字典一样,谁规定哪些字能收,哪些不能收?还不是靠编撰者自己把握。输入法也是,即便“囧”不是国家规范汉字,因为大众有用,我就会收录。即便某个字不在默认字集中,打过一次后也可以让它自动进入默认字集。山人输入法就是这样。
2013年08月04日 11点08分
回复 时间奇点000 : 后来有些输入法改进为:若遇到空码则检索GBK。虽然有进步,但是其实只进化了一半。比如万一某个常见的GBK字有重码,照样打不出。所以以重码来决定要不要出GBK字,并不是最佳依据,反而不如直接把GBK里有用的字直接加到默认字集中,而6763字中个别无用字,则可以赶到扩充字集中。
2013年08月04日 11点08分
山人的观点是对的,日常生活和工作用的输入法,最好默认支持GB18030字集。如果只是为了打赛文,可以只用gb2312字集。
2013年08月04日 12点08分
level 15
@山人通用 :大神,你对输入法太有想法了,我曾在极点吧里问过不定码长的问题,在这儿见到了,我曾想过字集分级的问题,也见到了,我还有个想法,就是五笔的字根在面对GBK以上字集的时候不够大的问题,比如cnh开头的主要是“予、矛”部首的字,我在自己用的字库里把“予”部首改成cn,“矛”部首改成ch,(现在只是改了GB2312里的)结果是不错,重码少了许多,我把这种做法叫“缩码法”,我又看了下GBK以上字集的多字根字,大约有七十多个部首,我也想用这种缩码法来改一改,把五笔没有利用上的编码空间用上,这种办法再加上前面的字集分级,应该是可以解决大部分重码的问题,但是没有做过,不知道深浅,理论上应该有改善,如果改善还是不行,那就只有用不定码长的办法治根了,不定码长的有个优点是如果的后面再有五十万的字,也是可以做到基本无重码,只要有好字根,效率不会差!
2013年08月04日 16点08分 10
太晚了,大家都休息吧![星星月亮]
2013年08月04日 17点08分
五笔设计时并没想到今天有7万多汉字需要考虑,当时能解决6千多就很了不起了。虽然后来大家把它扩展到7万多里使用,但也只能是勉为其难,算是可以输入,不会太好用。一个是部分繁体字根非官方增补,一个是五笔的小字根方案在大字符集下会遇到很多重码,还有就是一些奇怪的字或歧义不好处理。
2013年08月04日 17点08分
山人全息码一开始就基于7万多汉字分析统计。字根基本上都是传统部首以及必要的一些声旁。“矛”和“予”都是山人字根,不会被肢解成碎片。所以遇到这种字不费脑。
2013年08月04日 17点08分
你若是在五笔基础上优化、改进,可能会比较吃力。因为需要修改的地方太多。我有基础拆分数据库,都没兴趣对五笔做改进。只跟郑码网友承诺过到时会做一个山人规则的郑码(即郑码字根+山人的取码规则)。五笔我会挂进山人平台,我会以最主流的码表为基础做少量调整,但不会做大的优化,因为会吃力不讨好
2013年08月04日 17点08分
1