Apr 082011
 

鉴于百度一直声称自己最懂中文,那好,今天我就来直接测试传统中文的识别程度。例如,我要寻找「了解」是否为「了解」的正体字写法、「游」与「游」的区别,一般来说我会直接输入这几个字词,并在适当的位置用空格隔开。现在来看看百度和Google的表现。

「了解」与「了解」之Google:

看来还不错,找到了我想要的资料。

再来看看百度:

真是令人无话可说的结果,百度这是怎么回事,汉字都不会分吗。

再来看看「游」「游」两个字的区别。继续还是Google为先:

很好,需要找的资料直接出现在第一条。

那么百度的表现又如何呢?来看看:

结果依然一样,百度不懂区分。在结果面前无需多说,百度虽然认识汉字,但却是个半文盲,对于正体字、繁体字一概不懂,查古书资料的话岂不是无法可查了,这还叫「最懂中文」?真是大笑话。

Mar 122011
 

现在很多大陆人在表达「回答、回信」(Reply)等意思时,基本上都是使用「回复、答复」,于是在使用正体字、繁体字时往往变成「回复」、「答复」。但在港澳台、海外等使用非简化汉字的地方,都是使用「回复」、「答复」。哪个对呢?

来看看《简化字总表》(1986年版)的说明是怎样写的:「原《简化字总表》中的个别字,作了调整。“叠”、“覆”、“像”、“囉”不再作“迭”、“复”、“象”、“罗”的繁体字处理。因此,在第一表中删去“迭〔叠〕”、“象〔像〕”,“复”字字头下删去繁体字〔覆〕。」

答案已经出来了,「回复」、「答复」才是正确的,即使是用简化字也依然该用「回复」、「答复」,不应再用「回复」、「答复」,因此更不应该使用「回复」、「答复」这样的错误用法。

这样改,很显然他们已经发现将「覆」合并到「复」带来了很大麻烦。比如「覆盖」、「复盖」,这两个词的意思完全不同。「覆盖」(覆蓋)是将某物放在另一物的上方盖住;「复盖」(复盖)即「复建」(复建),是指恢复兴建、重新建造。按照第一版《简化字总表》的话都是「复盖」,很显然会造成理解错误。例句:“该地停工工地的地基即被复盖”,如果按照之前的用法,该句子可以理解为「该地基将会继续建设」,以及「该地基将会被其它东西填埋掩盖」。即使按照现在的简化字方案,「复」字仍然代表两种意思:「复」与「复」,因此「复盖」亦可指「复盖」,即重复建设,虽然很少这样用,但亦容易引起误会。

几十年来,简化字不断调整,原先被废除的字又再重新恢复使用,很显然是知道了简化字并不合理,但又不敢恢复正体字,因为那样等于自我否定,唯有一小步一小步地有限恢复。


2012年4月4日补充:在粤语中,「复」与「覆」读音并不一致。「复」为fuk6, 「覆」 为fuk1。粤语人士口头表达Reply之意的时候不会读 成「回复」,而是 「回复」。使用国语的时候或多或少会因读音问题引致混用,但只要使用粤语一读,就可以使用法变得清晰。

Mar 032011
 

昆仑山是我国大陆地区著名的山脉,「西起帕米尔高原,向东延伸至四川省西北部,介于塔里木盆地、柴达木盆地及藏北高原之间。长约2500公里,海拔高度为5500至6000公尺。」

从名字上看,「昆仑」二字给人一看就明白,这是山,猜也猜得到。即使是初学中文(正体繁体)的外国人也容易从字面上猜得到。简化字不管三七二十一,将这两个字简化成「昆仑」。单从字面上来讲,如果不是事先告知的话,这很容易被人误解为「昆仑」是一个新的东西,而不是山。

提到昆仑山的唐诗:

唐·李贺 日出行
白日下昆仑,发光如舒丝。
徒照葵藿心,不照游子悲。
折折黄河曲,日从中央转。
旸谷耳曾闻,若木眼不见。
奈何铄石,胡为销人。
羿弯弓属矢那不中,足令久不得奔,讵教晨光夕昏。

Feb 082011
 

一到别人家,一般都会看到两样东西:日历、通胜。当然还有一样最常见的:利是封。就是这几样物品,我发现一些明显的错别字。

最明显的就是「历」「历」不分,总是被简化字“历”影响。由此带来最常见的错误是,将「农历」「日历」写成「农历」「日历」,将「历史」写成「历史」,如果真要按照「历」与「历」的字意去直接理解的话,会导致意思全变。

还有一个应该属于受到简化字印刷标准的影响而印错字。例如带「呙」的字,比如「过」「锅」;带「骨」的字,比如「体」「髓」,通通有小错误。文字描述不容易讲清楚,所以直接附图:

注意看,就会发现一些问题了。

中文简体字与大陆简化字的区别与关系

 中文  Comments Off on 中文简体字与大陆简化字的区别与关系
Jan 312011
 

可能有人会困惑,简体字与简化字不就是同一个东西吗,为甚么会有区别呢。实际上,就连中文系的学生有时也会把简体字与简化字说成是同一东西,其实他们自己是知道简化字与简体字的关系,不过是说顺口一时改不过来而已。本文就来揭示简化字与简体字的区别。

近年来由于有政协委员提出要恢复繁体字,结果就有人跳出来写「国民政府也曾经推行过简体字」的神话网帖,并引起前几年大陆网的激烈争论。那到底是怎么回事呢,看下去就明白了。

何谓简体字

简体字来自民间的俗体字、异体字、草书等文字、写法中,与正规正体字相比而言笔画数较少、字形有一定变化的非主流二等汉字。虽然简体字古已有之,但从来未获得过正式认可,因此官方的正式文书中都不会出现大量的简体字。

也就是说,简体字仅仅是一种为了快速书写而私下使用的「懒人字」, 这种简约写法后来逐步约定俗成。

何谓简化字

简化字是20世纪50年代中后期临时制定出来的一种特殊文字。在当时的「人民代表大会」讨论上已经说得很明白:立刻将汉字转换成拼音文字,技术上的难点难以克服,人民的反对也比较强烈。所以必须先将汉字简化掉一部分,然后再根据推行情况而进一步简化,直至人民适应拼音文字。本来反对者众多,不过后来都被强力残忍的手段压了下去。

由此可见,简化字不过是汉字拼音化的过渡产物。最有力的证明便是后来还曾经推行过的「二简字」,好在此时反对者更多,并且民间胡乱私自简化汉字,最终「二简字」被废除。

简体字与简化字的区别和关系

简化字与简体字的主要区别和关系如下:

1、简化字发明了一些笔画和部首。
2、简化字自创了一些新字。
3、简化字合并了一些字。

如果想说「简化字的某某字早已有之」,那么就属于这两种情况:

1、简化字抄用了部分古字。
2、简化字照搬部分简体字。

也就是说,简化字并非简体字。简体字有的,简化字可能会有;简化字发明的笔画、部首、新字,是不会在简体字中找到的。

我知道有很多人想用「民国推行过简体字」,或者「平时一直就叫『简体字』,所以两者是一样的」这样的话来证明立场。现在一一揭开谜团。

大陆的法律与字典中已经明确写着,那叫「简化字」、「简化汉字」,而不叫「简体字」。如果不信,可以参考这些法律、字典、资料:《新华字典》、《简化字总表》、《简化字总表说明》、《汉字使用管理规定》、《中华人民共和国国家通用语言文字法》、《中国文字沿革史》、《现代汉语通用字表》、《语言文字法实行办法》。 这些资料随处可找,书店有,网上也有。

我引用一位网民所写的内容就知道为何要列出这些资料了:

作为堂堂一个政权的法律法规体系对各类名词的概念和定义理所当然是要很清晰的,会尽量避免存在词义解释的模棱两可或一词多义的情况。如果简化字就是简体字,那么法律条文上一定会很明确地指出和说明,而且会严格区分两个名词的使用场合。

国民政府的《简体字表》

当时的简体字表,仅仅是收集、整理民间流传的简体字,并未推广使用,亦未曾像推广简化字那样去强制使用,甚至连「建议使用」的行为都无。 这里我继续再引用网文:

这个问题分析起来很容易,我只提出几个问题供大家思考:

1、国民政府的收录、整理工作是否等于「国民政府发明」?查遍那个神话帖子,里面没有提到国民政府发明了简体字,而只是提到了「推行」。事实上国民政府根本不可能发明简体字,因为那是古代就有的东西,怎么能在20世纪发明呢?

2、「公布和推行」的词义也很模糊,到底是公布自己的发明,还是公布已经收录和整理完毕的民间资料呢?简体字来自异体字、草书、俗体字,长期以来都是比较混乱的,系统化的整理工作当然是正常的。

3、那个帖子中说曾有所谓《各省市教育行政机关推行部颁简体字办法》。我想请问,这个《办法》到底是法律还是行政规定?这个办法是针对公务机关还是面对全体人民?

4、那个神话帖子最后说不到一年国民政府就撤销了《简体字表》。好,这种撤销行为说明了甚么?一条政策错误就马上改正,正说明当时的政府只是抱着试验的心态来做事的。

5、从现有的史料来看,简化字粉丝能否拿出国民政府用政府的名义召集了知识分子发明简体字的证据?而简化字的发明工作是铁证如山的,人大的会议记录和当时的报章和政府的通知都是有据可查的。

把「发明简化字」这帽子扣到别人头上,是否说明其实自己也知道简化字不对?答案不言而喻。

Jan 282011
 

对于将现行国语(普通话,Mandrin)作为母语的人来说,简化字虽然也会影响到部分读音,不过影响不算大。不过对于其他中文语言的使用者而言问题就比较明显了,例如粤语。

例子一,借、藉

在正统表达方式中,如果要表达「以某事为理由」(use as an excuse),使用的是「借口」。而简化字被改成用「借口」。从国语读音来看的话,的确是读成「借口」,但对于粤语来说就不是了。在粤语中,「借口」不会被读作「借口」,依然保持「藉」的读音。

例子二,松、松

这两个字意思不同,但对于国语而言读音一样,有可能就是被简化的原因。不过在粤语中,这两个字读音是不同的。粤语中「松」读音同「虫」,而「松」的读音与国语一致。「松」字被简化成「松」之后就引发出部分人读错音的问题,并导致理解错误。比如这句话:

𠮶块木板有啲松(那块木板有点松)

「松」字被简化成「松」后,会被一些粤语发音不准的人读成

𠮶块木板有啲松(那块木板有点松)

刚才已经说过,粤语中「松」读音同「虫」,由此会被聼

𠮶块木板有啲虫(那块木板有点虫)

听到的人会理解成「木板有蛀虫」,意思完全变了!

例子三,只、只、只

「只」与「只」两个字意思不同,但国语中读音相近,可能就是被简化的原因。不过在粤语中,这两个字读音依然是不同的。粤语中「只」读音同「纸」,而「只」的读音[JEK](粤语拼音),聼起来像英文的「Jack」不发「ck」音。由此容易导致朗读书面语时读错字(特别是在换行位置出现该字),以至聼的人无法理解。

写在结尾

还有很多类似的例子,这里就不一一列出了。

粤语书面表达古已有之,但因近年来大规模推广简化字,导致越来越多人不知道如何用书面语写粤语,会写的人用错字的情况非常普遍,这是因为简化字在废除正体字的时候引致依托正体字而存在的粤语字被同时废除了。

正是由于简化字并不适合粤语,而且使用电脑输入中文时都是一样快的,我最终放弃使用简化字,重新使用传承字。

Jan 062011
 

虽然我的网站开站还不到两个月,不过从流量统计器来看,已经发现一些很特别的地方。

由于我用的文字是传统中文(即正体、繁体中文),因此从搜索引擎引导过来的流量全部都是来自Google。既有.com.hk的,亦有.com.tw的,其中.com.tw全部都是正体字搜索,而.com.hk有繁体亦有简体。总体来讲,无论正体抑或简体,流量基本上对半分。我看过那些引导过来的查询字词,在Google的搜索查询结果中,都是正简混合的,除非用户限定只搜索某种中文。看来Google对中文都是一视同仁的。

而看看百度、搜搜等大陆搜索引擎,全部清一色偏向简体字,对繁体网站一律say no,除非用户自行选择语种。

难道说百度不喜欢我的站?那倒似乎不是,流量记录器告诉我,百度整天来访读取内容,而且一次一大堆,有时候甚至对同一页读完又读。不过,据说很多网站都说百度本来就如此,我想我可以叫它做“百度特色”。相比之下,Google和搜搜的流量很稳定,每天都差不多,并且都能做到完整收录。

这件事透露了一个信息:Google更加公平、公正,技术实力强大;百度等大陆搜索引擎不但技术差,而且戴有色眼镜。

Nov 262010
 

本站使用了wp-chinese-conversion插件,实现自动转换中文的功能。这样的话,即时我一直都用传统字写文章,访客照样可以用简体中文去阅读。不过这样就出现了一个比较麻烦的问题:搜索引擎都会将繁体中文和简体中文区分对待,在搜素引擎上寻找的时候,我的网站会被“认为”是繁体中文,于是乎,用简体中文的人就不一定找到我的内容了。

我查过wp-chinese-conversion插件的描述,它说对于转换过的内容都会noindex,以免被重复收录。因此就需要对插件做小修改了。

打开plugins/wp-chinese-conversion/wp-chinese-conversion.php,找到这段:

else
    echo '<meta name="robots" content="noindex,follow" />';

把它修改成

else if( $wpcc_target_lang == 'zh-hans' || $wpcc_target_lang == 'zh-cn' )
    return;
else
    echo '<meta name="robots" content="noindex,follow" />';

起判断作用的是
$wpcc_target_lang == 'zh-hans' || $wpcc_target_lang == 'zh-cn'
它用来判断现时页面的语言,若符合就直接return。可以按照实际情况修改,比如祗保留 'zh-cn' 或祗保留 'zh-hans'。
因为我仅用了'zh-hans',所以是否去掉'zh-cn'都无所谓。

这样修改之后,不管是单独搜索繁体还是单独搜索简体,都能找到相同的地方。

BTW:相比其其它翻译插件,wp-chinese-conversion功能更强大,而且速度不错,词汇翻译也比较专业,它能够根据大陆、港澳、台湾的用词不同而作不同的转换。在IT用语方面,我个人采用部份大陆词汇+部份香港词汇混用(广东人一般都明)。