IT大公司的垄断(2)

 网络, 评论  Comments Off on IT大公司的垄断(2)
Jul 252011
 

在上一篇里提到过百度,那么这次就来讲百度。在中国大陆使用百度的用户极多,并且专做简中搜索,许多简中网站几乎都绕着百度来转。由于中国大陆的特殊性,因此百度亦同样带有明显的「专制型官府特色」。更为严重的问题是,有些人认为这是可以接受的,甚至认为是必须、必备的,而且还要维护着百度。

百度的兴起过程可谓一帆风顺,有人觉得这不过是商业竞争而已,不过如果完全从纯商业角度出发来看待的话,就会发现这过程中有严重的政府行为参与其中,百度的兴起并非自由竞争的结果。

2000年—2003年期间,Google的服务几乎就是中国大陆唯一的搜索服务。众所周知,Google的搜索服务毫无限制,有什么就显示什么,从来不过滤的(最近几年加入了不良资讯过滤——仅限于黄色的——的功能),这就引发了一个大问题——大陆不喜欢。刚好,此时的百度开始成立公司进入市场运营了。

有些事情真的就那么巧。就在这几年,大陆的金盾工程建得如火如荼,GFW开始过滤境外网站,大陆用户与Google之间的网络连接被纳入特殊过滤的控制当中。百度抓住这个机会与有关部门打交道,疏通关系之后的百度开始获得扶持,Google被GFW干扰愈来愈频繁,致使部份人以为Google的服务不稳定而转向百度。

腾讯善于抄袭,百度同样不例外。百度百科抄袭自维基百科,而且百度百科的词条质素参差不齐,有些抄自维基百科、有些是网络使用者自行新造、有些是来自于某些公司派人编撰。我个人看了下,百度百科的大多数技术资料都比较一般,至少不比维基百科好;而娱乐消息倒是一大堆介绍;广告型描述数不胜数,比如「新浪微博」词条的内容简直就是广告。同时,百度百科的词条有一个通病:重复句子太多,让人感觉好像是到处抄来拼合而成,未经整理、乱作一团。基本上可以说,百度百科用来查阅娱乐信息还不错,技术、学术类就免了。

作为中文搜寻服务提供商,其中文搜寻能力本该不错,百度自身的广告词就用过「百度更懂中文」。但我曾经做过试验(《Google与百度之繁简字识别》《Google与百度,谁更懂?》),最终发现百度懂的中文仅限于简中,甚至在某些时候百度能找到的东西还不如Google。其原因很容易理解,一来技术本身就不如Google,二来是因为百度自身过滤了不少东西。

百度的众多行为实质上有助于制造愚民,我见过有不少坚决维护当今统治者的人同时又是百度的坚决拥护者,他们不喜欢、不允许其他人在自己面前评论时政弊端、指出百度的过错,总会跳出来拿其它国家、公司、他人的过错来狡辩——似乎大陆的官员整天在做这种行为,很熟悉吧?更特别的是,这些人有不少还整天爬墙的。对于这类人,你觉得他们是什么呢?

与微软不同,微软是靠实力获得市场份额之后透过组成商业联盟(例如Wintel)来达到共同垄断,而不会(也不可能、不可以)要求或依仗政府的行政手段帮助来获得垄断(否则的话那是找死,会被法院弄得粉身碎骨)。相比之下微软的行为能够光明正大地摆上台面,而百度则不可以(虽然已经有很多人知道)。

对于百度我实在不想讲太多,它的行为已经远超商业竞争,因为背后还涉及到政治。我之前已经评论过不少,请点此参看

Apr 082011
 

鉴于百度一直声称自己最懂中文,那好,今天我就来直接测试传统中文的识别程度。例如,我要寻找「了解」是否为「了解」的正体字写法、「游」与「游」的区别,一般来说我会直接输入这几个字词,并在适当的位置用空格隔开。现在来看看百度和Google的表现。

「了解」与「了解」之Google:

看来还不错,找到了我想要的资料。

再来看看百度:

真是令人无话可说的结果,百度这是怎么回事,汉字都不会分吗。

再来看看「游」「游」两个字的区别。继续还是Google为先:

很好,需要找的资料直接出现在第一条。

那么百度的表现又如何呢?来看看:

结果依然一样,百度不懂区分。在结果面前无需多说,百度虽然认识汉字,但却是个半文盲,对于正体字、繁体字一概不懂,查古书资料的话岂不是无法可查了,这还叫「最懂中文」?真是大笑话。

Apr 062011
 

百度经常用这段广告语:「百度一下,你就知道」,于是引发出网民模仿出来的句子:「Google一下,你知道得太多了」。今天就被我碰到这种情况了,更令我想不到的是,居然与我的一篇文章有关系。

今天查看网站访客浏览情况,居然被我发现有来自百度搜索的流量,搜索的关键词是GosoSpider。跟过去一看更令我吓一跳,百度搜索中居然只有我的一篇文章!无需多说,有图为証:(为了公平起见,以下过程全部采用简中版)

仅仅1个相关结果!那么Google和Bing表现如何呢,来看看:

Google给出1570条结果,Bing给出38条结果,而百度却仅仅给出1个!

也许有人会说Google是全球搜索,这样对比不够公平。那就让Google只保留中文结果,看看会怎样:

即使只保留中文结果,Google亦能找出1130条结果,而且还包括网易博客等纯中文网站的内容。

这里也出现了我的文章,不过不是唯一的一个。

一直以来,百度为了争夺市场采取各种各样不正当竞争手法,最大的原因是百度技术不如Google。而这下真是全方位的体现,无论是自身技术,还是技术关键词搜索,都不如Google。也难怪百度会这样,一边喊出「百度更懂中文」,一边却连繁简字甚至普通汉字都不懂区分。对这样的搜索引擎来讲,要它有技术含量的确是有点为难。

Google与百度的显著差别

 评论  Comments Off on Google与百度的显著差别
Mar 302011
 

最近一周,百度文库侵权官司的新闻、消息连续不断,几乎满街都有这次侵权案的报道。远在地球另一侧的Google亦有新动作,投资新技术用以突破网络审查。

两件事一对比,真是「天同地比」。百度最厉害的是什么?夸张的宣传、狭隘民族情绪式的口号、过滤搜索结果、收受金钱扰乱搜索结果、随意侵权、争议面前不负责任。再看看Google,几乎不宣传,人们就会自动去用他们的服务,搜索结果未经扰乱,并且搜索结果过滤功能是可以让用户自行开/关的(过滤黄色网站),Google Books严格控制版权内容,现在还帮助使用者突破网络审查。

记得有这样一条针对中国大陆的「公式」:Google用户总数×Google用户平均智商=Baidu用户总数×Baidu用户平均智商。
注释:此处的「Google用户」是指「Google的华人用户」,百度同理。

百度为了与Google竞争而不择手段,不惜成为全国最大的国内GFW,但居然有大量用户依然喜欢用百度,那些百度狂热者最喜欢做的是,用百度的个别优质服务作为例子来以偏概全。而Google为了提供完整信息,不惜撤离中国大陆,反而被大陆共产政府公开指责,更被众多五毛、粪青、百度狂热者参与谩骂。

现在Google同样为了提供完整信息,大力投资新技术帮助破网,维护用户的合法使用权,赞!真希望该技术能尽快投入使用,有Google参与的话应该更有把握。当下大陆,流氓气息遍地蔓延,无奈。

Mar 042011
 

昨天无意中看到《广州日报》头版刊登了一个消息,说是抗议淘宝与百度被美国列入恶名市场(Notorious Markets)。网上也有相关消息,毫无疑问,大陆媒体几乎是一边倒「谴责」美国,声援淘宝、百度。

大陆媒体被控制作为喉舌已经不是什么新闻,大陆网民的愚民思维依然存在亦并不奇怪,于是我们能看到很多红粪与五毛又再骂美国。缺乏独立思考能力讲出来的言论真是好笑,连百度那种劣迹斑斑的公司居然都能说它好话。淘宝还好,百度真的帮不上。

先说淘宝。

淘宝作为大陆最大的网上交易网站,现已变成不少假冒伪劣、盗版翻版销售商的交易市场,但淘宝却一直不采取行动、放任自流,被列入恶名市场那倒是理所当然的了。只是淘宝这次真的是哑巴食黄连,有苦说不出。在大陆即使是实体市场,秩序混乱、翻版横行、假冒伪劣遍地都是,而且还缺乏诚信、难以自律,因此网上虚拟店铺的淘宝是不能幸免的,虚拟交易市场也依赖实体市场。而大陆的买家亦热衷于购买翻版货,只因廉价。

不过淘宝再怎么说也是国内首创C2C的网站之一了,在当时众多交易网站中,各个交易网站各有自身风格。虽然淘宝其实也是抄ebay的。但不像腾讯拍拍,完全是照抄淘宝的,抄得几乎一模一样。即使腾讯再大力宣传拍拍,人们现在一说网上购物时依然是先想到淘宝而不是拍拍。

再来讲百度。

而百度呢,如果了解它的一些劣迹,就不会再为它说好话,甚至不会再去用它。百度有两大令人恶心的行为:竞价排名、人工干预搜索结果。

竞价排名,即商家出钱给百度,百度觉得价格满意的话就把商家的网站提到搜索结果的前几名(通常在第一页的搜索结果里出现)。注意,竞价排名是把网站放在搜索结果里头,而不是搜索结果上方的广告,这样用户就会以为那是正常搜索结果,不知道其实是广告。这样做就会打乱原先的公正排名,从而影响正常的网站竞争。换句话说,这种行为等于变相贿赂百度,从而获得不正当竞争的特权

人工干预搜索结果的方法有很多,竞价排名是其中一种。除了竞价排名,百度有一项很明显的人工干预行为。在百度搜索「SB」的时候,百度搜索结果的第一条是指向Google。对SEO稍有了解的都会看得出,Google网站并无「SB」这样的字眼。很显然,搜索结果受到了人工干预,人为将Google放置在「SB」搜索结果的排头。而且百度在搜索结果中总是刻意将自己旗下的百度贴吧、百度知道等内容放在搜索结果排头的位置,而将Google旗下各个网站的内容抹掉。

与此相反,Google既不会竞价排名也不会像百度那样人工干预搜索结果,该显示什么就显示什么,按照算法执行。很简单的一个例子,在Google搜索「SB」,第一条并不会指向百度,说明Google是「该做什么就做什么」。最可笑的是,愚民们在百度搜索「SB」看见Google的时候就拿来说事,以为Google是傻的;看到Google搜索哦结果有百度旗下的服务,而百度搜索无Google旗下的内容,就以为Google不如百度。殊不知,这些愚民才是傻啊,百度耍流氓手段居然都看不出。愚民真是愚民,已经被洗脑洗得缺乏独立判断能力了。

还有一个人工干预的情况,那就是屏蔽敏感词。只要搜索了敏感词,百度就会显示「根据相关法律法规和政策,部分搜索结果未予显示」。而Google是不会亦不愿意去人工干预的。知道为什么Google会离开大陆转至香港吗?就是因为Google不愿意人工干预搜索结果。只是这样的话Google就会受到GFW干扰了。可以说,百度相当于GFW。

强烈建议离开中国大陆的大陆人士使用Internet搜寻的时候转用Google搜索,不要再用百度搜索。——这里仅仅是提倡别用百度搜索,而不是百度所有服务都不用。当然了,其实也是可以连百度所有服务都不用。

大陆三大搜寻器的表现令我要放弃一些原计划了

 网站  Comments Off on 大陆三大搜寻器的表现令我要放弃一些原计划了
Feb 262011
 

原本我想做一个cn.still-c.com,用途是访客打开之后可以将我的网站内容显示简化字版,有利于搜索引擎的排名,可惜因为LiteSpeed兼容性问题而无法建立。但是从现在起我这个想法改变了。

网站浏览记录显示,就在2月24日,搜寻器的爬虫数量多达五千多个!而且又是搜狗、搜搜和百度,主要是搜狗和搜搜两个最频繁。这三个搜寻器耗费我的资源却又不使用我的内容——从搜索引擎找过来的人不少,但全部都是Google引导的,而百度、搜狗、搜搜从来没贡献过。原因很简单,正常情况下它们只认简化字,除非强行设定只搜繁体中文。相反,Google有自由选择权,一般情况下简化字和正体字一律同等对待,只要提供的信息有价值就没问题,如果用户有需要,可以自行选择看哪种中文。

正因为这样,我完全放弃为大陆搜寻器单独设立简化字入口,就保持现状这个状态。

附:以下是Google提供的语言过滤器和时间过滤器

昆虫数量最多的大陆三大搜索引擎

 网络  Comments Off on 昆虫数量最多的大陆三大搜索引擎
Feb 222011
 

自从2月10日以来,我从网站管理页就见到爬虫来访数量依然持续在两千左右,并且情况稍微发生一点点变化,这次爬虫最疯狂的是sogou(搜狗),其次是腾讯soso(搜搜),百度反而排第三。

事实上,就算把本站从头查到尾,只不过是一百篇文章,即使算上重复连接,可供查找的数量依然不会多。可以这么讲,搜狗、搜搜、百度每天都来网站对所有内容都重新查找一边。如果这三个搜寻器都将我的网站内容列出在他们的搜索结果中,我勉强还会接受。但由于搜狗、搜搜、百度在平常的搜寻结果中是排斥繁体字、正体字的,因此我真的无理由接受它们这样乱查乱找。更何况,搜狗、搜搜的用户量远不如Google和百度,我无理由接受它们捣乱的行为。

由于搜购狗、搜搜几乎无视robot.txt(百度有时也会无视robot.txt),我想我该寻求其它方式拒绝它们了。

莫名其妙的大陆搜索引擎

 评论  Comments Off on 莫名其妙的大陆搜索引擎
Feb 162011
 

本blog建立之初的搜索引擎索引量一直不多,每天仅有一百多的爬行量。但在建立后的第三个星期,2010年12月中旬,搜索引擎爬行量突然上升到每天三四百,三天后恢复到每天一百多。接下来,每天的爬行量逐渐增多。但在2011年1月上旬,搜索引擎蜘蛛(机器人)爬行量突然从每天的两三百上升到每天一千多,持续了三天。而最近七天又再出现相同的情况,并且更加严重,从2月10日开始一直到今天,机器人爬行量突然从平时的三四百上升到两千多!

查看统计记录,这些突然暴增的爬行量都是由百度、搜狗、搜搜在搞鬼,以百度最甚。但奇怪的是,我在这三个搜索引擎专门搜索过我的blog,发现文章收录并不完整。相比之下,Google的爬行很稳定,并且还做到了全站完整收录。

百度有个特点,他们的搜索算法经常调整。可以这么说,一周一小调、一月一大调。尽管如此,百度的搜索结果的人工干预情况依然很严重,特别是竞价排名,还要手工清理作弊站。一般来说,在百度寻找所需的内容,除非很热门,否则总是要翻好几页才能找到需想要找的内容。更不用说搜搜和搜狗了,这方面更差。与Google相比,国内搜索引擎的技术实力真是差得离谱,连Bing都不如,加之国内人工过滤搜索结果的情况严重。若不是墙的倾斜式公开暗中帮助、墙内搜索引擎使用煽动民族情绪的宣传,那三个搜索引擎一开始就不会有立足之地。

但我有一点感觉很奇怪,似乎搜狗、搜搜、百度都在同一个时间段内调整搜索算法。难道说,又有新的过滤?