IT大公司的壟斷(2)

 網絡, 評論  Comments Off on IT大公司的壟斷(2)
Jul 252011
 

在上一篇裏提到過百度,那麼這次就來講百度。在中國大陸使用百度的用戶極多,並且專做簡中搜索,許多簡中網站幾乎都繞着百度來轉。由於中國大陸的特殊性,因此百度亦同樣帶有明顯的「專制型官府特色」。更為嚴重的問題是,有些人認為這是可以接受的,甚至認為是必須、必備的,而且還要維護着百度。

百度的興起過程可謂一帆風順,有人覺得這不過是商業競爭而已,不過如果完全從純商業角度出發來看待的話,就會發現這過程中有嚴重的政府行為參與其中,百度的興起並非自由競爭的結果。

2000年—2003年期間,Google的服務幾乎就是中國大陸唯一的搜索服務。衆所周知,Google的搜索服務毫無限制,有什麼就顯示什麼,從來不過濾的(最近幾年加入了不良資訊過濾——僅限於黃色的——的功能),這就引發了一個大問題——大陸不喜歡。剛好,此時的百度開始成立公司進入市場運營了。

有些事情真的就那麼巧。就在這幾年,大陸的金盾工程建得如火如荼,GFW開始過濾境外網站,大陸用戶與Google之間的網絡連接被納入特殊過濾的控制當中。百度抓住這個機會與有關部門打交道,疏通關係之後的百度開始獲得扶持,Google被GFW干擾愈來愈頻繁,致使部份人以為Google的服務不穩定而轉向百度。

騰訊善於抄襲,百度同樣不例外。百度百科抄襲自維基百科,而且百度百科的詞條質素參差不齊,有些抄自維基百科、有些是網絡使用者自行新造、有些是來自於某些公司派人編撰。我個人看了下,百度百科的大多數技術資料都比較一般,至少不比維基百科好;而娛樂消息倒是一大堆介紹;廣告型描述數不勝數,比如「新浪微博」詞條的內容簡直就是廣告。同時,百度百科的詞條有一個通病:重複句子太多,讓人感覺好像是到處抄來拼合而成,未經整理、亂作一團。基本上可以說,百度百科用來查閱娛樂信息還不錯,技術、學術類就免了。

作為中文搜尋服務提供商,其中文搜尋能力本該不錯,百度自身的廣告詞就用過「百度更懂中文」。但我曾經做過試驗(《Google與百度之繁簡字識別》《Google與百度,誰更懂?》),最終發現百度懂的中文僅限於簡中,甚至在某些時候百度能找到的東西還不如Google。其原因很容易理解,一來技術本身就不如Google,二來是因為百度自身過濾了不少東西。

百度的衆多行為實質上有助於製造愚民,我見過有不少堅決維護當今統治者的人同時又是百度的堅決擁護者,他們不喜歡、不允許其他人在自己面前評論時政弊端、指出百度的過錯,總會跳出來拿其它國家、公司、他人的過錯來狡辯——似乎大陸的官員整天在做這種行為,很熟悉吧?更特別的是,這些人有不少還整天爬牆的。對於這類人,你覺得他們是什麼呢?

與微軟不同,微軟是靠實力獲得市場份額之後透過組成商業聯盟(例如Wintel)來達到共同壟斷,而不會(也不可能、不可以)要求或依仗政府的行政手段幫助來獲得壟斷(否則的話那是找死,會被法院弄得粉身碎骨)。相比之下微軟的行為能夠光明正大地擺上檯面,而百度則不可以(雖然已經有很多人知道)。

對於百度我實在不想講太多,它的行為已經遠超商業競爭,因為背後還涉及到政治。我之前已經評論過不少,請點此參看

Apr 082011
 

鑒于百度一直聲稱自己最懂中文,那好,今天我就來直接測試傳統中文的識別程度。例如,我要尋找「瞭解」是否爲「了解」的正體字寫法、「游」與「遊」的區別,一般來説我會直接輸入這幾個字詞,並在適當的位置用空格隔開。現在來看看百度和Google的表現。

「瞭解」與「了解」之Google:

看來還不錯,找到了我想要的資料。

再來看看百度:

真是令人無話可説的結果,百度這是怎麼回事,漢字都不會分嗎。

再來看看「游」「遊」兩個字的區別。繼續還是Google為先:

很好,需要找的資料直接出現在第一條。

那麼百度的表現又如何呢?來看看:

結果依然一樣,百度不懂區分。在結果面前無需多說,百度雖然認識漢字,但卻是個半文盲,對於正體字、繁體字一概不懂,查古書資料的話豈不是無法可查了,這還叫「最懂中文」?真是大笑話。

Apr 062011
 

百度經常用這段廣告語:「百度一下,你就知道」,於是引發出網民模仿出來的句子:「Google一下,你知道得太多了」。今天就被我碰到這種情況了,更令我想不到的是,居然與我的一篇文章有關係。

今天查看網站訪客瀏覽情況,居然被我發現有來自百度搜索的流量,搜索的關鍵詞是GosoSpider。跟過去一看更令我嚇一跳,百度搜索中居然衹有我的一篇文章!無需多說,有圖為証:(爲了公平起見,以下過程全部採用簡中版)

僅僅1個相關結果!那麼Google和Bing表現如何呢,來看看:

Google給出1570條結果,Bing給出38條結果,而百度卻僅僅給出1個!

也許有人會說Google是全球搜索,這樣對比不夠公平。那就讓Google衹保留中文結果,看看會怎樣:

即使衹保留中文結果,Google亦能找出1130條結果,而且還包括網易博客等純中文網站的内容。

這裡也出現了我的文章,不過不是唯一的一個。

一直以來,百度爲了爭奪市場採取各種各樣不正當競爭手法,最大的原因是百度技術不如Google。而這下真是全方位的體現,無論是自身技術,還是技術關鍵詞搜索,都不如Google。也難怪百度會這樣,一邊喊出「百度更懂中文」,一邊卻連繁簡字甚至普通漢字都不懂區分。對這樣的搜索引擎來講,要它有技術含量的確是有點爲難。

Google與百度的顯著差別

 評論  Comments Off on Google與百度的顯著差別
Mar 302011
 

最近一週,百度文庫侵權官司的新聞、消息連續不斷,幾乎滿街都有這次侵權案的報道。遠在地球另一側的Google亦有新動作,投資新技術用以突破網絡審查。

兩件事一對比,真是「天同地比」。百度最厲害的是什麼?誇張的宣傳、狹隘民族情緒式的口號、過濾搜索結果、收受金錢擾亂搜索結果、隨意侵權、爭議面前不負責任。再看看Google,幾乎不宣傳,人們就會自動去用他們的服務,搜索結果未經擾亂,並且搜索結果過濾功能是可以讓用戶自行開/關的(過濾黃色網站),Google Books嚴格控制版權內容,現在還幫助使用者突破網絡審查。

記得有這樣一條針對中國大陸的「公式」:Google用戶總數×Google用戶平均智商=Baidu用戶總數×Baidu用戶平均智商。
註釋:此處的「Google用戶」是指「Google的華人用戶」,百度同理。

百度爲了與Google競爭而不擇手段,不惜成爲全國最大的國内GFW,但居然有大量用戶依然喜歡用百度,那些百度狂熱者最喜歡做的是,用百度的個別優質服務作爲例子來以偏概全。而Google爲了提供完整信息,不惜撤離中國大陸,反而被大陸共產政府公開指責,更被衆多五毛、糞青、百度狂熱者參與謾駡。

現在Google同樣爲了提供完整信息,大力投資新技術幫助破網,維護用戶的合法使用權,讚!真希望該技術能儘快投入使用,有Google參與的話應該更有把握。當下大陸,流氓氣息遍地蔓延,無奈。

Mar 042011
 

昨天無意中看到《廣州日報》頭版刊登了一個消息,說是抗議淘寶與百度被美國列入惡名市場(Notorious Markets)。網上也有相關消息,毫無疑問,大陸媒體幾乎是一邊倒「譴責」美國,聲援淘寶、百度。

大陸媒體被控制作爲喉舌已經不是什麼新聞,大陸網民的愚民思維依然存在亦並不奇怪,於是我們能看到很多紅糞與五毛又再駡美國。缺乏獨立思考能力講出來的言論真是好笑,連百度那種劣跡斑斑的公司居然都能說它好話。淘寶還好,百度真的幫不上。

先說淘寶。

淘寶作為大陸最大的網上交易網站,現已變成不少假冒僞劣、盜版翻版銷售商的交易市場,但淘寶卻一直不採取行動、放任自流,被列入惡名市場那倒是理所當然的了。衹是淘寶這次真的是啞巴食黃連,有苦説不出。在大陸即使是實體市場,秩序混亂、翻版橫行、假冒僞劣遍地都是,而且還缺乏誠信、難以自律,因此網上虛擬店鋪的淘寶是不能幸免的,虛擬交易市場也依賴實體市場。而大陸的買家亦熱衷於購買翻版貨,衹因廉價。

不過淘寶再怎麼說也是國内首創C2C的網站之一了,在當時衆多交易網站中,各個交易網站各有自身風格。雖然淘寶其實也是抄ebay的。但不像騰訊拍拍,完全是照抄淘寶的,抄得幾乎一模一樣。即使騰訊再大力宣傳拍拍,人們現在一說網上購物時依然是先想到淘寶而不是拍拍。

再來講百度。

而百度呢,如果瞭解它的一些劣跡,就不會再爲它說好話,甚至不會再去用它。百度有兩大令人噁心的行爲:競價排名、人工干預搜索結果。

競價排名,即商家出錢給百度,百度覺得價格滿意的話就把商家的網站提到搜索結果的前幾名(通常在第一頁的搜索結果裏出現)。注意,競價排名是把網站放在搜索結果裏頭,而不是搜索結果上方的廣告,這樣用戶就會以爲那是正常搜索結果,不知道其實是廣告。這樣做就會打亂原先的公正排名,從而影響正常的網站競爭。換句話說,這種行爲等於變相賄賂百度,從而獲得不正當競爭的特權

人工干預搜索結果的方法有很多,競價排名是其中一種。除了競價排名,百度有一項很明顯的人工干預行爲。在百度搜索「SB」的時候,百度搜索結果的第一條是指向Google。對SEO稍有瞭解的都會看得出,Google網站並無「SB」這樣的字眼。很顯然,搜索結果受到了人工干預,人爲將Google放置在「SB」搜索結果的排頭。而且百度在搜索結果中總是刻意將自己旗下的百度貼吧、百度知道等内容放在搜索結果排頭的位置,而將Google旗下各個網站的内容抹掉。

與此相反,Google既不會競價排名也不會像百度那樣人工干預搜索結果,該顯示什麼就顯示什麼,按照算法執行。很簡單的一個例子,在Google搜索「SB」,第一條並不會指向百度,說明Google是「該做什麼就做什麼」。最可笑的是,愚民們在百度搜索「SB」看見Google的時候就拿來說事,以爲Google是傻的;看到Google搜索哦結果有百度旗下的服務,而百度搜索無Google旗下的内容,就以爲Google不如百度。殊不知,這些愚民纔是傻啊,百度耍流氓手段居然都看不出。愚民真是愚民,已經被洗腦洗得缺乏獨立判斷能力了。

還有一個人工干預的情況,那就是屏蔽敏感詞。只要搜索了敏感詞,百度就會顯示「根据相关法律法规和政策,部分搜索结果未予显示」。而Google是不會亦不願意去人工干預的。知道爲什麼Google會離開大陸轉至香港嗎?就是因爲Google不願意人工干預搜索結果。衹是這樣的話Google就會受到GFW干擾了。可以說,百度相當於GFW。

強烈建議離開中國大陸的大陸人士使用Internet搜尋的時候轉用Google搜索,不要再用百度搜索。——這裏僅僅是提倡別用百度搜索,而不是百度所有服務都不用。當然了,其實也是可以連百度所有服務都不用。

大陸三大搜尋器的表現令我要放棄一些原計劃了

 網站  Comments Off on 大陸三大搜尋器的表現令我要放棄一些原計劃了
Feb 262011
 

原本我想做一個cn.still-c.com,用途是訪客打開之後可以將我的網站内容顯示簡化字版,有利於搜索引擎的排名,可惜因爲LiteSpeed兼容性問題而無法建立。但是從現在起我這個想法改變了。

網站瀏覽記錄顯示,就在2月24日,搜尋器的爬蟲數量多達五千多個!而且又是搜狗、搜搜和百度,主要是搜狗和搜搜兩個最頻繁。這三個搜尋器耗費我的資源卻又不使用我的内容——從搜索引擎找過來的人不少,但全部都是Google引導的,而百度、搜狗、搜搜從來沒貢獻過。原因很簡單,正常情況下它們衹認簡化字,除非強行設定衹搜繁體中文。相反,Google有自由選擇權,一般情況下簡化字和正體字一律同等對待,衹要提供的信息有價值就沒問題,如果用戶有需要,可以自行選擇看哪種中文。

正因爲這樣,我完全放棄爲大陸搜尋器單獨設立簡化字入口,就保持現狀這個狀態。

附:以下是Google提供的語言過濾器和時間過濾器

昆蟲數量最多的大陸三大搜索引擎

 網絡  Comments Off on 昆蟲數量最多的大陸三大搜索引擎
Feb 222011
 

自從2月10日以來,我從網站管理頁就見到爬蟲來訪數量依然持續在兩千左右,並且情況稍微發生一點點變化,這次爬蟲最瘋狂的是sogou(搜狗),其次是騰訊soso(搜搜),百度反而排第三。

事實上,就算把本站從頭查到尾,衹不過是一百篇文章,即使算上重複連接,可供查找的數量依然不會多。可以這麼講,搜狗、搜搜、百度每天都來網站對所有内容都重新查找一邊。如果這三個搜尋器都將我的網站内容列出在他們的搜索結果中,我勉強還會接受。但由於搜狗、搜搜、百度在平常的搜尋結果中是排斥繁體字、正體字的,因此我真的無理由接受它們這樣亂查亂找。更何況,搜狗、搜搜的用戶量遠不如Google和百度,我無理由接受它們搗亂的行爲。

由於搜購狗、搜搜幾乎無視robot.txt(百度有時也會無視robot.txt),我想我該尋求其它方式拒絕它們了。

莫名其妙的大陸搜索引擎

 評論  Comments Off on 莫名其妙的大陸搜索引擎
Feb 162011
 

本blog建立之初的搜索引擎索引量一直不多,每天僅有一百多的爬行量。但在建立後的第三個星期,2010年12月中旬,搜索引擎爬行量突然上升到每天三四百,三天後恢復到每天一百多。接下來,每天的爬行量逐漸增多。但在2011年1月上旬,搜索引擎蜘蛛(機器人)爬行量突然從每天的兩三百上升到每天一千多,持續了三天。而最近七天又再出現相同的情況,並且更加嚴重,從2月10日開始一直到今天,機器人爬行量突然從平時的三四百上升到兩千多!

查看統計記錄,這些突然暴增的爬行量都是由百度、搜狗、搜搜在搞鬼,以百度最甚。但奇怪的是,我在這三個搜索引擎專門搜索過我的blog,發現文章收錄並不完整。相比之下,Google的爬行很穩定,並且還做到了全站完整收錄。

百度有個特點,他們的搜索算法經常調整。可以這麼說,一週一小調、一月一大調。儘管如此,百度的搜索結果的人工干預情況依然很嚴重,特別是競價排名,還要手工清理作弊站。一般來説,在百度尋找所需的内容,除非很熱門,否則總是要翻好幾頁纔能找到需想要找的内容。更不用說搜搜和搜狗了,這方面更差。與Google相比,國内搜索引擎的技術實力真是差得離譜,連Bing都不如,加之國内人工過濾搜索結果的情況嚴重。若不是墻的傾斜式公開暗中幫助、墻内搜索引擎使用煽動民族情緒的宣傳,那三個搜索引擎一開始就不會有立足之地。

但我有一點感覺很奇怪,似乎搜狗、搜搜、百度都在同一個時間段内調整搜索算法。難道說,又有新的過濾?