Google 的信任指數 TrustRank

” Web spam pages use various techniques to achieve higher-than-deserved rankings in a search engine’s results. While human experts can identify spam, it is too expensive to manually evaluate a large number of pages. Instead, we propose techniques to semi-automatically separate reputable, good pages from spam. We first select a small set of seed pages to be evaluated by an expert. Once we manually identify the reputable seed pages, we use the link structure of the web to discover other pages that are likely to be good. In this paper we discuss possible ways to implement the seed selection and the discovery of good pages. We present results of experiments run on the World Wide Web indexed by AltaVista and evaluate the performance of our techniques. Our results show that we can effectively filter out spam from a significant fraction of the web, based on a good seed set of less than 200 sites.”
這一段是,凡談到 Google 的信任指數 TrustRank,就會被人們引用的經典文字。大意是說 : “垃圾頁面經常使用多樣的作弊計巧來獲取搜索引擎排名結果。雖然,人工很容易識別這些垃圾。問題是如此大量的頁面,無法以高成本的人工達成。我們以半自動的技術方案來取代,好由垃圾資料中區分出好的頁面。首先,經由專家的評估選擇些好的 “種子頁面”。我們以這些經由人工判斷的種子頁面中的鏈結結構,以比對的方式找出其他相同看起來也是好的頁面。文件中我們討論種子的選擇與好頁的發現的各種可能方法。展示我們以 AltaVista 索引在萬維網上的網頁的實驗成果,並評估我們這項技術。顯示基於不少於 200 個 “種子網頁” 就能夠由網頁中的重要因素,有效的濾出垃圾頁面。”

搜索引擎計算網頁排名的時最主要依據,非鏈結莫屬。因此,鏈結的品質也就越發顯得重要。正因為鏈結的依賴度越來越高,伴隨著就產生了許多作弊與 spam 的橫行。相對的,搜索引擎就必需找出一些反作弊的機制,以確保高品質的網站能獲得親徠,而能正確的排列在結果頁的上位。

在這種情況下,Google 提出了 Sandbox 和 TrustRank 的概念以及作法。目地在於確保好的網站與頁面能獲得更高的搜索表現,並加強對網站的審核。

Google Trustrank 指的是對於網站值得信賴的程度。採人工和機器結合分析的方式。而這種 TR 用來做為網頁排名的重要依據。從可知的資料中顯示,相較於 PageRank 是針對個別頁面的,TR 則顯然是針對整個網站的。一個網站取得更多高 TR 值網站的連結,相對的也會提高他網站的位階。

經由自己設立幾個新舊網站的經驗,我相信 Google TrustRank 的應用該是確有在運行。Google 也早就註冊了 TrustRank 的商標。
至少,有幾個現象值得注意:

  1. TR值太低的網站,可能被丟到 sandbox 或者甚至不予索引。
  2. 尚未取得 TR 值的網站,可能被擺在 sandbox 而延遲索引。
  3. 若無法得到 TR 值,即使其他參數 (如: 關鍵詞密度,PR值,連接廣泛度,連接數量等) 非常理想,在較熱門關鍵詞上,也很難獲得好的排名表現。
  4. 高 TR 值的網站, Google 的機器人訪問的較密,新網頁的收錄也會加快。

畢竟,Google 並不會公開它內部採用的技術與實際執行的方式。有時也只能以觀察所得來猜測。終歸結底是,對於網頁的優化, 該是要抱著心中有 SEO 但不要以 SEO 的觀點去操作自己的網頁。
反而,要回頭思考,要沒有搜索引擎你會這樣子做網頁嗎? 是做給 user 看的, 還是做給引擎的機器人讀的。

58 comments 一月 19th, 2007

依循 Google 提供的網站管理員指南

網站如何優化, 網路上有太多說法, 眾說紛紜. 其實, 只要依循 Google 提供的 “網站管理員指南“, 逐條的檢視自己的網站中的網頁. 指南中建議的項目都給做到了, 建議不要做的事, 都排除了. 這樣, 網站的優化就已達成了 90% 以上了. 任何其他的過度操作, 都很可能被搜索引擎的程式檢查出來. 而被視為過度的操作. 一旦, 一個網頁被視為有作弊的嫌疑. 很可能從此就被列入黑名單而在搜索結果頁中無法出現了.

一個原本以單一關鍵詞 :”xx” 在蒐尋結果頁中排列於第二頁的網頁, 網頁的 Title 是 “xx資料庫” . 頁面上只有 20多個對內的文字連結, 原本全都寫的是 某某地區, 曾經有一回手癢, 又想試看經過一些修改, 提高關鍵詞的密度, 能否使得這一頁在引擎的蒐索結果頁中, 往上爬昇. 就將 Title 改寫為這一關鍵詞. 並將原先文字連結中的文字, “某某地區” 全改為 “某某xx”. 因為, 原本這些連結就是指向網站內部資料庫中, 各地區的 xx 資料. 也沒意識到, 這樣的更動之後. 整頁資料中, 這一關鍵詞的密度已高過 15% 的程度. 就把改動的頁面送出. 很快的, 第二天就被 Yahoo 檢索台灣當地網頁的爬蟲爬過了. 第三天, 這一頁在 Yahoo 對這一個關鍵詞的蒐索結果頁中, 反而是從此被排除到 100 頁之外了. 在 Google 的反應倒是慢一些. 而且, 我也早因發現情況不妙, 又修改了回來. 因此, 沒有很明顯的變動.

Add comment 一月 14th, 2007


Pages

Categories

Tag cloud

Blogroll

Most Recent Posts

Feeds

email