Google 的信任指數 TrustRank
” Web spam pages use various techniques to achieve higher-than-deserved rankings in a search engine’s results. While human experts can identify spam, it is too expensive to manually evaluate a large number of pages. Instead, we propose techniques to semi-automatically separate reputable, good pages from spam. We first select a small set of seed pages to be evaluated by an expert. Once we manually identify the reputable seed pages, we use the link structure of the web to discover other pages that are likely to be good. In this paper we discuss possible ways to implement the seed selection and the discovery of good pages. We present results of experiments run on the World Wide Web indexed by AltaVista and evaluate the performance of our techniques. Our results show that we can effectively filter out spam from a significant fraction of the web, based on a good seed set of less than 200 sites.”
這一段是,凡談到 Google 的信任指數 TrustRank,就會被人們引用的經典文字。大意是說 : “垃圾頁面經常使用多樣的作弊計巧來獲取搜索引擎排名結果。雖然,人工很容易識別這些垃圾。問題是如此大量的頁面,無法以高成本的人工達成。我們以半自動的技術方案來取代,好由垃圾資料中區分出好的頁面。首先,經由專家的評估選擇些好的 “種子頁面”。我們以這些經由人工判斷的種子頁面中的鏈結結構,以比對的方式找出其他相同看起來也是好的頁面。文件中我們討論種子的選擇與好頁的發現的各種可能方法。展示我們以 AltaVista 索引在萬維網上的網頁的實驗成果,並評估我們這項技術。顯示基於不少於 200 個 “種子網頁” 就能夠由網頁中的重要因素,有效的濾出垃圾頁面。”
搜索引擎計算網頁排名的時最主要依據,非鏈結莫屬。因此,鏈結的品質也就越發顯得重要。正因為鏈結的依賴度越來越高,伴隨著就產生了許多作弊與 spam 的橫行。相對的,搜索引擎就必需找出一些反作弊的機制,以確保高品質的網站能獲得親徠,而能正確的排列在結果頁的上位。
在這種情況下,Google 提出了 Sandbox 和 TrustRank 的概念以及作法。目地在於確保好的網站與頁面能獲得更高的搜索表現,並加強對網站的審核。
Google Trustrank 指的是對於網站值得信賴的程度。採人工和機器結合分析的方式。而這種 TR 用來做為網頁排名的重要依據。從可知的資料中顯示,相較於 PageRank 是針對個別頁面的,TR 則顯然是針對整個網站的。一個網站取得更多高 TR 值網站的連結,相對的也會提高他網站的位階。
經由自己設立幾個新舊網站的經驗,我相信 Google TrustRank 的應用該是確有在運行。Google 也早就註冊了 TrustRank 的商標。
至少,有幾個現象值得注意:
- TR值太低的網站,可能被丟到 sandbox 或者甚至不予索引。
- 尚未取得 TR 值的網站,可能被擺在 sandbox 而延遲索引。
- 若無法得到 TR 值,即使其他參數 (如: 關鍵詞密度,PR值,連接廣泛度,連接數量等) 非常理想,在較熱門關鍵詞上,也很難獲得好的排名表現。
- 高 TR 值的網站, Google 的機器人訪問的較密,新網頁的收錄也會加快。
畢竟,Google 並不會公開它內部採用的技術與實際執行的方式。有時也只能以觀察所得來猜測。終歸結底是,對於網頁的優化, 該是要抱著心中有 SEO 但不要以 SEO 的觀點去操作自己的網頁。
反而,要回頭思考,要沒有搜索引擎你會這樣子做網頁嗎? 是做給 user 看的, 還是做給引擎的機器人讀的。
4 comments 一月 19th, 2007
