引擎爬蟲對台灣網站的照顧

幾個主要的搜索引擎, Yahoo, Google, MSN 就把百度也算上吧. 這些引擎對台灣網站的爬讀, 似乎是以 Yahoo 爬的最勤. 我有幾個網站, 經由兩年多來的比較發現. 大致上是, 只要變動率高的網站. Yahoo 可以是 24 小時不斷的在爬, 其實, 其他幾家也都會針對網站本身的變動程度來調整爬讀的密度. 只是, Yahoo 對於正體中文的台灣網站, 爬過了之後, 在引擎的搜尋結果頁中的排序, 十分快的兌現. 幾乎是網頁今天改了也許就今或明天就被爬到了. 被爬過的第二天, 排序就兌現了. 甚至於, 一個排在搜索結果頁第一的網站, 若不小心網頁當了一天, 被 Yahoo 爬不到, 第二天排名可能就掉到五六名去了, 若連續當個兩天鐵會掉到第一頁之外. 不過, 只要恢復運轉之後, 還能很快的就提昇回來. Google, MSN, 百度對正體中文站的排序反應就沒這麼快. 也許幾個月也沒發生變動. 說不定是改動的部份, 與它們的排序因素沒發生太大的影響.

百度的爬虫穩定度最糟糕, 有時同時闖入好幾隻, 同時密集的爬頁, 爬的快時, mySQL Server 可被它搞到當機. 用 robots.txt 來提示他, 似乎也沒太大的效果. 必要時, 只好把他的 IP 全都 ban 了…… ban 了半年, 排序也沒變. 好笑 !!

兩年多前, 曾見韓國有兩組爬虫爬的很勤快. 可現在似乎都找沒有了.

Add comment 一月 12th, 2007


Pages

Categories

Tag cloud

Blogroll

Most Recent Posts

Feeds

email