引擎爬蟲對台灣網站的照顧

2007-01-12 標籤: , ,

幾個主要的搜索引擎, Yahoo, Google, MSN 就把百度也算上吧. 這些引擎對台灣網站的爬讀, 似乎是以 Yahoo 爬的最勤. 我有幾個網站, 經由兩年多來的比較發現. 大致上是, 只要變動率高的網站. Yahoo 可以是 24 小時不斷的在爬, 其實, 其他幾家也都會針對網站本身的變動程度來調整爬讀的密度. 只是, Yahoo 對於正體中文的台灣網站, 爬過了之後, 在引擎的搜尋結果頁中的排序, 十分快的兌現. 幾乎是網頁今天改了也許就今或明天就被爬到了. 被爬過的第二天, 排序就兌現了. 甚至於, 一個排在搜索結果頁第一的網站, 若不小心網頁當了一天, 被 Yahoo 爬不到, 第二天排名可能就掉到五六名去了, 若連續當個兩天鐵會掉到第一頁之外. 不過, 只要恢復運轉之後, 還能很快的就提昇回來. Google, MSN, 百度對正體中文站的排序反應就沒這麼快. 也許幾個月也沒發生變動. 說不定是改動的部份, 與它們的排序因素沒發生太大的影響.

百度的爬虫穩定度最糟糕, 有時同時闖入好幾隻, 同時密集的爬頁, 爬的快時, mySQL Server 可被它搞到當機. 用 robots.txt 來提示他, 似乎也沒太大的效果. 必要時, 只好把他的 IP 全都 ban 了…… ban 了半年, 排序也沒變. 好笑 !!

兩年多前, 曾見韓國有兩組爬虫爬的很勤快. 可現在似乎都找沒有了.

Entry Filed under: 網誌

Leave a Comment

You must be logged in to post a comment.

Trackback this post  |  Subscribe to the comments via RSS Feed


Pages

Categories

Tag cloud

Blogroll

Most Recent Posts

Feeds

email