robots.txt 和 Referrer Karma

10 六月, 2007 (20:38) | 電腦與網路

robots.txt 不是這樣看的啊 *_*

剛看到一篇文章,裡面提到說 Digg 不讓各家 search engine 的 bot 去抓資料,不過我看到這裡就覺得很疑惑,因為我很確定曾經在 GoogleSERP 看到過 Digg 的東西,所以我就在想是不是獨孤木老大搞錯了什麼 ? 讓我們把傳說中的 Digg 的 robots.txt 拿出來瞧瞧:

User-agent: *
Disallow: /search
Disallow: /submit
Disallow: /login
User-agent: Referrer Karma/2.0
Disallow: /

這意思是說,所有的 robot 都不准去爬以 /search/submit/login 為開頭的網址,而對 Referrer Karma/2.0 這隻 bot 則要更嚴格一點,不管什麼網址都不准來爬 !! 如果我對這段 robots.txt 的理解沒錯的話,那似乎是獨孤木老大誤會 Digg 了…

不過呢,讓我們再延伸一點,到底什麼是 Referrer Karma/2.0 呢 ? 稍微查了一下,原來這是一個 WordPress plugin Referrer Karma 所用的 agent name,這隻 plugin 做的事情很有趣,它會檢查連過來的連線是不是有 referrer URL,如果有的話就把該 URL 抓回來看看這個文件裡面是不是真的有連結到你網站上的內容,如果沒有的話就吐一個 403 回去;它的原意是用來防止 referer spam 的,不過有人發現可以利用它的這個特性來做 DDoS,只要找出有哪些站台有裝 Referrer Karma 的,假造 refer 連過去,當場就會萬箭齊發,倒楣的傢伙會瞬間被來自世界各地的連線打掛 XD 不過還好 Referrer Karma 也是會看 robots.txt 的,所以 Digg 就寫在 robots.txt 裡面、先買個保險啦…

PS. 其實我不是很確定獨孤木老大是不是故意寫這篇的,感覺上他的用語似乎還蠻挑釁 (?) 的,不知道是不是有什麼特別的用意…

Comments

Comment from ccc
Time 2007/06/11 at 11:21 下午

請問有備份的原文嗎?好像被砍了T_T

Write a comment