robots.txt 和 Referrer Karma

10 六月, 2007 (20:38) | 電腦與網路

robots.txt 不是這樣看的啊 *_*

剛看到一篇文章,裡面提到說 Digg 不讓各家 search engine 的 bot 去抓資料,不過我看到這裡就覺得很疑惑,因為我很確定曾經在 GoogleSERP 看到過 Digg 的東西,所以我就在想是不是獨孤木老大搞錯了什麼 ? 讓我們把傳說中的 Digg 的 robots.txt 拿出來瞧瞧:

User-agent: *
Disallow: /search
Disallow: /submit
Disallow: /login
User-agent: Referrer Karma/2.0
Disallow: /

這意思是說,所有的 robot 都不准去爬以 /search/submit/login 為開頭的網址,而對 Referrer Karma/2.0 這隻 bot 則要更嚴格一點,不管什麼網址都不准來爬 !! 如果我對這段 robots.txt 的理解沒錯的話,那似乎是獨孤木老大誤會 Digg 了…

不過呢,讓我們再延伸一點,到底什麼是 Referrer Karma/2.0 呢 ? 稍微查了一下,原來這是一個 WordPress plugin Referrer Karma 所用的 agent name,這隻 plugin 做的事情很有趣,它會檢查連過來的連線是不是有 referrer URL,如果有的話就把該 URL 抓回來看看這個文件裡面是不是真的有連結到你網站上的內容,如果沒有的話就吐一個 403 回去;它的原意是用來防止 referer spam 的,不過有人發現可以利用它的這個特性來做 DDoS,只要找出有哪些站台有裝 Referrer Karma 的,假造 refer 連過去,當場就會萬箭齊發,倒楣的傢伙會瞬間被來自世界各地的連線打掛 XD 不過還好 Referrer Karma 也是會看 robots.txt 的,所以 Digg 就寫在 robots.txt 裡面、先買個保險啦…

PS. 其實我不是很確定獨孤木老大是不是故意寫這篇的,感覺上他的用語似乎還蠻挑釁 (?) 的,不知道是不是有什麼特別的用意…

Comments

Comment from ccc
Date: 2007/6/11, 11:21 下午

請問有備份的原文嗎?好像被砍了T_T

Write a comment