問題描述
用戶使用虛擬主機(jī)搭建的網(wǎng)站被爬蟲訪問,耗費(fèi)大量流量和帶寬的處理方法。
解決方案
在站點(diǎn)根目錄下創(chuàng)建 robots.txt文件,robots.txt 文件是網(wǎng)站的一個文件,搜索引擎抓取網(wǎng)站數(shù)據(jù)時,首先就是抓取的該文件,根據(jù)里面的內(nèi)容決定對網(wǎng)站文件訪問的范圍。它能夠保護(hù)我們的一些文件不暴露在搜索引擎之下,從而有效的控制爬蟲的抓取路徑。
說明:robots 協(xié)議也叫 robots.txt,robots 協(xié)議不是強(qiáng)制協(xié)議,部分搜索引擎或者偽裝成搜索引擎的爬蟲不會遵守該協(xié)議,對于不遵守該協(xié)議的情況,以下方法無效。
根據(jù)更多信息中的搜索引擎和其對應(yīng)的 User-Agent,Robots.txt 代碼樣例如下所示:
? 禁止所有搜索引擎訪問網(wǎng)站的任何位置。
User-agent: Disallow: /
? 允許所有的搜索引擎訪問網(wǎng)站的任何位置。
User-agent: Disallow:
? 僅禁止Baiduspider搜索引擎訪問您的網(wǎng)站。
User-agent: Baiduspider Disallow: /
? 僅允許Baiduspider訪問您的網(wǎng)站。
User-agent: Baiduspider Disallow:
? 禁止spider搜索引擎訪問特定目錄。
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /data/
說明:特定三個目錄需要分別并列寫。請注意最后需要帶斜杠。
? 允許訪問特定目錄中的部分URL,實(shí)現(xiàn)a目錄下只有b.htm允許訪問。
User-agent: * Allow: /a/b.htm Disallow: /a/
更多信息
目前搜索引擎和其對應(yīng)的 User-Agent 如下所示。
<td width="217"
User-Agent
搜索引擎 | |
AltaVista | Scooter |
baidu | Baiduspider |
Infoseek | Infoseek |
Hotbot | Slurp |
AOL Search | Slurp |
Excite | ArchitextSpider |
Googlebot | |
Goto | Slurp |
Lycos | Lycos |
MSN | Slurp |
Netscape | Googlebot |
NorthernLight | Gulliver |
WebCrawler | ArchitextSpider |
Iwon | Slurp |
Fast | Fast |
DirectHit | Grabber |
Yahoo Web Pages | Googlebot |
LooksmartWebPages | Slurp |