国产精品久久久久久亚洲影视,性爱视频一区二区,亚州综合图片,欧美成人午夜免费视在线看片

意見箱
恒創(chuàng)運(yùn)營部門將仔細(xì)參閱您的意見和建議,必要時將通過預(yù)留郵箱與您保持聯(lián)絡(luò)。感謝您的支持!
意見/建議
提交建議

云虛擬主機(jī)被爬蟲訪問耗費(fèi)大量流量的解決方法

來源:恒創(chuàng)科技 編輯:恒創(chuàng)科技編輯部
2021-11-15 14:45:05

問題描述

  用戶使用虛擬主機(jī)搭建的網(wǎng)站被爬蟲訪問,耗費(fèi)大量流量和帶寬的處理方法。

解決方案

  在站點(diǎn)根目錄下創(chuàng)建 robots.txt文件,robots.txt 文件是網(wǎng)站的一個文件,搜索引擎抓取網(wǎng)站數(shù)據(jù)時,首先就是抓取的該文件,根據(jù)里面的內(nèi)容決定對網(wǎng)站文件訪問的范圍。它能夠保護(hù)我們的一些文件不暴露在搜索引擎之下,從而有效的控制爬蟲的抓取路徑。

  說明:robots 協(xié)議也叫 robots.txt,robots 協(xié)議不是強(qiáng)制協(xié)議,部分搜索引擎或者偽裝成搜索引擎的爬蟲不會遵守該協(xié)議,對于不遵守該協(xié)議的情況,以下方法無效。

  根據(jù)更多信息中的搜索引擎和其對應(yīng)的 User-Agent,Robots.txt 代碼樣例如下所示:

  ? 禁止所有搜索引擎訪問網(wǎng)站的任何位置。

  User-agent:  Disallow: /

  ? 允許所有的搜索引擎訪問網(wǎng)站的任何位置。

  User-agent:  Disallow:

  ? 僅禁止Baiduspider搜索引擎訪問您的網(wǎng)站。

   User-agent: Baiduspider  Disallow: /

  ? 僅允許Baiduspider訪問您的網(wǎng)站。

    User-agent: Baiduspider  Disallow:

  ? 禁止spider搜索引擎訪問特定目錄。

   User-agent: *  Disallow: /cgi-bin/  Disallow: /tmp/  Disallow: /data/

       說明:特定三個目錄需要分別并列寫。請注意最后需要帶斜杠。

  ? 允許訪問特定目錄中的部分URL,實(shí)現(xiàn)a目錄下只有b.htm允許訪問。

    User-agent: *  Allow: /a/b.htm  Disallow: /a/

更多信息

目前搜索引擎和其對應(yīng)的 User-Agent 如下所示。

<td width="217"

User-Agent

搜索引擎


AltaVista

Scooter

baidu

Baiduspider

Infoseek

Infoseek

Hotbot

Slurp

AOL Search

Slurp

Excite

ArchitextSpider

Google

Googlebot

Goto

Slurp

Lycos

Lycos

MSN

Slurp

Netscape

Googlebot

NorthernLight

Gulliver

WebCrawler

ArchitextSpider

Iwon

Slurp

Fast

Fast

DirectHit

Grabber

Yahoo Web Pages

Googlebot

LooksmartWebPages

Slurp

上一篇: 自動續(xù)費(fèi)流程及規(guī)則說明 下一篇: 服務(wù)器通用請求返回值