中文久久,精品伦精品一区二区三区视频,美国AV一区二区三区,国产免费小视频

意見(jiàn)箱
恒創(chuàng)運(yùn)營(yíng)部門將仔細(xì)參閱您的意見(jiàn)和建議,必要時(shí)將通過(guò)預(yù)留郵箱與您保持聯(lián)絡(luò)。感謝您的支持!
意見(jiàn)/建議
提交建議

云虛擬主機(jī)被爬蟲訪問(wèn)耗費(fèi)大量流量的解決方法

來(lái)源:恒創(chuàng)科技 編輯:恒創(chuàng)科技編輯部
2021-11-15 14:45:05

問(wèn)題描述

  用戶使用虛擬主機(jī)搭建的網(wǎng)站被爬蟲訪問(wèn),耗費(fèi)大量流量和帶寬的處理方法。

解決方案

  在站點(diǎn)根目錄下創(chuàng)建 robots.txt文件,robots.txt 文件是網(wǎng)站的一個(gè)文件,搜索引擎抓取網(wǎng)站數(shù)據(jù)時(shí),首先就是抓取的該文件,根據(jù)里面的內(nèi)容決定對(duì)網(wǎng)站文件訪問(wèn)的范圍。它能夠保護(hù)我們的一些文件不暴露在搜索引擎之下,從而有效的控制爬蟲的抓取路徑。

  說(shuō)明:robots 協(xié)議也叫 robots.txt,robots 協(xié)議不是強(qiáng)制協(xié)議,部分搜索引擎或者偽裝成搜索引擎的爬蟲不會(huì)遵守該協(xié)議,對(duì)于不遵守該協(xié)議的情況,以下方法無(wú)效。

  根據(jù)更多信息中的搜索引擎和其對(duì)應(yīng)的 User-Agent,Robots.txt 代碼樣例如下所示:

  ? 禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何位置。

  User-agent:  Disallow: /

  ? 允許所有的搜索引擎訪問(wèn)網(wǎng)站的任何位置。

  User-agent:  Disallow:

  ? 僅禁止Baiduspider搜索引擎訪問(wèn)您的網(wǎng)站。

   User-agent: Baiduspider  Disallow: /

  ? 僅允許Baiduspider訪問(wèn)您的網(wǎng)站。

    User-agent: Baiduspider  Disallow:

  ? 禁止spider搜索引擎訪問(wèn)特定目錄。

   User-agent: *  Disallow: /cgi-bin/  Disallow: /tmp/  Disallow: /data/

       說(shuō)明:特定三個(gè)目錄需要分別并列寫。請(qǐng)注意最后需要帶斜杠。

  ? 允許訪問(wèn)特定目錄中的部分URL,實(shí)現(xiàn)a目錄下只有b.htm允許訪問(wèn)。

    User-agent: *  Allow: /a/b.htm  Disallow: /a/

更多信息

目前搜索引擎和其對(duì)應(yīng)的 User-Agent 如下所示。

<td width="217"

User-Agent

搜索引擎


AltaVista

Scooter

baidu

Baiduspider

Infoseek

Infoseek

Hotbot

Slurp

AOL Search

Slurp

Excite

ArchitextSpider

Google

Googlebot

Goto

Slurp

Lycos

Lycos

MSN

Slurp

Netscape

Googlebot

NorthernLight

Gulliver

WebCrawler

ArchitextSpider

Iwon

Slurp

Fast

Fast

DirectHit

Grabber

Yahoo Web Pages

Googlebot

LooksmartWebPages

Slurp

上一篇: 自動(dòng)續(xù)費(fèi)流程及規(guī)則說(shuō)明 下一篇: 服務(wù)器通用請(qǐng)求返回值