問(wèn)題描述
用戶使用虛擬主機(jī)搭建的網(wǎng)站被爬蟲訪問(wèn),耗費(fèi)大量流量和帶寬的處理方法。
解決方案
在站點(diǎn)根目錄下創(chuàng)建 robots.txt文件,robots.txt 文件是網(wǎng)站的一個(gè)文件,搜索引擎抓取網(wǎng)站數(shù)據(jù)時(shí),首先就是抓取的該文件,根據(jù)里面的內(nèi)容決定對(duì)網(wǎng)站文件訪問(wèn)的范圍。它能夠保護(hù)我們的一些文件不暴露在搜索引擎之下,從而有效的控制爬蟲的抓取路徑。
說(shuō)明:robots 協(xié)議也叫 robots.txt,robots 協(xié)議不是強(qiáng)制協(xié)議,部分搜索引擎或者偽裝成搜索引擎的爬蟲不會(huì)遵守該協(xié)議,對(duì)于不遵守該協(xié)議的情況,以下方法無(wú)效。
根據(jù)更多信息中的搜索引擎和其對(duì)應(yīng)的 User-Agent,Robots.txt 代碼樣例如下所示:
? 禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何位置。
User-agent: Disallow: /
? 允許所有的搜索引擎訪問(wèn)網(wǎng)站的任何位置。
User-agent: Disallow:
? 僅禁止Baiduspider搜索引擎訪問(wèn)您的網(wǎng)站。
User-agent: Baiduspider Disallow: /
? 僅允許Baiduspider訪問(wèn)您的網(wǎng)站。
User-agent: Baiduspider Disallow:
? 禁止spider搜索引擎訪問(wèn)特定目錄。
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /data/
說(shuō)明:特定三個(gè)目錄需要分別并列寫。請(qǐng)注意最后需要帶斜杠。
? 允許訪問(wèn)特定目錄中的部分URL,實(shí)現(xiàn)a目錄下只有b.htm允許訪問(wèn)。
User-agent: * Allow: /a/b.htm Disallow: /a/
更多信息
目前搜索引擎和其對(duì)應(yīng)的 User-Agent 如下所示。
<td width="217"
User-Agent
搜索引擎 | |
AltaVista | Scooter |
baidu | Baiduspider |
Infoseek | Infoseek |
Hotbot | Slurp |
AOL Search | Slurp |
Excite | ArchitextSpider |
Googlebot | |
Goto | Slurp |
Lycos | Lycos |
MSN | Slurp |
Netscape | Googlebot |
NorthernLight | Gulliver |
WebCrawler | ArchitextSpider |
Iwon | Slurp |
Fast | Fast |
DirectHit | Grabber |
Yahoo Web Pages | Googlebot |
LooksmartWebPages | Slurp |