一個有夢想的女孩,玩電商,網站建設,做百度、360、搜狗排名,微信營銷,微信公眾號運營開發。 點擊 加我 QQ 說你的需求。

robots禁止抓取目錄

五一放假了,天氣熱也不愿意出去玩,宅在家里沒事看了下我這個實驗品網站。今天看了下網站日志,忽然發現好多問題嘿嘿。 濱州網站建設公司 Little Ant發現,第一:本站的robots文件夾沒有屏蔽對一些動態地址的抓取,導致了重復收錄;第二:404頁面沒有設置成

       五一放假了,天氣熱也不愿意出去玩,宅在家里沒事看了下我這個實驗品網站。今天看了下網站日志,忽然發現好多問題嘿嘿。濱州網站建設公司Little Ant發現,第一:本站的robots文件夾沒有屏蔽對一些動態地址的抓取,導致了重復收錄;第二:404頁面沒有設置成功,以前只上傳過,沒設置,導致百度蜘蛛抓取404報錯。
濱州網站建設公司百度蜘蛛抓取
 
       以上是百度蜘蛛抓取動態地址的記錄, 由于沒有設置禁止抓取,百度抓取了一系列的動態地址,我網站設置是靜態地址的,所以果斷屏蔽了對動態地址的抓取,下面來詳細說說robots禁止抓取目錄的詳細寫法


1如果允許所有搜索引擎訪問網站的所有部分的話 我們可以建立一個空白的文本文檔,命名為robots.txt放在網站的根目錄下即可。
robots.txt寫法如下:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
2如果我們禁止所有搜索引擎訪問網站的所有部分的話
robots.txt寫法如下:
User-agent: *
Disallow: /
3如果我們需要某一個搜索引擎的抓取的話,比如百度,禁止百度索引我們的網站的話
robots.txt寫法如下:
User-agent: Baiduspider
Disallow: /
4如果我們禁止Google索引我們的網站的話,其實跟示例3一樣,就是User-agent:頭文件的蜘蛛名字改成谷歌的Googlebot
即可
robots.txt寫法如下:
User-agent: Googlebot
Disallow: /
5如果我們禁止除Google外的一切搜索引擎索引我們的網站話
robots.txt寫法如下:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
6如果我們禁止除百度外的一切搜索引擎索引我們的網站的話
robots.txt寫法如下:
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
7如果我們需要禁止蜘蛛訪問某個目錄,比如禁止admin、css、images等目錄被索引的話
robots.txt寫法如下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
8如果我們允許蜘蛛訪問我們網站的某個目錄中的某些特定網址的話
robots.txt寫法如下:
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/
9我們看某些網站的robots.txt里的Disallow或者Allow里會看很多的符號,比如問號星號什么的,如果使用“*”,主要是限制訪問某個后綴的域名,禁止訪問/html/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。
robots.txt寫法如下:
User-agent: *
Disallow: /html/*.htm
10如果我們使用“$”的話是僅允許訪問某目錄下某個后綴的文件
robots.txt寫法如下:
User-agent: *
Allow: .asp$
Disallow: /

11如果我們禁止索引網站中所有的動態頁面(這里限制的是有“?”的域名,例如index.asp?id=1)
robots.txt寫法如下:
User-agent: *
Disallow: /*?*
有些時候,我們為了節省服務器資源,需要禁止各類搜索引擎來索引我們網站上的圖片,這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外,還可以采取直接屏蔽圖片后綴名的方式。
示例12
如果我們禁止Google搜索引擎抓取我們網站上的所有圖片(如果你的網站使用其他后綴的圖片名稱,在這里也可以直接添加)
robots.txt寫法如下:
User-agent: Googlebot
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
13如果我們禁止百度搜索引擎抓取我們網站上的所有圖片的話
robots.txt寫法如下:
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
14除了百度之外和Google之外,禁止其他搜索引擎抓取你網站的圖片
(注意,在這里為了讓各位看的更明白,因此使用一個比較笨的辦法——對于單個搜索引擎單獨定義。)
robots.txt寫法如下:
User-agent: Baiduspider
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: Googlebot
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

15僅僅允許百度抓取網站上的“JPG”格式文件
(其他搜索引擎的辦法也和這個一樣,只是修改一下搜索引擎的蜘蛛名稱即可)
robots.txt寫法如下:
User-agent: Baiduspider
Allow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
16僅僅禁止百度抓取網站上的“JPG”格式文件
robots.txt寫法如下:
User-agent: Baiduspider
Disallow: .jpg$
17如果 ? 表示一個會話 ID,您可排除所有包含該 ID 的網址,確保 Googlebot 不會抓取重復的網頁。但是,以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下,濱州網站建設公司解釋可將與 Allow 指令配合使用。
robots.txt寫法如下:
User-agent:*
Allow:/*?$
Disallow:/*?
Disallow:/ *?
一行將攔截包含 ? 的網址(具體而言,它將攔截所有以您的域名開頭、后接任意字符串,然后是問號 (?),而后又是任意字符串的網址)。Allow: /*?$ 一行將允許包含任何以 ? 結尾的網址(具體而言,它將允許包含所有以您的域名開頭、后接任意字符串,然后是問號 (?),問號之后沒有任何字符的網址)。

18如果我們想禁止搜索引擎對一些目錄或者某些URL訪問的話,可以截取部分的名字
robots.txt寫法如下:
User-agent:*
Disallow: /plus/feedback.php?

     所以濱州網站建設公司索性把robots.txt改成如下:

User-agent: * 
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /plus/                此句話禁止抓取plus文件夾下所有內容,這句話也伴隨著上面寫的禁止抓取某個制定文件沒有用了。上面可以省略。
Disallow: /gong/css/         禁止抓取css
Disallow: /gong/js/           禁止抓取js
Allow:    /gong/*.png$      允許抓取gong文件夾下png照片 
Allow:    /gong/*.jpg$
Disallow: /include
Disallow: /special/
Disallow: /member/
Disallow: /install/
Disallow: /data/
Disallow: /rss.php
Disallow: /php?
Sitemap: http://www.gtlede.live/sitemap.xml
Sitemap: http://www.gtlede.live/sitemap.html         制定抓取濱州網站建設公司網站地圖

       好了,robots禁止抓取目錄問題
今天就為大家介紹到這里,有什么不懂的大家可以加我qq一起研究學習。

喜歡 (0) or 分享 (0)
發表我的評論
取消評論

表情

您的回復是我們的動力!

  • 昵稱 (必填)
  • 驗證碼 點擊我更換圖片

網友最新評論