国产一区二区三区在线观看免费-久久婷婷国产剧情内射白浆-亚洲成av人片在线观看天堂无码-婷婷色香五月综合缴缴情-国产欧美日韩精品a在线观看

如何不讓搜索引擎抓取網(wǎng)站的隱私內(nèi)容?

  • 2014-01-06
  • 分類:SEO技巧
  • 閱讀2288
  • 評論0

什么是robots協(xié)議?

1.robots.txt是什么?

有沒有想過,如果我們某個站點不讓百度和google收錄,那怎么辦?

搜索引擎已經(jīng)和我們達成一個約定,如果我們按約定那樣做了,它們就不會去收錄。這個寫約定的的文件命名為:robots.txtrobots.txt是一個最簡單的.txt文件,用以告訴搜索引擎哪些網(wǎng)頁可以收錄,哪些不允許收錄。

如果你的站點對所有搜索引擎公開,則不用做這個文件或者robots.txt為空就行。

2.Robots.txt文件怎么寫

robots.txt文件的格式

User-agent:定義搜索引擎的類型

Disallow:定義禁止搜索引擎收錄的地址

Allow:定義允許搜索引擎收錄的地址

一般情況下,robots.txt里只寫著兩個函數(shù):User-agentDisallow,至少要有一個Disallow函數(shù),如果都允許收錄,則寫:Disallow:,如果都不允許收錄,則寫:Disallow:/(注:只是差一個斜桿)。在文件中只寫出要屏蔽的蜘蛛就可以了,允許爬行的蜘蛛就不用寫出來了。并且,有幾個禁止,就得有幾個Disallow函數(shù),分行描述。

1.禁止所有搜索引擎訪問網(wǎng)站的任何部分

User-agent:*(注:*一個通配符,在這里指所有的搜索引擎種類

Disallow:/

2.禁止某個搜索引擎的訪問

User-agent:BadBot

Disallow:/

3.允許某個搜索引擎的訪問

User-agent:Baiduspider

allow:/

4.容許搜索引擎訪問特定目錄中的網(wǎng)頁

  User-agent:*

  Allow/目錄1/目錄2(容許訪問目錄2中的網(wǎng)頁)

  Allow/目錄3/目錄4(容許訪問目錄4中的網(wǎng)頁)

  Allow/目錄5/目錄6(容許訪問目錄6中的網(wǎng)頁)

  Disallow/目錄1/

  Disallow/目錄3/

  Disallow/目錄5/

特別提示:robots里面內(nèi)容的大小寫不可更改,Disallow后面的冒號必須為英文狀態(tài)的。

3.Robots.txt文件應(yīng)放在哪里?

robots.txt文件必須放在網(wǎng)站的根目錄下,必須命名為:robots.txt,都是小寫,robot后面加"s"。放在子目錄的robots.txt文件搜索引擎不能爬取到,所以不會起任何作用。

例子:

http://www.cncn.com/robots.txt有效

http://www.cncn.com/bbs/robots.txt無效

4.生效時間

robots.txt文件一般生效時間為7-15天,即1-2周。如果新網(wǎng)站源碼中包含robots.txt文件,那樣蜘蛛進行爬行時就會生效,如果是后來添加的,那樣蜘蛛需要對數(shù)據(jù)進行更新,時間一般在7-15天。

5.關(guān)于robots.txt一般站長需要注意以下幾點:

1.網(wǎng)站上經(jīng)常存在這種情況:不同的鏈接指向相似的網(wǎng)頁內(nèi)容。這不符合SEO上講的“網(wǎng)頁內(nèi)容互異性原則”。采用robots.txt文件可以屏蔽掉次要的鏈接。

2.網(wǎng)站改版或URL重寫優(yōu)化時原來不符合搜索引擎友好的鏈接需要全部屏蔽掉。采用robots.txt文件刪除舊的鏈接符合搜索引擎友好。

3.一些沒有關(guān)鍵詞的頁面,比如站內(nèi)的搜索結(jié)果頁面屏蔽掉更好

4.網(wǎng)站中的腳本程序、樣式表等文件即使被蜘蛛收錄,也不會增加網(wǎng)站的收錄率,還只會占用服務(wù)器存儲空間。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引腳本程序、樣式表等文件。

5.搜索蜘蛛抓取網(wǎng)頁太浪費服務(wù)器資源,在robots.txt文件中設(shè)置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁。如果這樣的話,會導(dǎo)致整個網(wǎng)站不能被搜索引擎收錄。

發(fā)表評論

匿名匿名

提示:請先登錄再進行評論,