robots.txt常見問題分析
作者:晉城網(wǎng)站建設(shè) 日期:2011-01-22
robots.txt文件介紹
robots.txt是網(wǎng)站主建立與搜索引擎之間溝通的一座橋梁。其文件常見問題很多,下面列舉一些我們經(jīng)常犯的一些錯(cuò)誤:
1、robots.txt的位置應(yīng)該放在那里?
robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下。當(dāng)搜索引擎的蜘蛛程序訪問一個(gè)網(wǎng)站(比如http://www.seoqu.com)時(shí),首先會檢查該網(wǎng)站中是否存在http://www.seoqu.com/robots.txt這個(gè)文件,如果找到這個(gè)文件,它就會根據(jù)這個(gè)文件的內(nèi)容,來確定它即將要訪問的范圍。
2、我建立了robots.txt文件屏蔽了網(wǎng)頁,為什么還會出現(xiàn)在搜索結(jié)果中呢?
如果在robots.txt中屏蔽了該url路徑,按常理來將是不會出現(xiàn)的搜索結(jié)果中的,但是很多情況下并不是這樣,原因如下:
1.蜘蛛程序通過其他鏈接直接進(jìn)入網(wǎng)站的內(nèi)頁,導(dǎo)致被爬取并收錄;
2.robots.txt文件是后期修改,搜索結(jié)果還未進(jìn)行更新;
3.…
以上經(jīng)過一段時(shí)間的更新就會逐漸消失,如果被抓取的網(wǎng)頁涉及到一些隱私,可以直接想相關(guān)搜索引擎反映。
3、robots.txt中的一些細(xì)節(jié)問題
文件中頭字母大小寫;
注意空格和“/
4、robots.txt的一些操作事例
a、禁止搜索搜索引擎訪問網(wǎng)站的任何部分
User-agent:*
Disallow:/
b、允許訪問所有的內(nèi)容
User-agent:*
Disallow:
或者
User-agent:*
Allow:/
也可以建立一個(gè)空的robots.txt文件
c、僅僅允許google訪問我的網(wǎng)站
User-agent:Googlebot
Disallow:/
User-agent:*
Disallow:/
d、禁止訪問指定目錄
User-agent:*
Disallow:/abc/
Disallow:/def/
Disallow:/ghp/
e、允許訪問特定目錄
User-agent:*
Allow:/abc/abc
Allow:/def/ef
Allow:/ghp/look
Disallow:/abc/
Disallow:/def/
Disallow:/ghp/
f、禁止訪問/abc/目錄下的所有以.html為后綴的URL(包含子目錄)
User-agent:*
Disallow:/abc/*.html
g、僅允許訪問以.html為后綴的URL
User-agent:*
Allow:.html$
Disallow:/
h、禁止訪問網(wǎng)站中所有的動態(tài)頁面
User-agent:*
Disallow:/*?*
i、禁止抓取網(wǎng)站上所有圖片
User-agent:*
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
注意:如果還有其他格式,可以再進(jìn)行添加Disallow:如果允許抓取某一類型的圖片,將“Disallow修改為“Allow即可。
注意以上格式中空格和“/的使用
j、允許所有搜索引擎抓取,將自己的網(wǎng)站地圖放進(jìn)robots.txt文件
User-agent:*
Disallow:
Sitemap:http://www.seoqu.com/sitemap1.xml
robots.txt存在的問題比較多,大家有什么疑問也可以直接留言,方便進(jìn)一步完善robots.txt常見問題。
robots.txt是網(wǎng)站主建立與搜索引擎之間溝通的一座橋梁。其文件常見問題很多,下面列舉一些我們經(jīng)常犯的一些錯(cuò)誤:
1、robots.txt的位置應(yīng)該放在那里?
robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下。當(dāng)搜索引擎的蜘蛛程序訪問一個(gè)網(wǎng)站(比如http://www.seoqu.com)時(shí),首先會檢查該網(wǎng)站中是否存在http://www.seoqu.com/robots.txt這個(gè)文件,如果找到這個(gè)文件,它就會根據(jù)這個(gè)文件的內(nèi)容,來確定它即將要訪問的范圍。
2、我建立了robots.txt文件屏蔽了網(wǎng)頁,為什么還會出現(xiàn)在搜索結(jié)果中呢?
如果在robots.txt中屏蔽了該url路徑,按常理來將是不會出現(xiàn)的搜索結(jié)果中的,但是很多情況下并不是這樣,原因如下:
1.蜘蛛程序通過其他鏈接直接進(jìn)入網(wǎng)站的內(nèi)頁,導(dǎo)致被爬取并收錄;
2.robots.txt文件是后期修改,搜索結(jié)果還未進(jìn)行更新;
3.…
以上經(jīng)過一段時(shí)間的更新就會逐漸消失,如果被抓取的網(wǎng)頁涉及到一些隱私,可以直接想相關(guān)搜索引擎反映。
3、robots.txt中的一些細(xì)節(jié)問題
文件中頭字母大小寫;
注意空格和“/
4、robots.txt的一些操作事例
a、禁止搜索搜索引擎訪問網(wǎng)站的任何部分
User-agent:*
Disallow:/
b、允許訪問所有的內(nèi)容
User-agent:*
Disallow:
或者
User-agent:*
Allow:/
也可以建立一個(gè)空的robots.txt文件
c、僅僅允許google訪問我的網(wǎng)站
User-agent:Googlebot
Disallow:/
User-agent:*
Disallow:/
d、禁止訪問指定目錄
User-agent:*
Disallow:/abc/
Disallow:/def/
Disallow:/ghp/
e、允許訪問特定目錄
User-agent:*
Allow:/abc/abc
Allow:/def/ef
Allow:/ghp/look
Disallow:/abc/
Disallow:/def/
Disallow:/ghp/
f、禁止訪問/abc/目錄下的所有以.html為后綴的URL(包含子目錄)
User-agent:*
Disallow:/abc/*.html
g、僅允許訪問以.html為后綴的URL
User-agent:*
Allow:.html$
Disallow:/
h、禁止訪問網(wǎng)站中所有的動態(tài)頁面
User-agent:*
Disallow:/*?*
i、禁止抓取網(wǎng)站上所有圖片
User-agent:*
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
注意:如果還有其他格式,可以再進(jìn)行添加Disallow:如果允許抓取某一類型的圖片,將“Disallow修改為“Allow即可。
注意以上格式中空格和“/的使用
j、允許所有搜索引擎抓取,將自己的網(wǎng)站地圖放進(jìn)robots.txt文件
User-agent:*
Disallow:
Sitemap:http://www.seoqu.com/sitemap1.xml
robots.txt存在的問題比較多,大家有什么疑問也可以直接留言,方便進(jìn)一步完善robots.txt常見問題。