網(wǎng)站的robots.txt文件設(shè)置是不是合理,哪些文件或許目錄需求屏蔽,、哪些設(shè)置辦法對網(wǎng)站運(yùn)營有優(yōu)點(diǎn)?有人復(fù)制出相同的內(nèi)容以應(yīng)付不同搜索引擎的排名規(guī)則,。然而,,一旦搜索引擎發(fā)現(xiàn)站內(nèi)有大量“克隆”的頁面,就會(huì)給以懲罰,,不收錄這些重復(fù)的頁面,。另一方面,我們網(wǎng)站的內(nèi)容屬于個(gè)人私密文件,,不想暴露在搜索引擎中,。這時(shí),robot.txt就是為了解決這兩個(gè)問題,。
一,、什么是robots.txt
查找引擎運(yùn)用spider程序主動(dòng)拜訪互聯(lián)網(wǎng)上的頁面并獲取頁面信息。spider在拜訪一個(gè)網(wǎng)站時(shí),,會(huì)首先會(huì)查看該網(wǎng)站的根域下是不是有一個(gè)叫做robots.txt的純文本文件,,這個(gè)文件用于指定spider在您網(wǎng)站上的抓取規(guī)劃。您能夠在您的網(wǎng)站中創(chuàng)立一個(gè)robots.txt,,在文件中聲明該網(wǎng)站中不想被查找引擎錄入的有些或許指定查找引擎只錄入特定的有些,。
二、robots.txt文件對網(wǎng)站有啥優(yōu)點(diǎn)
1,、疾速增加網(wǎng)站權(quán)重和拜訪量;
2,、制止某些文件被查找引擎索引,能夠節(jié)約服務(wù)器帶寬和網(wǎng)站拜訪速度;
3,、為查找引擎供給一個(gè)簡潔明了的索引環(huán)境
三,、哪些網(wǎng)站的目錄需求運(yùn)用robots.txt文件制止抓取
1)、圖像目錄
圖像是構(gòu)成網(wǎng)站的首要組成元素,。跟著現(xiàn)在建站越來越便利,,許多cms的呈現(xiàn),真實(shí)做到了會(huì)打字就會(huì)建網(wǎng)站,,而正是由于如此便利,,網(wǎng)上呈現(xiàn)了許多的同質(zhì)化模板網(wǎng)站,被重復(fù)運(yùn)用,,這樣的網(wǎng)站查找引擎是必定不喜愛的,,就算是你的網(wǎng)站被錄入了,那你的作用也是很差的,。若是你非要用這種網(wǎng)站的話,,主張你大概在robots.txt文件中進(jìn)行屏蔽,一般的網(wǎng)站圖像目錄是:imags或許img;
2),、網(wǎng)站模板目錄
如上面圖像目錄中所說,,cms的強(qiáng)大和靈敏,也致使了許多同質(zhì)化的網(wǎng)站模板的呈現(xiàn)和亂用,,高度的重復(fù)性模板在查找引擎中形成了一種冗余,,且模板文件常常與生成文件高度類似,,相同易形成相同內(nèi)容的呈現(xiàn)。對查找引擎很不友愛,,嚴(yán)峻的直接被查找引擎打入冷宮,,不得翻身,許多cms有具有獨(dú)立的模板寄存目錄,,因而,,大概進(jìn)行模板目錄的屏蔽。一般模板目錄的文件目錄是:templets
3),、css,、js目錄的屏蔽
css目錄文件在查找引擎的抓取中沒有用途,,也無法供給有價(jià)值的信息,。所以強(qiáng)烈主張?jiān)趓obots.txt文件中將其進(jìn)行屏蔽,以進(jìn)步查找引擎的索引質(zhì)量,。為查找引擎供給一個(gè)簡潔明了的索引環(huán)境更易晉升網(wǎng)站友愛性,。css款式的目錄一般情況下是:css或許style
js文件在查找引擎中無法進(jìn)行辨認(rèn),這里僅僅主張,,能夠?qū)ζ溥M(jìn)行屏蔽,,這樣做也有一個(gè)優(yōu)點(diǎn):為查找引擎供給一個(gè)簡潔明了的索引環(huán)境;
4)、屏蔽雙頁面的內(nèi)容
這里拿dedecms來舉例吧,。我們都曉得dedecms能夠運(yùn)用靜態(tài)和動(dòng)態(tài)url進(jìn)行同一篇內(nèi)容的拜訪,,若是你生成全站靜態(tài)了,那你有必要屏蔽動(dòng)態(tài)地址的url連接,。這里有兩個(gè)優(yōu)點(diǎn):1,、查找引擎對靜態(tài)的url比動(dòng)態(tài)的url更友愛、更簡單錄入;2,、避免靜態(tài),、動(dòng)態(tài)url能拜訪同一篇文章而被查找引擎判為重復(fù)內(nèi)容。這樣做對查找引擎友愛性來說是有益無害的,。
5),、模板緩存目錄
許多cms程序都有緩存目錄,這種緩存目錄的優(yōu)點(diǎn)我想不用說我們也明白了吧,,能夠十分有用的晉升網(wǎng)站的拜訪速度,,削減網(wǎng)站帶寬,對用戶體會(huì)也是極好的,。不過,,這樣的緩存目錄也有必定的缺陷,那就是會(huì)讓查找引擎進(jìn)行重復(fù)的抓取,,一個(gè)網(wǎng)站中內(nèi)容重復(fù)也是大祭,,對網(wǎng)站百害而無一利,。許多運(yùn)用cms建站的兄弟都沒有注意到,有必要要導(dǎo)致注重,。
6)被刪去的目錄
死鏈過多,,對查找引擎優(yōu)化來說,是喪命的,。不能不導(dǎo)致站長的高度注重,,。在網(wǎng)站的開展過程中,,目錄的刪去和調(diào)整是不可避免的,,若是你的網(wǎng)站當(dāng)時(shí)目錄不存在了,那有必要對此目錄進(jìn)行robots屏蔽,,并回來正確的404過錯(cuò)頁面(注意:在iis中,,有的兄弟在設(shè)置404過錯(cuò)的時(shí)分,設(shè)置存在疑問,,在自定義過錯(cuò)頁面一項(xiàng)中,,404過錯(cuò)的正確設(shè)置大概是挑選:默認(rèn)值或許文件,而不大概是:url,,以避免查找引擎回來200的狀況碼,。至于怎樣設(shè)置,網(wǎng)上教程許多,,我們要吧查找一下)
這里有一個(gè)爭議性的疑問,,關(guān)于網(wǎng)站后臺(tái)辦理目錄是不是需求進(jìn)行屏蔽,其實(shí)這個(gè)可有可無,。在能確保網(wǎng)站安全的情況下,,若是你的網(wǎng)站運(yùn)營規(guī)劃較小,就算網(wǎng)站目錄呈現(xiàn)在robots.txt文件中,,也沒有多大疑問,,這個(gè)我也見過許多網(wǎng)站這樣設(shè)置的;但若是你的網(wǎng)站運(yùn)營規(guī)劃較大,對手過多,,強(qiáng)烈主張千萬別呈現(xiàn)網(wǎng)站后臺(tái)管理目錄的信息,,以防被心懷叵測的人使用,危害你的利益;引擎越來越智能,,關(guān)于網(wǎng)站的管理目錄仍是能極好的辨認(rèn),,并拋棄索引的。別的,,我們在做網(wǎng)站后臺(tái)的時(shí)分,,也能夠在頁面元標(biāo)簽中增加:進(jìn)行查找引擎的屏蔽抓取。
四、robots.txt的基本語法
內(nèi)容項(xiàng)的基本格式:鍵:值對,。
1)User-Agent鍵
后面的內(nèi)容對應(yīng)的是各個(gè)具體的搜索引擎爬行器的名稱,。如百度是Baiduspider,谷歌是Googlebot,。
一般我們這樣寫:
User-Agent:*
表示允許所有搜索引擎蜘蛛來爬行抓取,。如果只想讓某一個(gè)搜索引擎蜘蛛來爬行,在后面列出名字即可,。如果是多個(gè),,則重復(fù)寫。
注意:User-Agent:后面要有一個(gè)空格,。
在robots.txt中,,鍵后面加:號(hào),后面必有一個(gè)空格,,和值相區(qū)分開,。
2)Disallow鍵
該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。
例如:Disallow:/index.php禁止網(wǎng)站index.php文件
Allow鍵
該鍵說明允許搜索引擎蜘蛛爬行的URL路徑
例如:Allow:/index.php允許網(wǎng)站的index.php
通配符*
代表任意多個(gè)字符
例如:Disallow:/*.jpg網(wǎng)站所有的jpg文件被禁止了,。
結(jié)束符$
表示以前面字符結(jié)束的url,。
例如:Disallow:/?$網(wǎng)站所有以?結(jié)尾的文件被禁止,。