網(wǎng)站的SEO優(yōu)化過(guò)程中不免會(huì)分析網(wǎng)站日志,網(wǎng)站日志的分析和診斷就像給網(wǎng)站看病一樣,我們通過(guò)網(wǎng)站日志的分析,可以更加清楚的知道網(wǎng)站的健康狀況,使用這些數(shù)據(jù)更有利于開(kāi)展網(wǎng)站SEO優(yōu)化。
通過(guò)網(wǎng)站日志可以清楚的得知用戶在什么IP、什么時(shí)間、用什么操作系統(tǒng)、什么瀏覽器、什么分辨率顯示器的情況下訪問(wèn)了你網(wǎng)站的哪個(gè)頁(yè)面,是否訪問(wèn)成功。對(duì)于專業(yè)從事搜索引擎優(yōu)化工作者而言,網(wǎng)站日志可以記錄各搜索引擎蜘蛛機(jī)器人爬行網(wǎng)站的詳細(xì)情況,例如:哪個(gè)IP的百度蜘蛛機(jī)器人在哪天訪問(wèn)了網(wǎng)站多少次,訪問(wèn)了哪些頁(yè)面,以及訪問(wèn)頁(yè)面時(shí)返回的HTTP狀態(tài)碼。
常見(jiàn)的蜘蛛名稱:
Baiduspider:百度蜘蛛
Baiduspider-Image:百度圖片蜘蛛
Googlebot:谷歌機(jī)器人
Googlebot-Image:谷歌圖片機(jī)器人
360Spider:360蜘蛛
sogou spider:搜狗蜘蛛
一、網(wǎng)站日志的作用
1、通過(guò)網(wǎng)站日志可以了解蜘蛛對(duì)網(wǎng)站的基本爬取情況,可以知道蜘蛛的爬取軌跡和爬取量。
2、網(wǎng)站的更新頻率也和網(wǎng)站日志中蜘蛛抓取的頻率有關(guān),一般來(lái)說(shuō)更新頻率越高,蜘蛛的抓取頻率越高,而我們網(wǎng)站的更新不僅僅只是新內(nèi)容的添加同時(shí)還有我們的微調(diào)操作。
3、我們可以根據(jù)網(wǎng)站日志的反應(yīng)情況,對(duì)我們的空間的某些事情和問(wèn)題提前進(jìn)行預(yù)警,因?yàn)榉?wù)器如果出問(wèn)題的話在網(wǎng)站日志中會(huì)第一時(shí)間反映出來(lái),要知道服務(wù)器的穩(wěn)定速度和打開(kāi)速度兩者都會(huì)直接影響我們的網(wǎng)站。
4、通過(guò)網(wǎng)站日志我們可以知道網(wǎng)站的那些頁(yè)面是很受蜘蛛歡迎的,而哪些頁(yè)面是蜘蛛連碰都不去碰的,同時(shí)我們還能發(fā)現(xiàn)有一些蜘蛛由于是過(guò)度爬取對(duì)我們的服務(wù)器資源損耗是很大的,我們要進(jìn)行屏蔽工作。
二、如何下載網(wǎng)站日志
1、首先我們的空間要支持網(wǎng)站日志下載,這一點(diǎn)是很重要的,在購(gòu)買空間時(shí)候需事先了解下是否支持日志下載,因?yàn)橛械姆?wù)商是不提供這項(xiàng)服務(wù)的,如果支持的話空間后臺(tái)一般都有日志W(wǎng)ebLog日志下載這個(gè)功能把它下載到根目錄在用FTP傳到本地就可以,服務(wù)器的話可以設(shè)置將日志文件下載到指定路徑。
2、這里有個(gè)很重要的問(wèn)題,網(wǎng)站日志強(qiáng)烈建議設(shè)置成每小時(shí)生成一次,小型的企業(yè)站和頁(yè)面內(nèi)容較少的網(wǎng)站可以設(shè)置成一天,它默認(rèn)是一天,如果內(nèi)容多或者大型站設(shè)置成一天生成一次,那么一天只生成一個(gè)文件,這個(gè)文件會(huì)相當(dāng)?shù)拇?,我們有時(shí)電腦打開(kāi)是會(huì)造成死機(jī),設(shè)置的話找空間商協(xié)調(diào)設(shè)置即可。
三、網(wǎng)站日志數(shù)據(jù)分析
1、網(wǎng)站日志中數(shù)據(jù)量過(guò)大,所以我們一般需要借助網(wǎng)站日志分析工具來(lái)查看。常用的日志分析工具有:光年日志分析工具、web log exploer、WPS表格等
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0;Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"
分析:
117.26.203.167訪問(wèn)ip;
02/May/2011:01:57:44 -0700訪問(wèn)日期 -時(shí)區(qū);
GET/index.php HTTP/1.1根據(jù)HTTP/1.1協(xié)議抓?。ㄓ蛎拢?index.php這個(gè)頁(yè)面(GET表示服務(wù)器動(dòng)作);
500服務(wù)器響應(yīng)狀態(tài)碼;
服務(wù)器響應(yīng)狀態(tài)碼通常狀態(tài)碼有以下幾種:200,301,302,304,404,500等。200代表用戶成功的獲取到了所請(qǐng)求的文件,如果是搜索引擎,則證明蜘蛛在這次爬行中順利的發(fā)現(xiàn)了一些新的內(nèi)容。而301則代表用戶所訪問(wèn)的某個(gè)頁(yè)面url已經(jīng)做了301重定向(永久性)處理,302則是暫時(shí)性重定向。404則代表所訪問(wèn)的頁(yè)面已經(jīng)不存在了,或者說(shuō)訪問(wèn)的url根本就是個(gè)錯(cuò)誤的。500則是服務(wù)器的錯(cuò)誤。
19967表示抓取了19967個(gè)字節(jié);
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar表示訪問(wèn)者使用火狐瀏覽器及Alexa Toolbar等訪問(wèn)端信息;
2、如果你的日志里格式不是如此,則代表日志格式設(shè)置不同。
3、很多日志里可以看到 200 0 0和200 0 64則都代表正常抓取。
4、抓取頻率是通過(guò)查看每日的日志里百度蜘蛛抓取次數(shù)來(lái)獲知。抓取頻率并沒(méi)有一個(gè)規(guī)范的時(shí)間表或頻率數(shù)字,我們一般通過(guò)多日的日志對(duì)比來(lái)判斷,當(dāng)然,我們希望百度蜘蛛每日抓取的次數(shù)越多越好。
5、有時(shí)候我們的路徑不統(tǒng)一出現(xiàn)帶斜杠和不帶斜杠的問(wèn)題,蜘蛛會(huì)自動(dòng)識(shí)別為301跳轉(zhuǎn)到帶斜杠的頁(yè)面,這里我們就發(fā)現(xiàn)了搜索引擎是可以判斷我們的目錄的,所以我們要對(duì)我們的目錄進(jìn)行統(tǒng)一。
6、我們分析日志分析時(shí)間長(zhǎng)了,我們能夠看出蜘蛛的抓取規(guī)律,同一目錄下面的單個(gè)文件的抓取頻率間隔和不同目錄的抓取頻率間隔都可以看出來(lái),這些抓取頻率間隔時(shí)間是蜘蛛根據(jù)網(wǎng)站權(quán)重和網(wǎng)站更新頻率來(lái)自動(dòng)確定的。
7、蜘蛛對(duì)于我們的頁(yè)面的抓取是分等級(jí)的,是根據(jù)權(quán)重依次遞減的,一般順序?yàn)槭醉?yè)、目錄頁(yè)、內(nèi)頁(yè)。
四、通過(guò)網(wǎng)站日志我們能知道什么?
1、我們買的空間是否能夠穩(wěn)定?
2、蜘蛛對(duì)我們的那些頁(yè)面比較喜歡而對(duì)哪些不喜歡?
3、蜘蛛什么時(shí)候抓取我們的網(wǎng)站頻繁,我們需要什么時(shí)候更新內(nèi)容?
總結(jié):
所以不管是新站還是老網(wǎng)站,不管你做百度還是Google我們都能通過(guò)網(wǎng)站日志分析出來(lái)搜索引擎蜘蛛抓取的情況;如果網(wǎng)站長(zhǎng)時(shí)間收錄有問(wèn)題,那么我們也可以對(duì)比網(wǎng)站日志中的搜索引擎蜘蛛行為,來(lái)了解網(wǎng)站是哪方面出了問(wèn)題;如果網(wǎng)站被封,或者被K,我們都可以通過(guò)觀察網(wǎng)站日志的情況來(lái)了解原因出在什么地方。我們要看的網(wǎng)站日志的分析和診斷就像給網(wǎng)站看病一樣,我們通過(guò)網(wǎng)站日志的分析,可以簡(jiǎn)單明了的就知道網(wǎng)站的健康狀況,可以利于我們更好的做網(wǎng)站優(yōu)化,所以對(duì)于真正的SEO高手而言,分析蜘蛛日志是最直觀,最有效的額。