通過(guò)網(wǎng)站日志分析,會(huì)發(fā)現(xiàn)搜索引擎蜘蛛抓取了一些網(wǎng)站上不存在的文件后綴,如:.php、.asp、.aspx等。
搜外網(wǎng)站后臺(tái)日志分析結(jié)果如下圖:
搜外主站實(shí)際上不存在php后綴的URL地址。
可通過(guò)robots.txt文件禁止蜘蛛抓取不存在的后綴,減少出現(xiàn)404返回值。
在robots.txt文件填寫(xiě)屏蔽規(guī)則如下:
Disallow: /*.asp$ Disallow: /*.php$ Disallow: /*.aspx$
注意前面一個(gè)*,后面一個(gè)$,代表后綴。
參考搜外的robots.txt文件寫(xiě)法,點(diǎn)擊這里
擴(kuò)展閱讀: