通過網(wǎng)站日志分析,會發(fā)現(xiàn)搜索引擎蜘蛛抓取了一些網(wǎng)站上不存在的文件后綴,如:.php、.asp、.aspx等。
搜外網(wǎng)站后臺日志分析結果如下圖:
搜外主站實際上不存在php后綴的URL地址。
可通過robots.txt文件禁止蜘蛛抓取不存在的后綴,減少出現(xiàn)404返回值。
在robots.txt文件填寫屏蔽規(guī)則如下:
Disallow: /*.asp$ Disallow: /*.php$ Disallow: /*.aspx$
注意前面一個*,后面一個$,代表后綴。
參考搜外的robots.txt文件寫法,點擊這里
擴展閱讀: