|
|
1. 什么是robots.txt?
/ R+ u0 C4 @1 e% D robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,
* o5 W0 j# S; V- s7 Z如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。8 T( i4 o/ u2 L
2. robots.txt语法
5 [8 p) \9 t1 @: d* N* x1) 允许所有搜索引擎访问网站的所有部分& K) U5 i8 \2 A0 x" d$ z% @
robots.txt写法如下:2 q+ |4 n' l" l7 i
User-agent: *
1 {# H) Z( f4 hDisallow:
. s5 r: k+ b& g2 f" w# q或者
% V/ m: v+ T0 E' M EUser-agent: *4 c* ]# q# T1 Y0 Z( `
Allow: /
" ~( @. R/ U% u# Q( y( U9 s注意: 1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。& A9 }. J) t& N0 n* }# L
) e9 V* ^& g6 Q# ~
2) 禁止所有搜索引擎访问网站的所有部分
. ?0 f t2 i, W5 Erobots.txt写法如下: P, v2 ?& t8 R' m
User-agent: *+ X" M6 F8 X3 Y* G! A" A \
Disallow: // I9 H/ i! h& w Y3 f: R" ^; p
# b# g( b3 d Y4 y9 I( g& p4 |3) 只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
0 l. _( \* [& E5 Y. @7 trobots.txt写法如下:
0 h1 p0 A0 D& T$ \/ H$ d" ]User-agent: *
, c: @) J4 I7 r1 hDisallow: /css/: S0 R& P2 u3 a9 m0 F8 r/ ]
Disallow: /admin/8 E5 o, @* a$ W/ ]1 L
Disallow: /images/! p/ Q- c! b5 Q9 k& T+ i
注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽, d I3 P) H* d0 }
& {6 ^! g0 c8 t/ S9 {4)屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main
) X: T9 o1 T+ Z X9 a. f$ Mrobots.txt写法如下:
# O, [' D: L/ [8 CUser-agent: *
: T+ [' q' B# P" O9 k9 t5 @9 Y( d6 xDisallow: /templets
6 j( E3 D v9 G+ g2 K4 `3 Y& \Allow: /main
7 o6 ?) H, B5 J" M ~
) o$ A$ W2 T L8 h2 L" F( ^5) 禁止访问html/目录下的所有以”.php”为后缀的URL(包含子目录)
( o% W- T$ t( G4 erobots.txt写法如下:) B: {4 X3 C( h, E. i- ?
User-agent: *
+ a! ~9 s5 c1 f% D- `: ODisallow: html/*.php' X( y1 t8 @, z- f2 ^
{; B: s$ U2 D6) 仅允许访问某目录下某个后缀的文件,则使用“$”8 ~. R+ g# u4 a( g
robots.txt写法如下:
5 L% n9 \( c3 v8 c8 mUser-agent: *; }/ p7 p$ Q. W2 H- ^
Allow: .html$% v, `) Q5 f8 G8 E: K
Disallow: /# u; n4 X8 L$ P: s6 W
: x3 J3 M6 @1 h s8 Y% h3 e% P2 i7)禁止索引网站中所有的动态页面' x, R7 A$ t' O
比如这里限制的是有“?”的域名,例如index.php?id=1
4 `6 m. U& W& Y+ N. brobots.txt写法如下:4 O7 ^, O$ U3 |; c* E: k6 H
User-agent: *: x4 x) S" M' ]6 y: B
Disallow: /*?*
* _& F0 A9 F! J: @( n* K0 R4 M8 S' a7 _: Y [ k
8) 禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)
: G, F4 T6 u- f9 m" G5 t有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。" E0 i4 U$ `3 E" j
robots.txt写法如下:. ]$ q2 a) i+ O6 t- b# N! R& Q
User-agent: *
/ ~" b! X$ y+ c) O* p5 @" I! jDisallow: .jpg$
5 Z: B9 \) f% y- BDisallow: .jpeg$
/ H9 r" b! y2 ?* L" {6 O2 sDisallow: .gif$
% M5 P0 z9 Y S# qDisallow: .png$5 H( a1 `8 y/ W( H1 K& c
Disallow: .bmp$0 R3 d# J: q" C' S. b* _; K1 \
o7 ^; B1 H$ N3 c写robots.txt要注意的地方, c% P- d0 b a" W
1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错;
# X9 F# z Q% j# |1 a+ m$ A2. 斜杠:/ 代表整个网站;4 y$ q7 i* a2 x
3.如果“/”后面多了一个空格,则屏蔽整个网站;
3 a) O1 ]$ m/ L4.不要禁止正常的内容;0 m2 ^7 a# u# U* ~ f" N
5.生效时间是几天到两个月 。
+ B" x! _" d4 v
$ d q7 n9 C# R |
|