Back to Question Center
0

Çi awayek riya rastîn a Destûra û Semalt li Robots.txt çi dike?

1 answers:

Ez şehrezek mezin a web-ê diçim. txt. Em guman li ser crawler gelek kêm gihîştin, lê gava ku em piraniya dikin, di derbarê rûbotên me de ne txt û em ji kerema xwe xeletî xistin. Lê belê di demjimêr de em di nav deverên spî digerin ku di bin destûra Destûra û Destûra Min rûpelên din dîtiye, hinek ji wan re dibêjin ku crawlên "pêşniyarên pêşîn", û yên ku ne diyar dikin - casette per bambini in plastica. Ew ji hinek hizrûbêran dibe. Ji bo nimûne, rûpelê Google di derbarê robotan de. Txt tê bikaranîn ev nimûne:

    Bikarhêner-agent: Googlebot
Diseleow: / folder1 /
Destûrê bide / / folder1 / myfile. html    

Bêguman, dê "rêveberiya yekemîn" li vir neyê xebitandin, çimkî ku crawler dê dê Diselow bibînin û herin, tu carî pelê ku bi taybetî bi destûr hatiye qedexekirin.

Em di eşkere de ne ku em ê hemî Destûrnameyên Destûr bidin, lê paşê em ê ji bo tiştek ku em ji bo crawlê crawl nekin. Em ê tiştê wenda bimînin.

Em bi serfiraziyeke mezin çêkiriye Destûra pêşî, û paşê lêpirsîn Diselow , fikrên ku ew Destûra destnîşankirin ji hêla bêtir taybet be Disallow . e. di nebûna pêşniyarên li hemberî wê), hemî destûrek destûr e. Lê paşê em li ser vê yekê tiştek digerin:

    Bikarhêner-agent: *
Disallow: / norobots /
Alîkar: /    

Li vir armanca vê yekê eşkere ye, lê ew Destûr bide / / dê botê ku kontrol dike Destûra pêşî bide pêşniyar bikin ku li ser vê malperê tiştek crawl bikî.

Heta ku di vê rewşê de kar dikî. Em dikarin hevalbendiyê Destûra Destûra Destûra û diyar bikin ku em ne destûr nabe ku tiştek di nav / norobots /. Lê ew di rûyê daristanan de derxistin:

    Bikarhêner-agent: *
Disallow: / norobots /
Destûra: / *. html   ? 

Pergala "yekem hevalbendî" her tiştî her astengî hilweşîne, lê ez pir caran gelek malperên xwe dibînim ku tiştek mîna mînakek kevnî nîşan dide, ji bo taybetî piştî piştî .

Pirsgirêka min, paşê, riya rast e ku tiştan rast e? Çem Semalt çi dibe ku botê ji botanîna baş-behaved hêvî dike ku ew bi qewotan tê. txt handling?

February 7, 2018

Yek ji pir girîng e: Divê daxuyaniyê Ji berî berî Diselow daxuyaniyek neyê, bila daxuyaniyên we diyar. Ji ber vê yekê nimûneya sêyemîn-no-na, bendeyên wê ne / norobots / index. html .

Bi gelemperî, wekî qaîdek kesane, min destnîşan kirina pêşîn û paşê ez pela û peldankên neheq da lîstim.

Va ye vir e ku ez di çi sê sê mînakan de bibînin.

Nimûne 1
Ez ê tevahiya / folder1 / rêveberê ji bilî myfile. pelê html . Ji ber ku ew eşkere bi destnîşankirin, ez dixwazim ev hêsan bi hêsantirkirina tevahiya rêkûpêk raweste û bi awayekî vexwarî ku pelê dijberî her pelê lîsteya ku ew dixwazin asteng kirin. Heke pirtûkxaneyê gelek pelan û subdirectoryên ku ji robotan ve girêdayî bûn. Pelê pelê txt dikare bi lezdariya zûtirîn bêhtir.

Nimûne 2
Ez ê wateya ku / norobots / rêkûpêk sînor e û her tiştek din heye ku tête crawled. Ez vê yekê dixwînim "her tişt ji bilî / norobots / directory" crawl ".

Nimûne 3
Wek mînakek 2, ez ê wateya ku / norobots / birêvek sînor e û hemî . HTML pelan ne di nav vê rêberê de heye ku ji bo crawlê tê. Min ev wekî "hemî crawl dixwînin. pelên htmlê lê lê naveroka di nav / norobots / directory de crawl nakin ".

Hêvîdariya ku bikarhênerê bot-ê ya navnîşana bot di URL de heye ku ew agahdariya zêdetir derheqên crawlingê û daxwazên diravkirina we bibînin yan jî bersiva we bidin ku hûn çawa rûbotên xwe dixwazin. txt şîrovekirin.