Back to Question Center
0

Semîtalîst Îslamabad û - Hûn Daxwazin Der barê Web Crawler dizanin

1 answers:

A crawler lêgerîna lêgerîn crawler bi serîlêdanê, pirtûkxane an bernameyek otomatîk e ku di seranserê Wide World-yê de tête agahdarî bernameyê ye ku agahdariya rojane ya ji bo mazeya lêgerînê ya taybet dide. Hûn ji we re şaş kir ku hûn çima hemî encamên cuda yên encamên ku hûn heman gotarên di Bing û Google de binivîse? Ji ber ku webpages her demjimêr tête kirin. Û wekî ku crawlên webê li ser rûpelên nû yên nû têne derxistin.

Profesor a sereke ji Semalt , dibêje ku crawlên web, wekî wekî pisporên otomatîk û malperên xweyî têne zanîn, li ser engên lêgerînê yên li ser algorîtmên cuda hene. Pêvajoya pêvajoya webê bi nasnameyên nû yên navnîşan dest pê dike ku divê ji ber vê yekê were derxistin, çimkî wan bi tenê vekirî an jî ji ber ku çend rûpelên wan yên malperên nû nû hene. Di navnîşana van URLan de di nav termê lêgerînê de çandinan têne zanîn.

Vîdeo van vîdyoyan paşîn serdana xwe û nirxandin ku bi pir caran naveroka nû ve tête kirin û polîtîkên spî rêber dikin. Di dema serdana, hemû rûpelên hyperlinkên li ser her rûpelan de têne naskirin û lîsteyê zêde kirin. Di vê rewşê de, ew e ku di navnîşan de zelal in ku dewletên lêgerînê yên lêgerîn yên algorithm û polîtîkayên cuda bikar tînin. Ji ber vê yekê dê dê ji encamên Google-ê û encamên Bing ên ji bo heman wesayîtên ku her weha gelekhev jî jî be.

Crawlers karsazên kurt yên karûbarên lêgerîna lêgerînê digire. Bi rastî, karê wan pir zehmet e ku ji ber sê sedemê jêrîn.

1. Hejmarên malperên li ser înternetê li her wextê. Hûn dizanin çend mîlyon malperên li ser malperê hene û her rojê her roj têne destpêkirin. Zêdetir hêjeya malpera li ser net, zehmet e ku ji bo crawlers ji bo demdirêj e.

2..Vê gavê ku malperên têne destpêkirin. Hûn dizanin ku malperên ku her roj nû ve têne destpêkirin?

3. Hêzdarkirina kîjan naverokê jî di nav malperên heyî de û bilî rûpelên dînamîkî guhertin.

Ew sê mijaran in ku ji bo mûçeyên web-ê bêne zehmet kirin. Li ser malperên malperê li ser bingeha yekem-pêş-xizmetê-xizmetê, gelemperî malperên pêşîn û rûpelên gerdûnî pêşîn bikin. Berî pêşînkirinê li ser polîtîkayên crawler tenê tenê 4 general lêgerînê ye.

1. Polîtîkaya hilbijartinê ji bo hilbijartina kîjan rûpelên pêşîn ji bo pêşîn tête tê bikaranîn.

2. Tîpa polîtîkayê ya re-serdan tê bikaranîn ji bo ku çiqas û rûpelên webê ji bo guhertinên mimkûnî veguherînin pir caran têne bikaranîn.

3. Polîtîkaya parallelîzasyonê tê bikaranîn ku tête ka çawa krawlers ji bo hemî zewacên zûtirîn belav kirin belav dikin.

4. Polîtîkaya polîtîk tête diyarkirin ku çiqas URL têne qeyd kirin ku ji ber zêdekirina malperên xwe biparêzin.

Ji bo zewacên zû û rastîn ên rastîn, crawlers divê teknolojiya celebek mezin heye ku destûrkirina destûr dike û rûpelên malperê kêm bikin, û ew jî pirtûkxaneyek pir baş e. Ev du dê dê ji bo çend hefteyan di hêla sedan mîlyonan de malperên crawl û bihêle hêsantir bikin.

Di rewşa rewşenbîr de, her rûpelê ji Web Wide Wide World ve tê vekir û ji hêla dîskerek pir pir-hişyarkirî ve tê girtin, rûpela malperên an URL-ê ji ber ku ew ji ber pêşdibistanek bijartek ji bo pêşîn ve derbas dibe derbas kirin. URL-yê pêşniyar kirin ku ji hêla dîskera pir pir-hişk ve têne dagîr kirin, da ku ji bo metadata û nivîsê wan ji bo cûrek zehf têne tomar kirin.

Niha, çend engineên mûçeyan an crawlers hene. Yek ji hêla Google ve tê bikaranîn e ku Google Crawler e. Bêguman web malperên, pirtûkên encamên lêgerîn dê dê nimûne an naverokek sifir vegerînin, ji ber rûpelên nû yên nû dê lîsteyê neyê kirin. Bi rastî, dê tiştek tiştek lêkolîner a liserxetê nabe.

November 29, 2017
Semîtalîst Îslamabad û ndash; Hûn Daxwazin Der barê Web Crawler dizanin
Reply