Què és un crawler

    Saps que és un crawler?

    Què és un crawler, també conegut com aranya de la web, és un programari o webbot que s’encarrega de recórrer els enllaços de les pàgines webs d’una forma automàtica i sistemàtica.

    Què és un crawler. Què fa i com funciona un  Crawler ?

    Normalment, un crawler disposa d’un conjunt inicial de URL, conegudes com llavors, i va descarregant les pàgines web associades a les llavors i buscant dins d’aquestes altres URL.

    Cada nova URL trobada s’afegeix a la llista d’URLs que l’aranya web ha de visitar. És a dir, apartada URL per posteriorment processar-les. Així, el motor de cerca crearà un índex de les pàgines descarregades per proporcionar cerques més ràpides.

    Quan un crawler visita un lloc web opta per una d’aquestes dues alternatives:

    • Buscar el fitxer robots.txt i la meta etiqueta robots per veure les regles que s’han estipulat.
    • Elaborar un índex de les pàgines web que hi ha al seu lloc. Com? Explorant el contingut del text visible, de diverses etiquetes HTML i els hipervincles en llistats a la pàgina.

    Què és un crawler. Et sona Googlebot, dons és un crawler

    El crawler més famós del món és Googlebot, el programari dissenyat per Google per indexar el contingut nou o actualitzat d’Internet. Un cop el contingut està indexat, el servidor ho classifica i estableix un ordre de rellevància per a les diferents recerques que pugui efectuar un usuari, és a dir, el posiciona.

    De manera que, el primer pas necessari, per poder començar a competir per figurar entre les primeres posicions del cercador, és que la pàgina web sigui indexada pel crawler. Per a això, podem enviar directament la nostra URL a Google perquè sàpiga que ha de visitar-la.

    La freqüència amb la qual Googlebot accedeix a un lloc web depèn PageRank (mesura cada cop més en desús) aquest, a causa de que com més gran sigui aquest valor, el robot accedirà més reiteradament a les seves pàgines. En aquest sentit, els mitjans de comunicació són visitats cada dia per Googlebot, mentre que hi ha sites als quals no accedeix en setmanes.

    En darrer lloc, cal tenir en compte, que el crawler és un robot i només llegeix el codi font de la pàgina web que estigui rastrejant, no el disseny ni les imatges o el contingut en Flash, per això, hem de tenir una pàgina web optimitzada per aquest robot, ja que en cas contrari no ens prestarà atenció i no podrem posicionar-nos.

    About

    Leave a Reply

    L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *

    Us de cookies

    Aquest lloc web utilitza cookies perquè vostè tingui la millor experiència d'usuari. Si continua navegant està donant el seu consentiment per a l'acceptació de les esmentades cookies i l'acceptació de nostra política de cookies, punxi l'enllaç per a major informació .plugin cookies

    ACEPTAR
    Aviso de cookies
    %d bloggers like this: