Ce este un păianjen motor de căutare?
motorul de căutare păianjeni, uneori numite crawlerele, sunt folosite de către motoarele de căutare pe Internet pentru a colecta informații despre site-uri Web și pagini web individuale. Motoarele de căutare au nevoie de informații de la toate site-urile și paginile; altfel nu ar ști ce pagini pentru a afișa, ca răspuns la o interogare de căutare sau cu ceea ce prioritate.
antenele motoarelor de căutare se târască prin intermediul internetului și de a crea cozi de site-uri web pentru a investiga mai departe. Ca un site Web specific devine acoperit de un păianjen, păianjen citește prin toate text, hyperlink-uri, meta tag-uri (meta tag-uri sunt formatate în mod special cuvinte cheie introduse în pagina Web într-un mod concepute pentru păianjen pentru a găsi și de a folosi) și codul . Folosind această informație, paianjenul oferă un profil de la motorul de căutare. Păianjen apoi adună informații suplimentare urmând hyperlink-uri de pe pagina Web, care îi conferă o mai bună colectare a datelor cu privire la aceste pagini. Acesta este motivul pentru care au link-uri pe pagina Web - și, chiar mai bine, alte pagini web care leagă de a ta -. Este atât de utilă în obținerea site-ul Web găsit de motoarele de căutare
Păianjenii au patru moduri de bază de culegere a informațiilor. Un tip de păianjen este folosit doar pentru a crea cozile de pagini web care urmează să fie căutate de către alte antene. Acest păianjen, care lucrează în modul "selecție", se prioritate ce pagini pentru a merge prin și verificarea pentru a vedea dacă o versiune anterioară a unei pagini a fost deja descărcat. Al doilea mod este un păianjen conceput special pentru a trece peste paginile care au fost accesate cu crawlere deja de un păianjen. Acest mod este numit "re-vizitare." Unele motoare de căutare sunt îngrijorat de faptul că o pagină a fost prea bine indexat de alte paianjeni, astfel încât acestea să utilizeze un mod de păianjen numit "politețe", care limitează crawling pagini suprasolicitat. În cele din urmă, "paralelizare" permite un păianjen să-și coordoneze eforturile de colectare a datelor cu alte antene motor de căutare care sunt crawling pe aceeași pagină.