Astăzi, cei mai mulți utilizatori de Internet limitează căutările pe Web, asa ca vom limita acest articol pentru motoarele de căutare care se concentrează pe conținutul paginilor web.
Înainte de un motor de căutare pot să vă spun în cazul în care un fișier sau document este, trebuie să se constate. Pentru a găsi informații cu privire la sute de milioane de pagini web care există, un motor de căutare folosește roboți software special, numit păianjeni, pentru a construi liste de cuvinte gasite pe site-uri Web. Atunci când un păianjen își construiește listele sale, procesul este numit Web crawling. (Există unele dezavantaje de asteptare parte a Internetului World Wide Web - un set mare de nume Arachnidelor-centrice pentru instrumente este unul dintre ele.) Pentru a construi și menține o listă utilă de cuvinte, păianjeni unui motor de căutare au sa se uite la o mulțime de pagini.
Cum orice spider incepe calatoriile sale pe Web? Punctele de pornire obișnuite sunt liste de servere puternic utilizate și foarte populare pagini. Păianjenul va începe cu un site popular, indexarea cuvintele pe paginile sale și în urma fiecare link gasita pe site-ul. În acest fel, sistemul spidering începe repede să călătorească, întindere peste cele mai folosite porțiuni ale Web.
Google a inceput ca un motor de căutare academic. În lucrare care descrie modul în care a fost construit sistemul, Sergey Brin si Lawrence Page da un exemplu de cât de repede păianjeni lor pot lucra. Ei au construit sistemul lor inițială de a folosi mai multe păianjeni, de obicei, trei la un moment dat. Fiecare păianjen ar putea păstra aproximativ 300 de conexiuni la pagini Web deschise la un moment dat. La performanțe de vârf, folosind patru păianjeni, sistemul lor ar putea accesa cu crawlere peste 100 de pagini pe secunda, generând aproximativ 600 kilobytes de date în fiecare secunda.
Păstrarea totul execută rapid însemnat construirea unui sistem pentru a alimenta de informații necesare pentru a păianjeni. La începutul Sistemul Google a avut un server dedicat pentru a oferi URL-uri pentru a păianjeni. Mai degrabă decât în funcție de un furnizor de servicii de Internet pentru serverul de nume de domeniu (DNS), care se traduce numele unui server de la o adresă, Google a avut propria sa DNS, în scopul de a menține la un nivel minim întârzierile.
Atunci când păianjenul Google sa uitat la o pagină HTML, acesta a luat act de două luc