Descoperirea cunoştinţelor
/ Knowledge Discovery >> Descoperirea cunoştinţelor >> tech >> calculator >> Internet >> Noțiuni de bază despre internet >>

Cum Motoare de cautare pe Internet Work

bazează pagini noi, ACTIVE Fiecare secțiuni de timp ale paginii sunt afișate sau link-uri noi sunt urmate. În cazul în care un păianjen web acceseaza una dintre aceste pagini, și începe în urma toate link-urile pentru pagini noi, jocul ar putea confunda activitatea pentru un jucător uman de mare viteză și de spin de sub control. Pentru a evita astfel de situații, a fost dezvoltat protocolul de excludere robot. Acest protocol, puse în aplicare în secțiunea meta-tag la începutul unei pagini Web, spune un păianjen de a părăsi pagina pace -. La nici index cuvintele de pe pagina, nici să încerce să urmați link-uri de
Construirea Index

După ce păianjeni au terminat sarcina de a găsi informații cu privire la paginile Web (și ar trebui să rețineți că aceasta este o sarcină care nu este finalizat, de fapt - natura în continuă schimbare de pe Web înseamnă că paianjenii sunt întotdeauna crawling) , motorul de căutare trebuie să stocheze informațiile într-un mod care o face util. Există două componente cheie implicate în a face datele colectate accesibile utilizatorilor: Site-ul

  • Informațiile stocate cu datele
  • Metoda prin care informația este indexată Site-ul

    În cazul cel mai simplu, un motor de căutare ar putea stoca doar cuvântul și URL-ul unde a fost găsit. În realitate, acest lucru ar face pentru un motor de utilizare limitată, deoarece nu ar fi nici o modalitate de a spune dacă cuvântul a fost folosit într-o importantă sau un mod banal pe pagina, dacă cuvântul a fost folosit o dată sau de mai multe ori sau dacă pagina conținea link-uri către alte pagini care conțin cuvântul. Cu alte cuvinte, nu ar exista nici un fel de a construi lista de clasificare care încearcă să prezinte paginile cele mai utile în partea de sus a listei de rezultate ale căutării.

    Pentru a face pentru rezultate mai utile, magazin majoritatea motoarelor de căutare mai multe decât cuvântul și URL-ul. Un motor ar putea stoca numărul de ori că apare cuvântul pe o pagină. Motorul ar putea atribui o pondere de fiecare intrare, odată cu creșterea valorilor atribuite cuvinte, așa cum apar în partea de sus a documentului, în sub-rubrici, în link-uri, în meta tag-uri sau în titlul paginii. Fiecare motor de căutare comercial are o formulă diferită pentru atribuirea greutate cuvintele din indexul acestuia. Acesta este unul dintre motivele pentru care o căutare pentru același cuvânt pe diferite motoare de căutare va produce diferite liste, cu paginile prezentate în

    Page [1] [2] [3] [4] [5] [6] [7]