Descoperirea cunoştinţelor
/ Knowledge Discovery >> Descoperirea cunoştinţelor >> tech >> calculator >> Internet >> Noțiuni de bază despre internet >>

Cum Deep Web Works

suprafață. Astăzi Web are mai mult de 555 milioane de domenii înregistrate. Fiecare dintre aceste domenii pot avea zeci, sute sau chiar mii de sub-pagini, dintre care multe nu sunt catalogate, și cad astfel în categoria Deep Web.

Deși nimeni nu stie cu adevarat sigur, adâncime Web poate fi la 400 la 500 de ori mai mare ca Web suprafață [sursa: BrightPlanet]. Și atât de suprafață și adâncime Web să crească mai mare și mai mare în fiecare zi.

Pentru a înțelege de ce atât de multe informații este din vedere de motoarele de căutare, acesta ajută să aibă un pic de fond pe tehnologii căutare. Puteți citi totul despre asta cu modul în care Internet motoarele de căutare de lucru, dar vă vom oferi o trecere in revista rapid aici.

Motoarele de căutare a crea, în general, un index al datelor de a găsi informații care este stocat pe site-urile Web și alte resurse online . Acest proces înseamnă utilizarea păianjeni sau crawlerele automate, care localiza domenii și apoi urmați link-uri către alte domenii, cum ar fi un Arachnidelor urma cârceii mătăsoase ale unui web, într-un sens crearea unei hărți a întins pe Web.

Acest indice sau harta este cheia pentru a găsi date specifice care este relevant pentru nevoile dumneavoastra. De fiecare dată când introduceți un cuvânt cheie de căutare, rezultatele apar aproape instantaneu, datorită indicelui respectiv. Fără ea, motorul de căutare va trebui pur și simplu să înceapă căutarea miliarde de pagini de la zero de fiecare dată când cineva a vrut informații, un proces care ar fi atât greoi și exasperant.

Dar motoarele de căutare nu poate vedea datele stocate la Web profund. Există incompatibilități de date și obstacole tehnice care complică eforturile de indexare. Există site-uri web private, care necesită parole de conectare înainte de a putea accesa conținutul. Crawlerele nu pot penetra date care necesită căutări de cuvinte cheie pe un singur, specific site-ul Web. Există site-uri de acces a expirat, care nu mai permit opiniile publice o dată o anumită limită de timp a trecut.

Toate aceste provocări, și o mulțime de alte persoane, face datele mult mai greu pentru motoarele de căutare pentru a găsi și index. Păstrați lectură pentru a vedea mai multe despre ceea ce separă suprafața și profundă Web.
Chiar sub
suprafață

După cum am menționat deja, există milioane și milioane de sub-pagini presărate de-a lungul a milioane de domenii. Există pagini interne fără link-

Page [1] [2] [3] [4] [5] [6] [7]