Descoperirea cunoştinţelor
/ Knowledge Discovery >> Descoperirea cunoştinţelor >> tech >> calculator >> program de calculator >>

Cum Fișier de compresie Works

iu ocupă o unitate de memorie. Am văzut deja că expresia completă preia 79 de unități. Teză nostru comprimat (inclusiv spațiile) ocupă 37 de unități, și dicționarul (cuvinte și cifre), de asemenea, ocupă 37 de unități. Acest lucru ne dă o dimensiune de fișier de 74 de ani, asa ca nu am redus dimensiunea fișierului de foarte mult.

Dar aceasta este doar o singură propoziție! Vă puteți imagina că în cazul în care programul de compresie a lucrat prin restul discursului lui Kennedy, ar găsi aceste cuvinte și altele repetate mult mai multe ori. Și, după cum vom vedea în secțiunea următoare, ar fi, de asemenea, rescrierea dicționarul pentru a obține cea mai eficientă organizație posibil.
Caut modele

În exemplul nostru anterior, am ales tot repetate cuvinte și a pus cele dintr-un dicționar. Pentru noi, acesta este modul cel mai evident de a scrie un dicționar. Dar un program de compresie vede destul de diferit: nu are nici conceptul de cuvinte distincte - se pare doar pentru modele. Și în scopul de a reduce dimensiunea fișierului cât mai mult posibil, se selectează cu atenție care a modelelor de a include în dicționar.

Dacă ne apropiem de fraza din acest punct de vedere, ne-am trezi cu un dicționar complet diferit.

În cazul în care programul de compresie scanat fraza lui Kennedy, prima concediere ar veni peste ar fi doar câteva litere. În " întrebați nu ceea ce dvs., " există un model repetată a scrisorii " T " urmat de un spațiu - în " nu " și ". ce " Dacă programul de compresie a scris acest lucru la dicționar, s-ar putea scrie un " 1 " de fiecare dată când un " T " au fost urmate de un spațiu. Dar, în această frază scurtă, acest model nu se produce suficient pentru a face o intrare merită, astfel încât programul ar suprascrie în cele din urmă

Următorul lucru pe care programul ar putea observa este ". Ou, " care apare atât în ​​" dvs. " și ". țară " Dacă acest lucru ar un document mai lung, scris acest model la dicționar ar putea salva o mulțime de spațiu - " ou " este o combinație destul de comun în limba engleză. Dar, așa cum a programului de compresie a lucrat prin această teză, se va descoperi repede o alegere mai bună pentru o intrare dicționar: Nu numai ca este " ou " repetate, dar întregul cuvintele " dvs. " și " țară " sunt atât de repetate, și ei sun

Page [1] [2] [3] [4] [5] [6]