sisteme de recunoaștere discurs ținut în urmă cu mai mult de 10 de ani, cu care se confruntă, de asemenea, posibilitatea de a alege între discurs discret și continuu. Este mult mai ușor pentru programul de a înțelege cuvintele, atunci când le vorbim separat, cu o pauză distinct între fiecare dintre ele. Cu toate acestea, cei mai mulți utilizatori preferă să vorbească într-o viteză normală, de conversație. Aproape toate sistemele moderne sunt capabile să înțeleagă vorbirii continue.
Vă mulțumim
Pentru acest articol, am vorbit cu John Garofolo, Director Discurs Group la tehnologiei de laborator de Informare al Institutului Național de Standarde și Tehnologie. Am dori, de asemenea, să-i mulțumesc lui Iosua Senecal pentru asistența sa cu acest articol.
Speech la date
Pentru a converti vorbire în text pe ecran sau o comandă de calculator, un calculator trebuie să treacă prin mai multe etape complexe . Când vorbești, să creați vibrații în aer. Analog-to-digital convertor (ADC) traduce acest analog val în date digitale care computerul poate înțelege. Pentru a face acest lucru, probe, sau digitizes, sunetul prin luarea măsurători precise ale undei la intervale frecvente. Sistemul filtrează sunetul digitizat pentru a elimina zgomotul nedorit, și, uneori, să-l separe în diferite benzi de frecvență (frecvența este lungimea de undă a undelor sonore, a auzit de oameni ca diferențele de smoală). Normalizeaza de asemenea sunetul, sau ajustează-l la un nivel volum constant. Acesta poate avea, de asemenea să fie aliniate temporal. Oamenii nu vorbesc întotdeauna cu aceeași viteză, astfel încât sunetul să fie ajustate pentru a se potrivi viteza de mostre de sunet șablon deja stocate în memoria sistemului.
Apoi semnalul este împărțit în segmente mici, scurte ca câteva sutimi de secundă, sau chiar miimi în cazul sunetelor consoane consoană - opriri consoana produse de obstrucționarea fluxului de aer la nivelul tractului vocal - ca " " p sau ". T " Programul se potrivește apoi aceste segmente de foneme cunoscute în limba corespunzătoare. Un fonem este cel mai mic element al unei limbi - o reprezentare a sunetelor pe care le facem și să pună împreună pentru a forma expresii semnificative. Există aproximativ 40 de f