Expert Stuff: Google Mike Cohen
Manager Google a tehnologiilor Speech Mike Cohen înțelege discurs la un nivel mai mulți dintre noi nu se gândesc. El înțelege la un nivel de bază de combinații de sunet și indicii contextuale. El trebuie să - el se ocupă de un departament de la Google, care funcționează pe tehnologia de recunoaștere a vorbirii
Predarea un computer pentru a recunoaște vorbirea este complicat.. Pentru a înțelege limba engleză, există multe obstacole trebuie să depășească. Limba engleză are o multime de omonime - cuvinte care suna la fel, dar fonetic inseamna lucruri diferite. Gândiți-vă la " a, " " doi " și " " prea., Oamenii care vorbesc cu accent sau într-un dialect regional poate pronunța cuvinte într-un mod care este în mod dramatic diferită de pronunția standard. Și apoi există cuvinte ca " traseu " care au pronunții alternative - vă pot spune " rădăcină " sau " fugă " și ambele sunt corecte.
Cum vă învețe un calculator pentru a face aceste distincții? Cum poate o mașină de înțelege ce spunem și să răspundă în mod corespunzător? Acestea sunt provocările Cohen si fata lui echipa de la Google. Am vorbit cu Cohen și ia cerut să dea mai multe detalii despre activitatea sa în cercetare și aplicații de recunoaștere a vorbirii.
Pe fiecare pagină, veți vedea întrebările noastre în titlu și răspunsurile lui Cohen în organism. Am început cu elementele de bază ale tehnologiei de recunoaștere a vorbirii, după cum veți vedea pe pagina următoare.
Cum funcționează tehnologia de recunoaștere vocală la un nivel de bază?
OK, deci fundamental, modul în care câmpul a trecut peste ultimele decenii este mai mult spre abordări de date condus sau statistice-modelare. Ce vreau să spun prin asta este, mai degrabă decât de oameni merg în și să încerce să programa toate aceste reguli sau toate aceste descrieri de modul în care funcționează limba, am încercat de a construi modele în cazul în care ne-am putea hrăni o mulțime de date de modelele, si modele vor învăța despre structura discursului din datele. Deci, abordări bazate pe date sunt abordări bazate pe construirea de modele statistice mari ale limbii de alimentandu-l o mulțime de date.
Acesta este primul principiu, și că mișcarea spre masina de învățare, sau sau abordări statistice a fost de fapt bazate pe date una dintre cele mai importante prog