Editarea vocală interactivă a textului folosind noile tehnologii de vorbire de la Yandex. „Yandex.Dictation” - transformați vorbirea în text Descărcați dictarea Yandex pentru Android

  • 06.04.2020

Salutare dragi cititori! Înaintea ta este cel mai neobișnuit articol al blogului nostru, pentru că atunci când l-ai scris s-a folosit tastarea vocală. Prin urmare, astăzi vom discuta despre cum să introduceți textul cu vocea.

Aceasta este o metodă de tastare folosind vorbirea care este transmisă printr-un microfon. Acest subiect este foarte relevant pentru cei care lucrează cu volume mari, de exemplu, bloggeri, precum și persoanele cu dizabilități. Sau pentru cei care nu au stăpânit încă tastatura computerului.

Servicii de apelare vocală

Există servicii care funcționează online și există programe care sunt instalate pe un computer.

Servicii on-line

Este gratis Dezvoltare Google Chrome, care, prin urmare, funcționează doar în acest browser. Cred că nu vor fi probleme cu acest lucru, deoarece acesta este cel mai bun browser și, dacă tot nu îl utilizați, atunci citiți articolul despre. Notepad poate fi instalat direct în browser sau puteți utiliza tastarea vocală accesând site-ul lor web.

Similar cu serviciul anterior, funcționează și numai în Google Chrome. Folosirea lui este elementară: selectăm limba dorită și aplicația se imprimă singură sub dictare.

Avantajele acestui serviciu gratuit sunt prezența solicitărilor vocale, capacitatea de a vizualiza opțiunile de recunoaștere. Există, de asemenea, un editor convenabil cu care puteți copia materialul primit, îl puteți imprima pe o imprimantă, îl puteți transfera limbi straine sau trimite prin posta.

Pentru a utiliza apelarea fără a atinge tastatura, trebuie să deschideți fila „Unelte”, apoi faceți clic pe „Intrare vocală…”

Diverse comenzi pentru editare și formatare sunt disponibile în prezent numai pe Limba engleză, dar pentru limba rusă sunt acceptate comenzile de punctuație:

  • "punct",
  • "virgulă",
  • "Semn de exclamare",
  • "semnul întrebării",
  • "linie nouă",
  • "paragraf nou"

După cum a arătat practica, este foarte convenabil.

Programe

Un program plătit care, cu ajutorul vocii, nu numai că imprimă pe computer și setează semne de punctuație, dar și mulțumește opțiuni suplimentare: poate audio, puteți extinde versiunea și cu dicționare (de exemplu, cu termeni legali sau altele).

Sprijinit sisteme de operare, începând cu Windows 7 și versiuni ulterioare.

Preț: de la 1.690 de ruble.

Este gratuit și poate satisface ambițiile multor utilizatori. Atracția sa constă în faptul că poate recunoaște vocea în 50 de limbi. Pentru o utilizare convenabilă, există taste rapide, puteți alege singur sursa de sunet, puteți corecta textul recunoscut.

Avantaje și dezavantaje ale apelării vocale

Pro:

  • Datorită acestor aplicații, freelancerii pot câștiga bani frumoși făcând transcriere. Multe sarcini de acest fel pot fi găsite pe schimbul Work-zilla, care este un loc preferat pentru noii veniți. lucru la distanță. Trebuie doar să porniți programul și să corectați textul în Word puțin mai târziu.
  • Economisind timp și efort.
  • Descoperire grozavă pentru persoanele cu dizabilități.
  • Pentru oamenii creativi, serviciile de mai sus sunt salvatoare, toate ideile pot fi scrise rapid, pur și simplu prin exprimarea lor pentru a nu uita.

Din păcate, există minusuri atunci când utilizați aceste servicii:

  • Dacă există sunete străine în camera în care dictați, atunci recunoașterea cuvintelor și frazelor se deteriorează semnificativ.
  • Multe aplicații online sunt disponibile numai în browserul Google Chrome.
  • După ce ați tastat, trebuie să vă faceți timp pentru a edita și corecta textul.
  • Este necesar să aveți un microfon sensibil de înaltă calitate.
  • Este de dorit să aveți o dicție bună pentru a reduce riscul de erori.

Concluzie

Rezumând acest articol, putem spune că tehnologia a făcut un pas mult înainte, iar dacă mai devreme totul trebuia să fie tastat manual, acum este foarte posibil să o faci prin simpla dictare a informațiilor prin voce. Desigur, nu există nicio garanție a recunoașterii perfecte, dar progresul este evident.

Odată cu dezvoltarea de aplicații care facilitează foarte mult munca lucrătorilor la distanță, puteți obține productivitate maximă și sarcini mai rapide. Prin urmare, sperăm că acest articol te va ajuta să devii mai eficient în munca ta.

Lăsați feedback-ul dvs. despre activitatea diferitelor servicii de recunoaștere a vorbirii în comentarii.

Toate cele bune!

Bună prieteni! Recent, am descris două aplicații utile: prima dintre ele este o aplicație mobilă de partajare a fotografiilor, iar a doua este în browserul Google Chrome. Dar, după cum se spune, Dumnezeu iubește o trinitate, așa că am decis să fac oricum o trilogie și să vă prezint încă un lucru util - aplicatie de mobil Yandex.Dictation, care vă permite să introduceți text cu vocea.

Aplicația Yandex.Dictation este relativ nouă și este în mod constant îmbunătățită. Va fi util atât pentru școlari, cât și pentru oameni de multe profesii, inclusiv pentru bloggeri. Cu el, puteți dicta orice text, vă puteți descrie impresiile, gândurile în cuvinte ... pentru a le transfera ulterior pe hârtie, aranjați într-un articol anume, introduceți o notă în microblog sau jurnal personal. Deoarece aplicația în sine este mobilă, o puteți utiliza în orice situație potrivită și vă puteți economisi timp.

În principiu, există multe astfel de soluții pe Internet. De exemplu, despre care am scris deja. Este, desigur, mai popular decât Yandex.Dictation și o extensie este disponibilă pentru el în Google Chrome, dar nu am reușit să-i găsesc versiunea mobilă.

Desigur, va trebui să finalizezi articolul și să plasezi deja pe computer linkurile necesare, dar este totuși mai rapid decât să tastezi tot textul manual. Și nu trebuie să vă faceți griji cu privire la unicitate.

În cele din urmă, voi spune că, pentru a fi sincer, aveți nevoie de un microfon mai mult sau mai puțin decent pentru a funcționa în serviciul Speechpad. În cazul Yandex.Dictation, nu vor exista astfel de probleme, deoarece căștile sunt moderne telefoane mobile au caracteristici excelente.

Singura problemă care afectează cu adevărat recunoașterea vorbirii (și în orice astfel de serviciu!) Este dicția vorbitorului. Dar acest lucru este reparabil. Dicția poate fi antrenată cu exerciții elementare, de exemplu, cum ar fi

Testare tehnologie nouă recunoașterea vorbirii de la firma ruseasca Yandex.


Introducere:

Yandex poate fi numit în siguranță al doilea cel mai popular serviciu de căutare din Rusia, care lucrează activ la propriile dezvoltări, inclusiv recunoașterea vorbirii. Cel mai recent, Yandex și-a prezentat noua aplicație, care este încă în stadiu de testare, dar toată lumea o poate încerca deja. Aplicația se numește „ Yandex.Dictarea” și cu siguranță te va surprinde.



Funcţional:


Ecranul principal al aplicației arată întreaga listă de intrări pe care le-ați creat, care sunt sortate suplimentar după dată. Dacă există o mulțime de înregistrări, atunci puteți utiliza cu ușurință căutarea pentru a găsi pe cea de care aveți nevoie. Atenţie! Este necesară o conexiune activă la internet pentru a utiliza aplicația. Pentru a crea o intrare nouă, spuneți doar expresia „Ascultați Yandex” sau „Înregistrare Yandex”. După aceea, poți începe să-i dictezi orice dorește inima ta și pur și simplu îți va scrie gândurile. Principalul lucru este să nu vorbiți în liniște și mai mult sau mai puțin clar. Singurul lucru care nu este încurajator până acum este că, dacă ai spus o propoziție scurtă, dar nu ți-ai terminat încă gândul, Yandex crede că ai terminat-o deja și următoarea frază va începe cu majusculă. Din păcate, această funcție nu poate fi dezactivată, dar nici Yandex nu poate fi criticat, deoarece aplicația este încă testată și va fi completată și corectată. Pe ecranul principal din bara laterală veți găsi o secțiune foarte interesantă numită „Exemple de comandă”. Da, da, Yandex va putea evidenția întregul text scris sau doar un cuvânt (propoziție), șterge, copia sau exprima textul scris, precum și multe alte comenzi interesante.


Rezultate:


În setări, puteți activa/dezactiva efectele sonore dacă acestea interferează. A rezuma: " Yandex.Dictarea” este o aplicație grozavă pentru a scrie rapid note simple, care are un potențial uriaș și credeți-mă, controlul vocal este foarte captivant. Utilizare fericită!

Astăzi, aplicația noastră Dictation pentru scrierea interactivă și editarea textului prin voce a apărut în AppStore și Google Play. Sarcina sa principală este de a demonstra unele dintre noile capacități ale complexului tehnologic de vorbire Yandex. Este vorba despre ceea ce este interesant și unic despre tehnologiile noastre de recunoaștere și sinteză a vorbirii despre care vreau să vorbesc în această postare.

Câteva cuvinte pentru a înțelege ce se va discuta. Yandex a oferit de mult un API mobil gratuit care poate fi utilizat, de exemplu, pentru recunoașterea adreselor și interogările de căutare vocală. Pe parcursul acestui an, am reușit să-i aducem calitatea aproape la același nivel la care astfel de solicitări și observații sunt înțelese de oamenii înșiși. Și acum facem următorul pas - un model de recunoaștere a libertății de exprimare pe orice subiect.

În plus, sinteza noastră de vorbire susține emoțiile din voce. Și, din câte știm, aceasta este prima sinteză de vorbire disponibilă comercial cu această capacitate.

Despre toate acestea, precum și despre câteva alte caracteristici ale SpeechKit: despre activarea vocii, punctuația automată și recunoașterea obiectelor semantice din text - citiți mai jos.

ASR omnivor și calitatea recunoașterii

Sistemul de recunoaștere a vorbirii din SpeechKit funcționează cu tipuri diferite text și Anul trecut am lucrat la extinderea domeniului său de aplicare. Pentru a face acest lucru, am creat un nou model de limbaj, cel mai mare de până acum, pentru recunoașterea textelor scurte pe orice subiect.

În ultimul an, proporția relativă a cuvintelor recunoscute eronat (rata de eroare a cuvintelor) a scăzut cu 30%. De exemplu, astăzi SpeechKit recunoaște corect 95% din adrese și obiecte geografice, apropiindu-se de o persoană care înțelege 96-98% din cuvintele pe care le aude. Completitudinea recunoașterii noului model de dictare a diferitelor texte este acum de 82%. Cu acest nivel, puteți crea o soluție completă pentru utilizatorii finali, ceea ce am vrut să arătăm în exemplul Dictării.

Inițial, SpeechKit a funcționat numai pentru interogări de căutare: subiecte generale și geo-navigație. Deși și atunci am plănuit să nu facem doar instrument suplimentar intrare, o tastatură „voce”, dar o interfață universală care va înlocui complet orice interacțiune cu sistemul cu o conversație live.

Pentru a face acest lucru, a fost necesar să înveți să recunoști orice discurs, texte pe o temă arbitrară. Și am început să lucrăm la un model de limbă separat pentru aceasta, care a fost de câteva ori mai mare decât modelele existente de geo-navigație și căutare generală.

Această dimensiune a modelului a stabilit noi condiții în ceea ce privește resursele de calcul. Pentru fiecare cadru sunt luate în considerare câteva mii de opțiuni de recunoaștere - și cu cât reușim mai mult, cu atât calitatea este mai mare. Și sistemul ar trebui să funcționeze într-un flux, în timp real, astfel încât toate calculele trebuie optimizate dinamic. Am experimentat, încercat, am căutat o abordare: am obținut accelerație, de exemplu, prin schimbarea bibliotecii de algebră liniară.

Dar cel mai important și mai dificil lucru a fost să colectezi suficiente date corecte potrivite pentru predarea vorbirii în flux. În prezent, aproximativ 500 de ore de vorbire transcrisă manual sunt folosite pentru a antrena modelul acustic. Aceasta nu este o bază atât de mare - prin comparație, corpus științific popular Switchboard, care este adesea folosit în scopuri de cercetare, conține aproximativ 300 de ore de conversații animate și spontane. Desigur, o creștere a bazei contribuie la creșterea calității modelului antrenat, dar ne concentrăm pe pregătirea corectă a datelor și modelarea corectă a transcripțiilor, ceea ce ne permite să ne antrenăm cu o calitate acceptabilă pe o bază relativ mică.

Câteva cuvinte despre cum funcționează modulul de recunoaștere (am vorbit despre asta în detaliu în urmă cu ceva timp). Fluxul de vorbire înregistrat este tăiat în cadre de 20 ms, spectrul semnalului este scalat, iar după o serie de transformări se obțin MFCC-uri pentru fiecare cadru.

Coeficienții sunt introduși în modelul acustic, care calculează distribuția probabilității pentru aproximativ 4000 de senoni în fiecare cadru. Senon este începutul, mijlocul sau sfârșitul unui fonem.

Modelul acustic SpeechKit este construit pe o combinație de modele Markov ascunse și o rețea neuronală de feedforward profundă (DNN feedforward). Aceasta este deja o soluție dovedită, iar în ultimul articol am vorbit despre modul în care abandonarea amestecurilor gaussiene în favoarea DNN a dat un salt aproape de două ori în calitate.

Apoi apare primul model de limbă: mai multe WFST - traductoare finale ponderate - transformă senonele în foneme dependente de context și din ele sunt construite cuvinte întregi folosind dicționarul de pronunție și se obțin sute de ipoteze pentru fiecare cuvânt.

Prelucrarea finală are loc în modelul a doua limbă. La acesta este conectat RNN , o rețea neuronală recurentă, iar acest model ierarhizează ipotezele primite, ajutând la alegerea celei mai plauzibile opțiuni. Rețeaua de tip recurent este deosebit de eficientă pentru modelul de limbaj. Determinând contextul fiecărui cuvânt, se poate lua în considerare influența nu numai a celor mai apropiate cuvinte, ca într-o rețea neuronală feed-forward (să zicem, pentru un model de trigramă, acestea sunt două cuvinte anterioare), ci și a celor mai îndepărtate, parcă le-ar „aminti”.

Recunoașterea textului conectat lung este disponibilă în SpeechKit Cloud și SpeechKit Mobile SDK - pentru a utiliza noul model de limbă, trebuie să selectați subiectul „note” în parametrii de interogare.

Activare vocală

A doua componentă cheie a interfeței vocale este sistemul de activare vocală, care declanșează acțiunea dorită ca răspuns la o frază cheie. Fără acesta, nu va fi posibil să „dezlegați pe deplin mâinile” utilizatorului. Am dezvoltat propriul nostru modul de activare vocală pentru SpeechKit. Tehnologia este foarte flexibilă - un dezvoltator care folosește biblioteca SpeechKit poate alege orice expresie cheie pentru aplicația sa.

Spre deosebire, de exemplu, de soluțiile Google, dezvoltatorii lor folosesc o rețea neuronală profundă pentru a recunoaște sloganul „Ok Google”. DNN oferă calitate înaltă, dar sistemul de activare este limitat la o singură comandă și este nevoie de o cantitate imensă de date pentru antrenament. De exemplu, un model pentru recunoașterea unei fraze familiare a fost instruit pe exemplul a peste 40.000 de voci de utilizatori care și-au accesat smartphone-urile cu Google Now.

Prin abordarea noastră, modulul de activare vocală este, de fapt, un sistem de recunoaștere în miniatură. Funcționează doar în condiții mai dure. În primul rând, recunoașterea comenzii ar trebui să aibă loc pe dispozitivul însuși, fără a contacta serverul. Și puterea de calcul a smartphone-ului este foarte limitată. Consumul de energie este, de asemenea, critic - dacă un modul de recunoaștere obișnuit este pornit doar pentru o anumită perioadă de timp pentru a procesa o anumită solicitare, atunci modulul de activare funcționează constant, în modul de așteptare. Și, în același timp, nu ar trebui să planteze bateria.

Cu toate acestea, există o îngăduință - sistemul de activare are nevoie de un dicționar foarte mic, pentru că este suficient ca acesta să înțeleagă câteva fraze cheie, iar restul discursului poate fi pur și simplu ignorat. Prin urmare, modelul limbajului de activare este mult mai compact. Majoritatea stărilor WFST corespund unei anumite părți a comenzii noastre - de exemplu, „începutul celui de-al patrulea fonem”. Există, de asemenea, stări „de gunoi” care descriu tăcerea, zgomotul străin și toate celelalte cuvinte, altele decât fraza cheie. Dacă un model de recunoaștere cu drepturi depline în SpeechKit are zeci de milioane de stări și durează până la 10 gigaocteți, atunci pentru activarea vocală este limitat la sute de stări și se încadrează în câteva zeci de kiloocteți.

Prin urmare, un model pentru recunoașterea unei noi fraze cheie este construit fără dificultate, permițându-vă să scalați rapid sistemul. Există o condiție - comanda trebuie să fie suficient de lungă (de preferință - mai mult de un cuvânt) și să apară rar în vorbirea de zi cu zi pentru a exclude fals pozitive. „Te rog” nu este bun pentru activarea vocală, dar „ascultă comanda mea” este bine.

Împreună cu un model de limbaj limitat și acustica „ușoară”, recunoașterea comenzilor este în puterea oricărui smartphone. Rămâne să ne ocupăm de consumul de energie. Sistemul are un detector de activitate vocală încorporat, care monitorizează aspectul unei voci umane în fluxul audio de intrare. Alte sunete sunt ignorate, astfel încât în ​​fundal consumul de energie al modulului de activare este limitat doar la microfon.

sinteza vorbirii

A treia componentă principală a tehnologiei vorbirii este sinteza vorbirii (text-to-speech). Soluția TTS SpeechKit vă permite să exprimați orice text cu o voce masculină sau feminină și chiar să setați emoția dorită. Niciunul dintre motoarele de voce cunoscute de pe piață nu are această capacitate.

Există mai multe tehnologii fundamental diferite de sinteză a vorbirii, și în majoritatea sisteme moderne sinteza concatenativă este utilizată prin metoda „selecției unității”. Eșantionul de voce preînregistrat este tăiat în specific elemente constitutive(de exemplu, foneme dependente de context) din care este compusă baza de vorbire. Apoi orice cuvinte dorite sunt asamblate din unități individuale. Se dovedește o imitație credibilă a unei voci umane, dar este greu de perceput - salturile de timbru, intonațiile nenaturale și tranzițiile ascuțite apar la joncțiunile unităților individuale. Acest lucru este vizibil mai ales atunci când exprimați un text lung conectat. Calitatea unui astfel de sistem poate fi îmbunătățită prin creșterea volumului bazei de vorbire, dar aceasta este o muncă lungă și minuțioasă care necesită implicarea unui vorbitor profesionist și foarte răbdător. Iar caracterul complet al bazei rămâne întotdeauna blocajul sistemului.

În SpeechKit, am decis să folosim sinteza statistică (parametrică) a vorbirii bazată pe modele Markov ascunse. Procesul este în esență similar cu recunoașterea, doar că se întâmplă în direcția opusă. Textul original este trecut la modulul G2P (grafem-to-phoneme), unde este convertit într-o secvență de foneme.

Apoi intră în modelul acustic, care generează vectori care descriu caracteristicile spectrale ale fiecărui fonem. Aceste numere sunt transmise vocoderului, care sintetizează sunetul.

Timbrul unei astfel de voci este oarecum „de calculator”, dar are intonații naturale și netede. În același timp, netezimea vorbirii nu depinde de volumul și lungimea textului citit, iar vocea este ușor de reglat. Este suficient să specificați o cheie în parametrii de solicitare, iar modulul de sinteză va produce o voce cu colorarea emoțională corespunzătoare. Desigur, niciun sistem de selecție a unităților nu poate face acest lucru.

Pentru ca modelul de voce să poată construi algoritmi corespunzători diverselor emoții, a fost necesar să-l antrenăm în mod corect. Prin urmare, în timpul înregistrării, colega noastră Evgenia, a cărei voce se aude în SpeechKit, și-a rostit pe rând replicile cu o voce neutră, veselă și, dimpotrivă, enervată. În cursul instruirii, sistemul a identificat și descris parametrii și caracteristicile vocii corespunzătoare fiecăreia dintre aceste stări.

Nu toate modificările vocii sunt construite pe baza învățării. De exemplu, SpeechKit vă permite și să colorați vocea sintetizată cu parametrii „beat” și „bolnav”. Dezvoltatorii noștri le-a părut rău pentru Zhenya și nu a trebuit să se îmbată înainte de a înregistra sau să alerge în frig pentru a se răci bine.

Pentru o voce beată, vorbirea este încetinită într-un mod special - fiecare fonem sună aproximativ de două ori mai lent, ceea ce dă un efect caracteristic. Și pentru pacient, pragul sonorității crește - de fapt, se modelează ceea ce se întâmplă cu corzile vocale ale unei persoane cu laringită. Sonoritatea diferitelor foneme depinde dacă aerul trece liber prin tractul vocal uman sau dacă corzile vocale care vibrează sunt în cale. În modul „boală”, fiecare fonem este mai puțin probabil să fie exprimat, ceea ce face ca vocea să fie răgușită, plantată.

Metoda statistică permite, de asemenea, extinderea rapidă a sistemului. În modelul de selecție a unității, pentru a adăuga o nouă voce, trebuie să creați o bază de vorbire separată. Crainicul trebuie să înregistreze multe ore de vorbire, păstrând în același timp aceeași intonație fără cusur. În SpeechKit, pentru a crea o voce nouă, este suficient să înregistrați cel puțin două ore de vorbire - aproximativ 1800 de propoziții speciale, echilibrate fonetic.

Izolarea obiectelor semantice

Este important nu numai să traduceți cuvintele pe care o persoană le rostește în litere, ci și să le umpleți cu sens. A patra tehnologie, care este disponibilă într-o formă limitată în SpeechKit Cloud, nu are legătură directă cu lucrul cu vocea - începe să funcționeze după ce cuvintele rostite sunt recunoscute. Dar fără el, nu se poate realiza un teanc complet de tehnologii de vorbire - aceasta este selecția obiectelor semantice în vorbirea naturală, care la ieșire oferă nu doar text recunoscut, ci deja marcat.

Acum SpeechKit implementează selecția de date și ore, nume complete, adrese. Sistemul hibrid combină gramatici fără context, dicționare Cuvinte cheieși date statistice de căutare și diverse servicii Yandex, precum și algoritmi de învățare automată. De exemplu, în expresia „să mergem la strada Leo Tolstoi”, cuvântul „stradă” ajută sistemul să determine contextul, după care obiectul corespunzător este localizat în baza de date Yandex.Maps.

În Dictation, am construit pe această tehnologie funcția de editare a textului prin voce. Abordarea extragerii entităților este fundamental nouă, iar accentul este pus pe simplitatea configurării - nu trebuie să cunoașteți programarea pentru a configura sistemul.

Intrarea sistemului este o listă de diferite tipuri de obiecte și exemple de fraze din vorbirea live care le descriu. În plus, modelele sunt formate din aceste exemple folosind metoda Pattern Mining. Ei iau în considerare forma inițială, rădăcinile, variațiile morfologice ale cuvintelor. Următorul pas este de a oferi exemple de utilizare a obiectelor selectate în diferite combinații, care vor ajuta sistemul să înțeleagă contextul. Pe baza acestor exemple se construiește un model Markov ascuns, în care obiectele selectate în replica utilizatorului devin stări observabile, iar obiectele care le corespund din câmpul subiect cu o valoare deja cunoscută devin stări ascunse.

De exemplu, există două expresii: „inserați „bună ziua prieten” la început” și „lipire din clipboard”. Sistemul stabilește că în primul caz, după „paste” (acțiune de editare), există un text arbitrar, iar în al doilea, un obiect cunoscut de acesta („clipboard”) și reacționează diferit la aceste comenzi. În sistemul tradițional, acest lucru ar necesita scrierea manuală a regulilor sau a gramaticilor, dar în noua tehnologie Yandex, analiza contextului are loc automat.

Autopunctuație

Când dictați ceva, vă așteptați să vedeți semne de punctuație în textul rezultat. Și ar trebui să apară automat, astfel încât să nu trebuiască să vorbiți cu interfața într-un stil telegrafic: „Dragă prieten – virgulă – ce mai faci – semn de întrebare”. Prin urmare, SpeechKit este completat de un sistem automat de punctuație.

Rolul semnelor de punctuație în vorbire este jucat de pauzele intonaționale. Prin urmare, inițial am încercat să construim un model acustic și lingvistic complet pentru recunoașterea lor. Fiecărui semn de punctuație i s-a atribuit un fonem, iar din punctul de vedere al sistemului, în vorbirea recunoscută au apărut noi „cuvinte”, constând în întregime din astfel de foneme de „punctuație” - unde au existat pauze sau intonație schimbată într-un anumit fel.

O mare dificultate a apărut cu datele pentru antrenament - în majoritatea corpurilor există deja texte normalizate în care semnele de punctuație sunt omise. De asemenea, aproape nu există semne de punctuație în textele interogărilor de căutare. Am apelat la Ekho Moskvy, care transcrie manual toate emisiunile lor și ne-au permis să le folosim arhiva. A devenit rapid clar că aceste transcrieri nu erau potrivite pentru scopurile noastre - au fost făcute aproape de text, dar nu literal și, prin urmare, nu erau potrivite pentru învățarea automată. Următoarea încercare a fost făcută cu audiobooks, dar în cazul lor, dimpotrivă, calitatea a fost prea mare. Vocile bine plasate, care recitează expresiv textul, sunt prea departe viata reala, iar rezultatele instruirii pe astfel de date nu au putut fi aplicate în dictare spontană.

A doua problemă a fost că abordarea aleasă a avut un impact negativ asupra calitate generală recunoaştere. Pentru fiecare cuvânt, modelul lingvistic ia în considerare mai multe cuvinte învecinate pentru a determina corect contextul, iar cuvintele suplimentare de „punctuație” l-au restrâns inevitabil. Câteva luni de experimentare nu au dus la nimic.

A trebuit să începem de la zero - am decis să punem semne de punctuație deja în etapa de post-procesare. Am început cu una dintre cele mai simple metode, care, în mod ciudat, a dat rezultate destul de acceptabile în cele din urmă. Pauzele dintre cuvinte primesc unul dintre semnele: spațiu, punct, virgulă, semn de întrebare, semn de exclamare, două puncte. Pentru a prezice ce etichetă corespunde unei anumite pauze, se utilizează metoda câmpurilor aleatoare condiționale (CRF). Pentru a determina contextul, se iau în considerare trei cuvinte precedente și două cuvinte ulterioare, iar aceste reguli simple vă permit să plasați semne cu o precizie destul de mare. Dar continuăm să experimentăm modele cu drepturi depline, care vor putea interpreta corect intonațiile umane în termeni de punctuație chiar și în stadiul recunoașterii vocii.

Planuri de viitor

Astăzi, SpeechKit este utilizat în mod activ pentru a rezolva sarcini de „combate” în serviciile de masă pentru utilizatorii finali. Următoarea etapă este să înveți să recunoști vorbirea spontană într-un flux live, astfel încât să poți transcrie un interviu în timp real sau să iei automat notițe la o prelegere, primind text deja marcat ca rezultat, cu teze evidențiate și fapte cheie. Aceasta este o sarcină uriașă și foarte intensă în știință pe care nimeni din lume nu a reușit să o rezolve încă - și nu ne plac alții!

Pentru dezvoltarea SpeechKit este foarte important Părere. A pune

Yandex a lansat o nouă aplicație Yandex.Dictation care vă permite să evaluați tehnologiile de vorbire ale companiei. Programul înregistrează texte din dictare și execută comenzi vocale. Acum utilizatorul nu trebuie să atingă tastatura pentru a scrie o notă sau un mesaj scurt.


Yandex.Dictation utilizează tehnologii din platforma cloud de recunoaștere a vocii Yandex SpeechKit, inclusiv activarea vocală, recunoașterea vorbirii, controlul vocal, punctuația și sinteza vorbirii. Yandex SpeechKit este proiectat să funcționeze cu limba rusă și turcă, acceptă interogări scurte despre orice subiect, geointerogări și dictare de text scurt. Potrivit Yandex, întârzierea recunoașterii nu depășește o secundă.


Toate textele tastate prin voce sunt salvate automat în aplicație și după autorizare în serviciul Yandex.Disk. Orice înregistrare poate fi trimisă prin SMS, prin poștă sau publicată pe rețelele de socializare.

Pentru ca aplicația să înțeleagă bine utilizatorul, trebuie să dictați clar, în microfon, separând cuvintele unul de celălalt și pronunțând finalurile. Dacă o frază a fost recunoscută incorect, aceasta poate fi corectată folosind butonul „Corrector” - acest lucru va ajuta la îmbunătățirea calității recunoașterii.


Yandex.Dictation vă permite să editați textul tastat folosind vocea. De exemplu, puteți spune „Ștergeți ultimul cuvânt”, „Începeți pe o linie nouă” sau „Adăugați un emoji amuzant”. Aplicația nu numai că recunoaște cuvintele, dar le înțelege și semnificația, astfel încât lista de comenzi nu este limitată. Aplicația se concentrează și pe pauzele în vorbire și plasează semne de punctuație.