Interaktivno glasovno uređivanje teksta korištenjem novih govornih tehnologija iz Yandexa. "Yandex.Dictation" - pretvorite govor u tekst Preuzmite Yandex diktat za android

  • 06.04.2020

Pozdrav dragi čitaoci! Pred vama je najneobičniji članak našeg bloga, jer se prilikom pisanja koristilo kucanje glasom. Stoga ćemo danas razgovarati o tome kako kucati tekst svojim glasom.

Ovo je metoda kucanja pomoću govora koji se prenosi preko mikrofona. Ova tema je vrlo relevantna za one koji rade s velikim obimom, na primjer, blogere, kao i osobe s invaliditetom. Ili za one koji još nisu savladali kompjutersku tastaturu.

Usluge glasovnog biranja

Postoje servisi koji rade na mreži, a postoje i programi koji su instalirani na računaru.

Online usluge

Slobodno je Google razvoj Chrome, koji, shodno tome, radi samo u ovom pretraživaču. Mislim da s tim neće biti problema, jer je ovo najbolji pretraživač, a ako ga i dalje ne koristite, pročitajte članak o tome. Notepad se može instalirati direktno u pretraživač ili možete koristiti kucanje glasom tako što ćete otići na njihovu web stranicu.

Slično kao i prethodni servis, takođe radi samo u google chrome. Korištenje je elementarno: biramo željeni jezik i aplikacija se sama ispisuje pod diktatom.

Prednosti ove besplatne usluge su prisustvo glasovnih upita, mogućnost pregleda opcija prepoznavanja. Tu je i zgodan uređivač pomoću kojeg možete kopirati primljeni materijal, odštampati ga na štampaču, prenijeti na strani jezici ili poslati poštom.

Da biste koristili biranje bez dodirivanja tastature, morate otvoriti karticu „Alati“, a zatim kliknite na “Glasovni unos…”

Različite komande za uređivanje i formatiranje trenutno su dostupne samo na engleski jezik, ali za ruski jezik su podržani naredbe za interpunkciju:

  • "tačka",
  • "zarez",
  • "Uzvičnik",
  • "upitnik",
  • "nova linija",
  • "novi stav"

Kao što je praksa pokazala, vrlo je zgodno.

Programi

Plaćeni program koji uz pomoć glasa ne samo da štampa na računaru i postavlja znakove interpunkcije, već i prija dodatne opcije: može audio, također možete proširiti verziju s rječnicima (na primjer, pravnim terminima ili drugim).

Podržano operativni sistemi, počevši od Windows 7 i novijih.

Cijena: od 1.690 rubalja.

Besplatno je i može zadovoljiti ambicije mnogih korisnika. Njegova privlačnost leži u činjenici da može prepoznati glas na 50 jezika. Za praktično korištenje, tu su prečice, možete sami odabrati izvor zvuka, ispraviti prepoznati tekst.

Prednosti i nedostaci glasovnog biranja

Pros:

  • Zahvaljujući ovim aplikacijama, freelanceri mogu dobro zaraditi radeći transkripciju. Mnogi zadaci ove vrste mogu se naći na Work-zilla berzi, koja je omiljeno mesto za novajlije rad na daljinu. Samo treba da uključite program i ispravite tekst u Wordu malo kasnije.
  • Ušteda vremena i truda.
  • Odlično otkriće za osobe sa invaliditetom.
  • Za kreativne ljude, gore navedene usluge su spas, sve ideje se mogu brzo zapisati, jednostavnim izgovaranjem kako se ne bi zaboravile.

Nažalost, postoje minusi kada koristite ove usluge:

  • Ako u prostoriji u kojoj diktirate ima stranih zvukova, tada se prepoznavanje riječi i fraza značajno pogoršava.
  • Mnoge online aplikacije dostupne su samo u pregledniku Google Chrome.
  • Nakon kucanja, potrebno je vrijeme da uredite i ispravite tekst.
  • Neophodno je imati visokokvalitetan osjetljiv mikrofon.
  • Poželjno je imati dobru dikciju kako bi se smanjio rizik od grešaka.

Zaključak

Sumirajući ovaj članak, možemo reći da je tehnologija daleko napredovala, i ako je ranije sve trebalo kucati ručno, sada je to sasvim moguće učiniti jednostavnim diktiranjem informacija glasom. Naravno, ne postoji garancija savršenog prepoznavanja, ali napredak je očigledan.

Uz razvoj aplikacija koje uvelike olakšavaju rad udaljenih radnika, možete postići maksimalnu produktivnost i brže zadatke. Stoga se nadamo da će vam ovaj članak pomoći da postanete efikasniji u svom radu.

Ostavite svoje povratne informacije o radu različitih servisa za prepoznavanje govora u komentarima.

Sve najbolje!

Zdravo, prijatelji! Nedavno sam opisao dvije korisne aplikacije: prva je mobilna aplikacija za dijeljenje fotografija, a druga je u pretraživaču Google Chrome. Ali, kako kažu, Bog voli trojstvo, pa sam ipak odlučio da napravim trilogiju i da vas upoznam sa još jednom korisnom stvari - mobilna aplikacija Yandex.Dictation, koji vam omogućava da kucate tekst svojim glasom.

Aplikacija Yandex.Dictation je relativno nova i stalno se poboljšava. Biće korisno i za školarce i za ljude mnogih profesija, uključujući blogere. Pomoću njega možete izdiktirati bilo koji tekst, riječima opisati svoje utiske, razmišljanja... kako biste kasnije sve to prenijeli na papir, složili u određeni članak, ubacili bilješku u svoj mikroblog ili lični dnevnik. Budući da je sama aplikacija mobilna, možete je koristiti u bilo kojoj prikladnoj situaciji i uštedjeti svoje vrijeme.

U principu, na internetu postoji mnogo takvih rješenja. Na primjer, o čemu sam već pisao. On je, naravno, popularniji od Yandex.Dictationa, i za njega je dostupna ekstenzija u Google Chromeu, ali nisam uspio pronaći njegovu mobilnu verziju.

Naravno, morat ćete finalizirati članak i postaviti potrebne linkove već na računar, ali to je i dalje brže od ručnog kucanja cijelog teksta. I ne morate da brinete o jedinstvenosti.

Na kraju, reći ću da vam je, da budem iskren, potreban više-manje pristojan mikrofon za rad u servisu Speechpad. U slučaju Yandex.Dictation, neće biti takvih problema, jer su slušalice moderne mobilni telefoni imaju odlične karakteristike.

Jedini problem koji stvarno utiče na prepoznavanje govora (i u bilo kojoj takvoj usluzi!) je govornikova dikcija. Ali ovo je popravljivo. Dikcija se može trenirati elementarnim vježbama, npr

Testiranje nova tehnologija prepoznavanje govora iz Ruska kompanija Yandex.


Uvod:

Yandex se sa sigurnošću može nazvati drugom najpopularnijom uslugom pretraživanja u Rusiji, koja aktivno radi na vlastitom razvoju, uključujući prepoznavanje govora. Nedavno je Yandex predstavio svoju novu aplikaciju, koja je još u fazi testiranja, ali svi je već mogu isprobati. Aplikacija se zove " Yandex.Dictation” i sigurno će vas iznenaditi.



funkcionalan:


Na glavnom ekranu aplikacije prikazana je kompletna lista unosa koje ste kreirali, a koji su dodatno sortirani po datumu. Ako ima puno zapisa, onda lako možete koristiti pretragu da pronađete onaj koji vam je potreban. Pažnja! Za korištenje aplikacije potrebna je aktivna internet veza. Da kreirate novi unos, samo izgovorite frazu "Slušaj Yandex" ili "Yandex zapis". Nakon toga možete početi da mu diktirate šta god vam srce želi, a on će jednostavno zapisati vaše misli. Glavna stvar je da ne govorite tiho i manje-više jasno. Jedino što do sada nije ohrabrujuće je da ako ste rekli neku kratku rečenicu, ali još niste završili svoju misao, Yandex misli da ste je već završili i da će sljedeća fraza početi velikim slovom. Nažalost, ova funkcija se ne može onemogućiti, ali ni Yandex se ne može kritizirati, jer je aplikacija još u fazi testiranja i biće dopunjena i ispravljena. Na glavnom ekranu u bočnoj traci naći ćete vrlo zanimljiv odjeljak pod nazivom “Primjeri naredbi”. Da, da, Yandex će moći da istakne ceo napisani tekst ili samo reč (rečenicu), izbriše, kopira ili izgovori napisani tekst, kao i mnoge druge zanimljive komande.


Rezultati:


U postavkama možete omogućiti/onemogućiti zvučne efekte ako ometaju. Da rezimiramo: " Yandex.Dictation” je odlična aplikacija za brzo pisanje jednostavnih bilješki, koja ima ogroman potencijal i vjerujte mi, glasovna kontrola je jako zarazna. Sretno korištenje!

Danas se u AppStore i Google Play pojavila naša aplikacija Dictation za interaktivno pisanje i uređivanje teksta glasom. Njegov glavni zadatak je demonstrirati neke od novih mogućnosti Yandex govornog tehnološkog kompleksa. Radi se o onome što je zanimljivo i jedinstveno u našim tehnologijama za prepoznavanje govora i sintezu o čemu želim govoriti u ovom postu.

Par riječi da shvatite o čemu će biti riječi. Yandex već dugo nudi besplatni mobilni API koji se može koristiti, na primjer, za prepoznavanje adresa i glasovne upite za pretraživanje. Tokom ove godine uspjeli smo dovesti njen kvalitet do gotovo istog nivoa na kojem takve zahtjeve i primjedbe razumiju i sami ljudi. I sada idemo na sljedeći korak - model za prepoznavanje slobodnog govora o bilo kojoj temi.

Osim toga, naša sinteza govora podržava emocije u glasu. I, koliko znamo, ovo je prva komercijalno dostupna sinteza govora s ovom mogućnošću.

O svemu tome, kao io nekim drugim karakteristikama SpeechKit-a: o glasovnoj aktivaciji, automatskoj interpunkciji i prepoznavanju semantičkih objekata u tekstu - pročitajte u nastavku.

Omnivorous ASR i kvaliteta prepoznavanja

Sistem za prepoznavanje govora u SpeechKit-u radi sa različite vrste tekst, i Prošle godine radili smo na proširenju njegovog obima. Da bismo to učinili, kreirali smo novi jezički model, najveći do sada, za prepoznavanje kratkih tekstova na bilo koju temu.

Tokom protekle godine, relativni udio pogrešno prepoznatih riječi (Word Error Rate) je smanjen za 30%. Na primjer, danas SpeechKit ispravno prepoznaje 95% adresa i geografskih objekata, približavajući se osobi koja razumije 96-98% riječi koje čuje. Potpunost prepoznavanja novog modela za diktiranje različitih tekstova sada je 82%. Sa ovim nivoom možete kreirati kompletno rešenje za krajnje korisnike, što smo želeli da pokažemo na primeru Diktata.

U početku, SpeechKit je radio samo za upite za pretragu: opšte teme i geo-navigaciju. Iako smo čak i tada planirali učiniti ne samo dodatni alat ulaz, "glasovnu" tastaturu, ali univerzalni interfejs koji će u potpunosti zamijeniti svaku interakciju sa sistemom razgovorom uživo.

Da biste to učinili, bilo je potrebno naučiti prepoznati bilo koji govor, tekstove na proizvoljnu temu. I počeli smo raditi na posebnom jezičkom modelu za to, koji je bio nekoliko puta veći od postojećih modela geo-navigacije i generalnog pretraživanja.

Ova veličina modela postavila je nove uslove u pogledu računarskih resursa. Za svaki kadar se razmatra nekoliko hiljada opcija prepoznavanja - i što više uspijemo, to je veći kvalitet. I sistem bi trebao raditi u toku, u realnom vremenu, tako da sve proračune treba dinamički optimizirati. Eksperimentirali smo, pokušavali, tražili pristup: postigli smo ubrzanje, na primjer, promjenom biblioteke linearne algebre.

Ali najvažnije i najteže je bilo prikupiti dovoljno ispravnih podataka pogodnih za podučavanje strujnog govora. Trenutno se oko 500 sati ručno transkribovanog govora koristi za obuku akustičnog modela. To i nije tako velika baza – za poređenje, popularno-naučni korpus Switchboard, koji se često koristi u istraživačke svrhe, sadrži otprilike 300 sati živahnih, spontanih razgovora. Naravno, povećanje baze doprinosi povećanju kvaliteta obučenog modela, ali mi se fokusiramo na ispravnu pripremu podataka i precizno modeliranje transkripcija, što nam omogućava da treniramo sa prihvatljivim kvalitetom na relativno maloj bazi.

Nekoliko riječi o tome kako funkcionira modul za prepoznavanje (o tome smo detaljno pričali prije nekog vremena). Snimljeni govorni tok se reže u okvire od 20 ms, spektar signala se skalira i nakon serije transformacija dobijaju se MFCC-ovi za svaki okvir.

Koeficijenti se unose u akustički model, koji izračunava distribuciju vjerovatnoće za približno 4000 senona u svakom okviru. Senon je početak, sredina ili kraj fonema.

SpeechKit akustični model je izgrađen na kombinaciji skrivenih Markov modela i duboke neuronske mreže (feedforward DNN). Ovo je već provjereno rješenje, a u prošlom članku smo govorili o tome kako je napuštanje Gaussovih mješavina u korist DNN-a dovelo do gotovo dvostrukog skoka u kvaliteti.

Zatim dolazi prvi jezički model: nekoliko WFST-ova - ponderiranih konačnih pretvarača - pretvaraju senone u foneme zavisne od konteksta, a cijele riječi se grade od njih pomoću rječnika izgovora, a stotine hipoteza se dobijaju za svaku riječ.

Konačna obrada se odvija u modelu drugog jezika. S njim je povezan RNN, rekurentna neuronska mreža, a ovaj model rangira primljene hipoteze, pomažući da se izabere najvjerovatnija opcija. Mreža rekurentnog tipa je posebno efikasna za jezički model. Određujući kontekst svake riječi, može uzeti u obzir utjecaj ne samo najbližih riječi, kao u neuronskoj mreži s napredovanjem (recimo, za trigramski model, to su dvije prethodne riječi), već i daljih riječi, kao da ih se "sećaju".

Dugo povezano prepoznavanje teksta dostupno je u SpeechKit Cloud-u i SpeechKit Mobile SDK-u - da biste koristili novi jezički model, morate odabrati temu "bilješke" u parametrima upita.

Glasovna aktivacija

Druga ključna komponenta glasovnog interfejsa je sistem glasovne aktivacije, koji pokreće željenu akciju kao odgovor na ključnu frazu. Bez toga neće biti moguće u potpunosti "odvezati ruke" korisniku. Razvili smo vlastiti modul za glasovnu aktivaciju za SpeechKit. Tehnologija je vrlo fleksibilna - programer koji koristi biblioteku SpeechKit može odabrati bilo koju ključnu frazu za svoju aplikaciju.

Za razliku od, na primjer, Googleovih rješenja, njihovi programeri koriste duboku neuronsku mrežu da prepoznaju frazu "Ok Google". DNN daje visok kvalitet, ali sistem aktivacije je ograničen na jednu komandu, a za obuku je potrebna ogromna količina podataka. Na primjer, model za prepoznavanje poznate fraze je obučen na primjeru više od 40.000 korisničkih glasova koji su svojim pametnim telefonima pristupili putem Google Nowa.

Uz naš pristup, modul za glasovnu aktivaciju je, u stvari, minijaturni sistem za prepoznavanje. Radi samo u težim uslovima. Prvo, prepoznavanje komande treba da se desi na samom uređaju, bez kontakta sa serverom. A računarska snaga pametnog telefona je veoma ograničena. Potrošnja energije je također kritična - ako je običan modul za prepoznavanje uključen samo na određeno vrijeme za obradu određenog zahtjeva, tada modul za aktivaciju radi stalno, u stanju pripravnosti. I u isto vrijeme ne bi trebalo postaviti bateriju.

Ipak, postoji popustljivost - sistemu za aktivaciju je potreban vrlo mali rečnik, jer mu je dovoljno da razume nekoliko ključnih fraza, a ostatak govora se jednostavno može zanemariti. Stoga je model aktivacijskog jezika mnogo kompaktniji. Većina WFST stanja odgovara određenom dijelu naše komande - na primjer, "početak četvrtog fonema". Postoje i stanja "đubreta" koja opisuju tišinu, vanjsku buku i sav drugi govor osim ključna fraza. Ako punopravni model prepoznavanja u SpeechKit-u ima desetke milijuna stanja i zauzima do 10 gigabajta, tada je za glasovnu aktivaciju ograničen na stotine stanja i stane u nekoliko desetina kilobajta.

Stoga se model za prepoznavanje nove ključne fraze gradi bez poteškoća, što vam omogućava da brzo skalirate sistem. Postoji jedan uslov - naredba mora biti dovoljno duga (po mogućnosti - više od jedne riječi) i rijetko se javlja u svakodnevnom govoru kako bi se isključili lažno pozitivni rezultati. “Molim” nije dobro za glasovnu aktivaciju, ali “slušaj moju komandu” je u redu.

Zajedno sa ograničenim jezičkim modelom i "lakom" akustikom, prepoznavanje komandi je u moći svakog pametnog telefona. Ostaje da se pozabavimo potrošnjom energije. Sistem ima ugrađen detektor glasovne aktivnosti, koji prati pojavu ljudskog glasa u dolaznom audio streamu. Ostali zvukovi se zanemaruju, tako da je u pozadini potrošnja energije modula za aktivaciju ograničena samo na mikrofon.

sinteza govora

Treća glavna komponenta govorne tehnologije je sinteza govora (tekst-u-govor). TTS rješenje SpeechKit vam omogućava da izgovorite bilo koji tekst muškim ili ženskim glasom, pa čak i postavite željenu emociju. Nijedan od poznatih govornih mehanizama na tržištu nema ovu mogućnost.

Postoji nekoliko fundamentalno različitih tehnologija sinteze govora, i to u većini savremeni sistemi konkatenativna sinteza se koristi metodom "izbor jedinica". Unaprijed snimljeni uzorak glasa je izrezan na određene sastavni elementi(na primjer, kontekstualno zavisne foneme) od kojih se sastoji govorna baza. Zatim se sve željene riječi sastavljaju iz pojedinačnih jedinica. Ispada uvjerljiva imitacija ljudskog glasa, ali to je teško uočiti - na spojevima pojedinačnih jedinica pojavljuju se tembarski skokovi, neprirodne intonacije i oštri prijelazi. Ovo je posebno uočljivo kada izgovarate dugi povezani tekst. Kvalitet ovakvog sistema može se poboljšati povećanjem glasnoće govorne baze, ali to je dug i mukotrpan posao koji zahtijeva uključivanje profesionalnog i vrlo strpljivog govornika. A kompletnost baze uvijek ostaje usko grlo sistema.

U SpeechKit-u smo odlučili da koristimo statističku (parametarsku) sintezu govora zasnovanu na skrivenim Markovljevim modelima. Proces je u suštini sličan prepoznavanju, samo što se dešava u suprotnom smjeru. Originalni tekst se prosleđuje modulu G2P (grafem-fonema), gde se pretvara u niz fonema.

Zatim ulaze u akustički model, koji generiše vektore koji opisuju spektralne karakteristike svake foneme. Ovi brojevi se prosleđuju vokoderu, koji sintetiše zvuk.

Timbar takvog glasa je pomalo "kompjuterski", ali ima prirodne i glatke intonacije. Istovremeno, glatkoća govora ne zavisi od jačine i dužine teksta koji se čita, a glas se lako podešava. Dovoljno je navesti jedan ključ u parametrima zahtjeva, a modul sinteze će proizvesti glas odgovarajuće emocionalne boje. Naravno, nijedan sistem odabira jedinica to ne može učiniti.

Da bi glasovni model mogao izgraditi algoritme koji odgovaraju različitim emocijama, bilo ga je potrebno istrenirati na pravi način. Stoga je tokom snimanja naša koleginica Evgenia, čiji se glas čuje u SpeechKitu, izgovarala redom neutralnim glasom, radosna i, naprotiv, iznervirana. U toku obuke, sistem je identifikovao i opisao parametre i karakteristike glasa koji odgovaraju svakom od ovih stanja.

Nisu sve modifikacije glasa izgrađene na učenju. Na primjer, SpeechKit vam također omogućava da obojite sintetizirani glas parametrima "pijani" i "bolesni". Našim programerima je bilo žao Ženje, a ona nije morala da se napije pre snimanja ili da trči na hladno da bi se dobro prehladila.

Za pijani glas govor je usporen na poseban način - svaki fonem zvuči otprilike duplo sporije, što daje karakterističan efekat. A za pacijenta se podiže prag zvučnosti - zapravo se modelira ono što se događa s glasnim žicama osobe s laringitisom. Zvučnost različitih fonema zavisi od toga da li vazduh slobodno prolazi kroz ljudski vokalni trakt ili su glasne žice koje vibriraju na putu. U režimu "bolesti", svaka fonema je manje izražena, što čini glas promuklim, podmetnutim.

Statistički metod takođe omogućava brzo širenje sistema. U modelu odabira jedinice, da biste dodali novi glas, morate kreirati zasebnu govornu bazu. Spiker mora snimiti mnogo sati govora, uz besprijekorno održavanje iste intonacije. U SpeechKitu, za stvaranje novog glasa, dovoljno je snimiti najmanje dva sata govora - otprilike 1800 posebnih, fonetski uravnoteženih rečenica.

Izolacija semantičkih objekata

Važno je ne samo prevesti riječi koje osoba izgovara u slova, već i ispuniti ih značenjem. Četvrta tehnologija, koja je dostupna u ograničenom obliku u SpeechKit Cloud-u, ne odnosi se direktno na rad s glasom – počinje raditi nakon što se izgovorene riječi prepoznaju. Ali bez toga se ne može napraviti potpuni snop govornih tehnologija - to je odabir semantičkih objekata u prirodnom govoru, koji na izlazu daje ne samo prepoznat, već već označen tekst.

Sada SpeechKit implementira izbor datuma i vremena, puna imena, adrese. Hibridni sistem kombinuje gramatike bez konteksta, rečnike ključne riječi i statistički podaci pretraživanja i raznih Yandex servisa, kao i algoritmi mašinskog učenja. Na primjer, u frazi "idemo u ulicu Lava Tolstoja", riječ "ulica" pomaže sistemu da odredi kontekst, nakon čega se odgovarajući objekt nalazi u bazi podataka Yandex.Maps.

U Diktatu smo na ovoj tehnologiji izgradili funkciju uređivanja teksta glasom. Pristup izdvajanju entiteta je fundamentalno nov, a naglasak je na jednostavnosti konfiguracije - ne morate znati programiranje da biste postavili sistem.

Sistemski ulaz je lista različitih tipova objekata i primjera fraza iz živog govora koji ih opisuju. Nadalje, obrasci se formiraju iz ovih primjera koristeći metodu Pattern Mining. Uzimaju u obzir početni oblik, korijene, morfološke varijacije riječi. Sljedeći korak je davanje primjera korištenja odabranih objekata u različitim kombinacijama, što će pomoći sistemu da razumije kontekst. Na osnovu ovih primjera izgrađen je skriveni Markov model, gdje objekti odabrani u replici korisnika postaju vidljiva stanja, a objekti koji im odgovaraju iz predmetnog polja sa već poznatom vrijednošću postaju skrivena stanja.

Na primjer, postoje dvije fraze: "ubaci 'zdravo prijatelju' na početak" i "nalijepi iz međuspremnika". Sistem utvrđuje da u prvom slučaju nakon “paste” (radnje uređivanja) postoji proizvoljan tekst, au drugom predmet koji mu je poznat („clipboard”) i različito reaguje na ove komande. U tradicionalnom sistemu, ovo bi zahtevalo ručno pisanje pravila ili gramatike, ali u novoj Yandex tehnologiji analiza konteksta se dešava automatski.

Autopunktuacija

Kada nešto diktirate, očekujete da ćete u rezultirajućem tekstu vidjeti znakove interpunkcije. I trebalo bi da se pojavljuju automatski kako ne biste morali da razgovarate sa interfejsom u telegrafskom stilu: "Dragi prijatelju - zarez - kako si - znak pitanja." Stoga je SpeechKit dopunjen automatskim sistemom interpunkcije.

Ulogu znakova interpunkcije u govoru igraju intonacijske pauze. Stoga smo u početku pokušali da izgradimo kompletan akustički i jezički model za njihovo prepoznavanje. Svakom znaku interpunkcije je dodijeljena fonema, a sa stanovišta sistema, u prepoznatom govoru pojavile su se nove "riječi", koje se u potpunosti sastoje od takvih "interpunkcijskih" fonema - gdje su bile pauze ili je intonacija promijenjena na određeni način.

Velika poteškoća nastala je sa podacima za obuku - u većini korpusa već postoje normalizovani tekstovi u kojima su znakovi interpunkcije izostavljeni. Također, u tekstovima upita za pretraživanje gotovo da i nema interpunkcije. Obratili smo se Eho Moskvi, koji je ručno transkribovao sve njihove emisije, a oni su nam dozvolili da koristimo njihovu arhivu. Brzo je postalo jasno da su ove transkripcije neprikladne za naše potrebe - napravljene su blizu teksta, ali ne i doslovno, pa stoga nisu bile pogodne za mašinsko učenje. Sljedeći pokušaj je napravljen sa audio knjigama, ali u njihovom slučaju, naprotiv, kvalitet je bio previsok. Dobro postavljeni glasovi koji ekspresivno recituju tekst su predaleko pravi zivot, a rezultati obuke na takvim podacima nisu se mogli primijeniti u spontanom diktatu.

Drugi problem je bio taj što je izabrani pristup imao negativan uticaj na opšti kvalitet prepoznavanje. Za svaku riječ, jezički model uzima u obzir nekoliko susjednih riječi kako bi ispravno odredio kontekst, a dodatne "interpunkcijske" riječi su ga neminovno sužavale. Višemjesečni eksperimenti nisu doveli do ničega.

Morali smo početi od nule - odlučili smo da stavimo znakove interpunkcije već u fazi naknadne obrade. Počeli smo s jednom od najjednostavnijih metoda, koja je, začudo, na kraju pokazala sasvim prihvatljive rezultate. Pauze između riječi dobijaju jedan od znakova: razmak, tačku, zarez, upitnik, uzvičnik, dvotočku. Za predviđanje koja oznaka odgovara određenoj pauzi, koristi se metoda uslovnih slučajnih polja (CRF). Za određivanje konteksta uzimaju se u obzir tri prethodne i dvije sljedeće riječi, a ova jednostavna pravila omogućuju postavljanje znakova s ​​prilično visokom preciznošću. Ali nastavljamo eksperimentirati s punopravnim modelima koji će moći ispravno interpretirati ljudske intonacije u smislu interpunkcije čak iu fazi prepoznavanja glasa.

Budući planovi

Danas se SpeechKit aktivno koristi za rješavanje "borbenih" zadataka u masovnim servisima za krajnje korisnike. Sljedeća prekretnica je naučiti prepoznati spontani govor u prijenosu uživo kako biste mogli transkribovati intervju u realnom vremenu ili automatski bilježiti predavanje, primajući već označeni tekst kao izlaz, s istaknutim tezama i ključnim činjenicama. Ovo je ogroman i naučno intenzivan zadatak koji još niko na svijetu nije uspio riješiti - a mi ne volimo druge!

Za razvoj SpeechKit-a je veoma važno Povratne informacije. Staviti

Yandex je objavio novu aplikaciju Yandex.Dictation koja vam omogućava da ocijenite govorne tehnologije kompanije. Program snima tekstove po diktatu i izvršava glasovne komande. Sada korisnik ne mora dodirivati ​​tastaturu da bi napisao bilješku ili kratku poruku.


Yandex.Dictation koristi tehnologije sa platforme za prepoznavanje glasa u oblaku Yandex SpeechKit, uključujući aktivaciju glasa, prepoznavanje govora, kontrolu glasa, interpunkciju i sintezu govora. Yandex SpeechKit je dizajniran za rad s ruskim i turskim jezikom, podržava kratke upite za bilo koju temu, geoupite i kratak diktat teksta. Prema Yandexu, kašnjenje u prepoznavanju ne prelazi jednu sekundu.


Svi tekstovi upisani glasom automatski se spremaju u aplikaciju, a nakon autorizacije u servisu Yandex.Disk. Bilo koji unos se može poslati SMS-om, poštom ili objaviti na društvenim mrežama.

Da bi aplikacija dobro razumjela korisnika, potrebno je da diktirate jasno, u mikrofon, odvajajući riječi jedne od drugih i izgovarajući završetke. Ako je fraza pogrešno prepoznata, može se ispraviti pomoću gumba "Korektor" - to će pomoći poboljšanju kvalitete prepoznavanja.


Yandex.Dictation vam omogućava da uređujete otkucani tekst pomoću glasa. Na primjer, možete reći "Izbriši posljednju riječ", "Počni na novom redu" ili "Dodaj smiješan emoji". Aplikacija ne samo da prepoznaje riječi, već i razumije njihovo značenje, tako da lista naredbi nije ograničena. Aplikacija se također fokusira na pauze u govoru i postavlja znakove interpunkcije.