Интерактивно гласово редактиране на текст с помощта на нови речеви технологии от Yandex. "Yandex.Dictation" - превърнете речта в текст Изтеглете Yandex диктовка за android

  • 06.04.2020

Здравейте скъпи читатели! Пред вас е най-необичайната статия в нашия блог, защото при писането й е използвано гласово въвеждане. Затова днес ще обсъдим как да пишете текст с гласа си.

Това е метод за писане с помощта на реч, която се предава през микрофон. Тази тема е много подходяща за тези, които работят с големи обеми, например блогъри, както и хора с увреждания. Или за тези, които все още не са усвоили компютърната клавиатура.

Услуги за гласово набиране

Има услуги, които работят онлайн, и има програми, които се инсталират на компютър.

Онлайн услуги

Безплатно е Разработка на Google Chrome, който съответно работи само в този браузър. Мисля, че няма да има проблеми с това, защото това е най-добрият браузър и ако все още не го използвате, прочетете статията за. Notepad може да се инсталира директно в браузъра или можете да използвате гласово въвеждане, като отидете на техния уебсайт.

Подобно на предишната услуга, също работи само в Google Chrome. Използването му е елементарно: избираме желания език и приложението се отпечатва под диктовка.

Предимствата на тази безплатна услуга са наличието на гласови подкани, възможността за преглед на опциите за разпознаване. Има и удобен редактор, с който можете да копирате получения материал, да го отпечатате на принтер, да го прехвърлите на чужди езициили изпращане по пощата.

За да използвате набиране, без да докосвате клавиатурата, трябва да отворите раздела „Инструменти“, след което щракнете върху „Гласово въвеждане…“

Различни команди за редактиране и форматиране в момента са налични само на английски език, но за руски език се поддържат пунктуационни команди:

  • "точка",
  • "запетая",
  • "Удивителен знак",
  • "въпросителен знак",
  • "нова линия",
  • "нов параграф"

Както показа практиката, това е много удобно.

Програми

Платена програма, която с помощта на глас не само печата на компютър и поставя препинателни знаци, но и харесва допълнителни опции: може да аудио, можете също да разширите версията с речници (например с правни термини или други).

Поддържа се операционна система, започвайки с Windows 7 и по-нова версия.

Цена: от 1690 рубли.

Той е безплатен и може да задоволи амбициите на много потребители. Неговата привлекателност се състои в това, че може да разпознава гласа на 50 езика. За удобно използване има горещи клавиши, можете сами да изберете източника на звук, да коригирате разпознатия текст.

Плюсове и минуси на гласовото набиране

Професионалисти:

  • Благодарение на тези приложения, фрийлансърите могат да правят добри пари, правейки транскрипция. Много задачи от този вид могат да бъдат намерени в борсата Work-zilla, която е любимо място за новодошлите дистанционна работа. Просто трябва да включите програмата и да коригирате текста в Word малко по-късно.
  • Спестяване на време и усилия.
  • Страхотна находка за хора с увреждания.
  • За креативните хора горните услуги са спасител, всички идеи могат бързо да бъдат записани, просто като ги изразите, за да не ги забравите.

За съжаление ги има минусикогато използвате тези услуги:

  • Ако в стаята, където диктувате, има външни звуци, разпознаването на думи и фрази се влошава значително.
  • Много онлайн приложения са достъпни само в браузъра Google Chrome.
  • След като напишете, трябва да отделите време за редактиране и коригиране на текста.
  • Необходимо е да имате висококачествен чувствителен микрофон.
  • Желателно е да имате добра дикция, за да намалите риска от грешки.

Заключение

Обобщавайки тази статия, можем да кажем, че технологията е стъпила далеч напред и ако по-рано всичко трябваше да се въвежда ръчно, сега е напълно възможно да го направите просто чрез диктуване на информация с глас. Разбира се, няма гаранция за перфектно разпознаване, но напредъкът е очевиден.

С разработването на приложения, които значително улесняват работата на отдалечените работници, можете да постигнете максимална производителност и по-бързи задачи. Затова се надяваме, че тази статия ще ви помогне да станете по-ефективни в работата си.

Оставете вашите отзиви за работата на различни услуги за разпознаване на реч в коментарите.

Всичко най-хубаво!

Здравейте приятели! Съвсем наскоро описах две полезни приложения: първото от тях е мобилно приложение за споделяне на снимки, а второто е в браузъра Google Chrome. Но, както се казва, Бог обича троицата, затова реших все пак да направя трилогия и да ви запозная с още нещо полезно - мобилно приложение Yandex.Dictation, който ви позволява да въвеждате текст с гласа си.

Приложението Yandex.Dictation е сравнително ново и непрекъснато се подобрява. Ще бъде полезно както за ученици, така и за хора от много професии, включително блогъри. С него можете да диктувате всеки текст, да опишете вашите впечатления, мисли с думи ... за да прехвърлите по-късно всичко на хартия, да го подредите в конкретна статия, да вмъкнете бележка във вашия микроблог или личен дневник. Тъй като самото приложение е мобилно, можете да го използвате във всяка подходяща ситуация и да спестите време.

По принцип в интернет има много такива решения. Например, за което вече писах. Той, разбира се, е по-популярен от Yandex.Dictation и има разширение за него в Google Chrome, но не успях да намеря мобилната му версия.

Разбира се, ще трябва да финализирате статията и да поставите необходимите връзки вече на компютъра, но все пак е по-бързо, отколкото да въвеждате целия текст на ръка. И не е нужно да се притеснявате за уникалността.

И накрая, ще кажа, че, за да бъда честен, имате нужда от повече или по-малко приличен микрофон, за да работите в услугата Speechpad. В случай на Yandex.Dictation няма да има такива проблеми, тъй като слушалките са модерни мобилни телефониимат отлични характеристики.

Единственият проблем, който наистина засяга разпознаването на реч (и във всяка подобна услуга!), Е дикцията на говорещия. Но това е поправимо. Дикцията може да се тренира с елементарни упражнения, например като

Тестване нова технологияразпознаване на реч от Руска компанияЯндекс.


Въведение:

Yandex може безопасно да се нарече втората най-популярна услуга за търсене в Русия, която активно работи върху собствените си разработки, включително разпознаване на реч. Съвсем наскоро Yandex представи новото си приложение, което все още е в етап на тестване, но всеки вече може да го изпробва. Приложението се казва " Yandex.Диктовка” и определено ще ви изненада.



Функционален:


Основният екран на приложението показва целия списък със записи, които сте създали, които са допълнително сортирани по дата. Ако има много записи, можете лесно да използвате търсенето, за да намерите този, от който се нуждаете. внимание! За да използвате приложението, е необходима активна интернет връзка. За да създадете нов запис, просто кажете фразата „Listen Yandex“ или „Yandex record“. След това можете да започнете да му диктувате каквото сърцето ви желае, а той просто ще напише вашите мисли. Основното нещо е да не говорите тихо и повече или по-малко ясно. Единственото нещо, което не е обнадеждаващо досега е, че ако сте казали кратко изречение, но все още не сте завършили мисълта си, Yandex смята, че вече сте я завършили и следващата фраза ще започне с главна буква. За съжаление тази функция не може да бъде деактивирана, но Yandex също не може да бъде критикуван, защото приложението все още се тества и ще бъде допълвано и коригирано. На главния екран в страничната лента ще намерите много интересен раздел, наречен „Примери за команди“. Да, да, Yandex ще може да маркира целия написан текст или само дума (изречение), да изтрива, копира или гласува написания текст, както и много други интересни команди.


Резултати:


В настройките можете да активирате/деактивирате звукови ефекти, ако пречат. Да обобщим: " Yandex.Диктовка” е страхотно приложение за бързо писане на прости бележки, което има огромен потенциал и повярвайте ми, гласовият контрол е много пристрастяващ. Приятно използване!

Днес нашето приложение Dictation за интерактивно писане и редактиране на текст с глас се появи в AppStore и Google Play. Основната му задача е да демонстрира някои от новите възможности на говорния технологичен комплекс Yandex. В тази публикация искам да говоря за това, което е интересно и уникално в нашите технологии за разпознаване и синтез на реч.

Няколко думи, за да разберете какво ще бъде обсъдено. Yandex отдавна предоставя безплатен мобилен API, който може да се използва например за разпознаване на адреси и заявки за гласово търсене. През тази година успяхме да доведем качеството му до почти същото ниво, на което подобни искания и забележки се разбират от самите хора. И сега правим следващата стъпка - модел за свободно разпознаване на речта по всякакви теми.

Освен това нашият синтез на реч поддържа емоциите в гласа. И доколкото знаем, това е първият наличен в търговската мрежа синтез на реч с тази възможност.

За всичко това, както и за някои други функции на SpeechKit: за гласово активиране, автоматична пунктуация и разпознаване на семантични обекти в текста - прочетете по-долу.

Всеяден ASR и качество на разпознаване

Системата за разпознаване на реч в SpeechKit работи с различни видоветекст и Миналата годинание работим върху разширяването на неговия обхват. За целта създадохме нов езиков модел, най-големият досега, за разпознаване на кратки текстове на всякакви теми.

През последната година относителният дял на погрешно разпознатите думи (Word Error Rate) е намалял с 30%. Например, днес SpeechKit разпознава правилно 95% от адресите и географските обекти, като се доближава до човек, който разбира 96-98% от думите, които чува. Пълнотата на разпознаване на новия модел за диктовка на различни текстове вече е 82%. С това ниво можете да създадете цялостно решение за крайните потребители, което искахме да покажем на примера на Dictation.

Първоначално SpeechKit работеше само за заявки за търсене: общи теми и геонавигация. Въпреки че дори тогава планирахме да не правим просто допълнителен инструментвход, "гласова" клавиатура, но универсален интерфейс, който напълно ще замени всяко взаимодействие със системата с разговор на живо.

За да направите това, беше необходимо да се научите да разпознавате всяка реч, текстове на произволна тема. И започнахме да работим върху отделен езиков модел за това, който беше няколко пъти по-голям от съществуващите модели за геонавигация и общо търсене.

Този размер на модела постави нови условия по отношение на изчислителните ресурси. За всеки кадър се разглеждат няколко хиляди опции за разпознаване - и колкото повече успеем, толкова по-високо е качеството. И системата трябва да работи в поток, в реално време, така че всички изчисления трябва да се оптимизират динамично. Експериментирахме, опитвахме, търсихме подход: постигнахме ускорение, например, чрез промяна на библиотеката на линейната алгебра.

Но най-важното и най-трудното нещо беше да се съберат достатъчно правилни данни, подходящи за преподаване на поточна реч. В момента около 500 часа ръчно транскрибирана реч се използват за обучение на акустичния модел. Това не е толкова голяма база - за сравнение научно-популярният корпус Switchboard, който често се използва за изследователски цели, съдържа приблизително 300 часа оживени, спонтанни разговори. Разбира се, увеличаването на базата допринася за повишаване на качеството на обучения модел, но ние се фокусираме върху правилната подготовка на данните и точните транскрипции на модела, което ни позволява да обучаваме с приемливо качество на сравнително малка база.

Няколко думи за това как работи модулът за разпознаване (преди време говорихме за това подробно). Записаният говорен поток се нарязва на кадри от 20 ms, спектърът на сигнала се мащабира и след серия от трансформации се получават MFCC за всеки кадър.

Коефициентите се въвеждат в акустичния модел, който изчислява вероятностното разпределение за приблизително 4000 сенона във всеки кадър. Senon е началото, средата или краят на фонема.

Акустичният модел на SpeechKit е изграден върху комбинация от скрити модели на Марков и невронна мрежа с дълбока предварителна връзка (feedforward DNN). Това вече е доказано решение и в последната статия говорихме за това как изоставянето на гаусовите смеси в полза на DNN даде почти двоен скок в качеството.

След това се появява първият езиков модел: няколко WFST - претеглени крайни преобразуватели - превръщат сеноните в зависими от контекста фонеми и цели думи се изграждат от тях с помощта на речника на произношението и се получават стотици хипотези за всяка дума.

Окончателната обработка се извършва във втория езиков модел. Към него е свързана RNN, повтаряща се невронна мрежа, като този модел класира получените хипотези, помагайки да се избере най-правдоподобната опция. Мрежата от повтарящ се тип е особено ефективна за езиковия модел. Определяйки контекста на всяка дума, той може да вземе предвид влиянието не само на най-близките думи, както в невронна мрежа с подаване напред (да речем, за модел на триграма, това са две предходни думи), но и по-далечни, сякаш ги „помни“.

Разпознаването на дълъг свързан текст е налично в SpeechKit Cloud и SpeechKit Mobile SDK – за да използвате новия езиков модел, трябва да изберете темата „бележки“ в параметрите на заявката.

Гласово активиране

Вторият ключов компонент на гласовия интерфейс е системата за гласово активиране, която задейства желаното действие в отговор на ключова фраза. Без него няма да е възможно напълно да „развържете ръцете“ на потребителя. Разработихме собствен модул за гласово активиране за SpeechKit. Технологията е много гъвкава - разработчик, използващ библиотеката SpeechKit, може да избере всяка ключова фраза за своето приложение.

За разлика например от решенията на Google, техните разработчици използват дълбока невронна мрежа, за да разпознаят крилатата фраза „Ok Google“. DNN дава високо качество, но системата за активиране е ограничена до една команда и е необходимо огромно количество данни за обучение. Например, модел за разпознаване на позната фраза беше обучен на примера на повече от 40 000 потребителски гласа, които са имали достъп до своите смартфони с Google Now.

С нашия подход модулът за гласово активиране всъщност е миниатюрна система за разпознаване. Работи само при по-тежки условия. Първо, разпознаването на командата трябва да се извърши на самото устройство, без да се свързва със сървъра. А изчислителната мощност на смартфона е много ограничена. Консумацията на енергия също е критична - ако обикновен модул за разпознаване е включен само за определено време за обработка на конкретна заявка, тогава модулът за активиране работи постоянно, в режим на готовност. И в същото време не трябва да поставяте батерията.

Има обаче снизхождение - системата за активиране се нуждае от много малък речник, защото е достатъчно да разбере няколко ключови фрази, а останалата част от речта може просто да бъде игнорирана. Следователно моделът на езика за активиране е много по-компактен. Повечето WFST състояния съответстват на определена част от нашата команда - например "началото на четвъртата фонема". Има и състояния на „боклук“, които описват тишина, външен шум и всяка друга реч, различна от ключова фраза. Ако един пълноценен модел за разпознаване в SpeechKit има десетки милиони състояния и заема до 10 гигабайта, тогава за гласово активиране той е ограничен до стотици състояния и се побира в няколко десетки килобайта.

Следователно, модел за разпознаване на нова ключова фраза се изгражда без затруднения, което ви позволява бързо да мащабирате системата. Има едно условие - командата трябва да е достатъчно дълга (за предпочитане - повече от една дума) и рядко да се среща в ежедневната реч, за да се изключат фалшиви положителни резултати. „Моля“ не е добро за гласово активиране, но „слушайте командата ми“ е добре.

Заедно с ограничен езиков модел и "лека" акустика, разпознаването на команди е по силите на всеки смартфон. Остава да се справим с потреблението на енергия. Системата има вграден детектор на гласова активност, който следи появата на човешки глас във входящия аудио поток. Други звуци се игнорират, така че във фонов режим консумацията на енергия на модула за активиране е ограничена само до микрофона.

синтез на речта

Третият основен компонент на речевата технология е синтезът на реч (текст към реч). TTS решението SpeechKit ви позволява да озвучите всеки текст с мъжки или женски глас и дори да зададете желаната емоция. Нито една от известните гласови машини на пазара няма тази възможност.

Има няколко фундаментално различни технологии за синтез на реч и в повечето модерни системиконкатенативният синтез се използва по метода на "избор на единица". Предварително записаната гласова проба се нарязва на специфични съставни елементи(например контекстно-зависими фонеми), от които е съставена речевата база. След това всички желани думи се сглобяват от отделни единици. Получава се правдоподобна имитация на човешки глас, но е трудно да се възприеме - скокове на тембъра, неестествени интонации и резки преходи се появяват на кръстовища на отделни звена. Това е особено забележимо, когато произнасяте дълъг свързан текст. Качеството на такава система може да се подобри чрез увеличаване на обема на речевата база, но това е дълга и усърдна работа, която изисква участието на професионален и много търпелив говорител. А пълнотата на основата винаги остава тясното място на системата.

В SpeechKit решихме да използваме статистически (параметричен) синтез на реч, базиран на скрити модели на Марков. Процесът по същество е подобен на разпознаването, само че се случва в обратната посока. Оригиналният текст се предава на модула G2P (графема към фонема), където се преобразува в последователност от фонеми.

След това те влизат в акустичния модел, който генерира вектори, които описват спектралните характеристики на всяка фонема. Тези числа се предават на вокодера, който синтезира звука.

Тембърът на такъв глас е донякъде "компютърен", но има естествени и гладки интонации. В същото време гладкостта на речта не зависи от обема и дължината на четения текст, а гласът е лесен за регулиране. Достатъчно е да посочите един ключ в параметрите на заявката и модулът за синтез ще произведе глас със съответното емоционално оцветяване. Разбира се, нито една система за избор на единици не може да направи това.

За да може гласовият модел да изгражда алгоритми, съответстващи на различни емоции, е необходимо да бъде обучен по правилния начин. Ето защо, по време на записа, нашата колежка Евгения, чийто глас може да се чуе в SpeechKit, произнесе репликите си на свой ред с неутрален глас, радостен и, напротив, раздразнен. В хода на обучението системата идентифицира и описва параметрите и характеристиките на гласа, съответстващи на всяко от тези състояния.

Не всички гласови модификации са изградени върху учене. Например, SpeechKit също ви позволява да оцветите синтезирания глас с параметрите "пияни" и "болни". Нашите разработчици съжаляваха за Женя и тя не трябваше да се напива преди запис или да тича в студа, за да се охлади добре.

За пиян глас речта се забавя по специален начин - всяка фонема звучи около два пъти по-бавно, което дава характерен ефект. А за пациента се вдига прагът на звучност – всъщност се моделира какво се случва с гласните струни на човек с ларингит. Звучността на различните фонеми зависи от това дали въздухът преминава свободно през човешкия гласов тракт или дали вибриращите гласни струни пречат. В режим "болест" всяка фонема е по-малко вероятно да бъде озвучена, което прави гласа дрезгав, засаден.

Статистическият метод също позволява бързо разширяване на системата. В модела за избор на единица, за да добавите нов глас, трябва да създадете отделна речева база. Дикторът трябва да запише много часове реч, като същевременно поддържа безупречно същата интонация. В SpeechKit, за да създадете нов глас, е достатъчно да запишете поне два часа реч - приблизително 1800 специални, фонетично балансирани изречения.

Изолиране на семантични обекти

Важно е не само да преведете думите, които човек произнася в букви, но и да ги напълните със смисъл. Четвъртата технология, която се предлага в ограничен вид в SpeechKit Cloud, не е пряко свързана с работата с гласа - тя започва да работи след разпознаване на изговорените думи. Но без него не може да се направи пълен набор от речеви технологии - това е подборът на семантични обекти в естествената реч, който на изхода дава не просто разпознат, но вече маркиран текст.

Сега SpeechKit изпълнява избора на дати и часове, пълни имена, адреси. Хибридната система съчетава безконтекстни граматики, речници ключови думии статистически данни за търсене и различни услуги на Yandex, както и алгоритми за машинно обучение. Например във фразата „да отидем на улица Лев Толстой“ думата „улица“ помага на системата да определи контекста, след което съответният обект се намира в базата данни Yandex.Maps.

В Dictation сме изградили върху тази технология функцията за редактиране на текст чрез глас. Подходът за извличане на обекти е принципно нов, а акцентът е върху простотата на конфигуриране - не е необходимо да знаете програмиране, за да настроите системата.

Входът на системата е списък с различни видове обекти и примери за фрази от живата реч, които ги описват. Освен това, моделите се формират от тези примери с помощта на метода Pattern Mining. Те вземат предвид първоначалната форма, корените, морфологичните варианти на думите. Следващата стъпка е да се дадат примери за използването на избраните обекти в различни комбинации, което ще помогне на системата да разбере контекста. Въз основа на тези примери се изгражда скрит модел на Марков, при който обектите, избрани в репликата на потребителя, стават наблюдаеми състояния, а обектите, съответстващи на тях от предметното поле с вече известна стойност, стават скрити състояния.

Например има две фрази: „вмъкнете „здравей приятел“ в началото“ и „поставете от клипборда“. Системата определя, че в първия случай след „поставяне“ (действие за редактиране) има произволен текст, а във втория – обект, който й е известен („клипборд“) и реагира по различен начин на тези команди. В традиционната система това би изисквало ръчно писане на правила или граматики, но в новата технология Yandex контекстният анализ се извършва автоматично.

Автопунктуация

Когато диктувате нещо, очаквате да видите препинателни знаци в получения текст. И те трябва да се появят автоматично, така че да не се налага да говорите с интерфейса в телеграфен стил: "Скъпи приятелю - запетая - как си - въпросителен знак." Следователно SpeechKit е допълнен от автоматична система за пунктуация.

Ролята на препинателни знаци в речта играят интонационните паузи. Затова първоначално се опитахме да изградим цялостен акустичен и езиков модел за тяхното разпознаване. На всеки препинателен знак беше присвоена фонема и от гледна точка на системата в разпознатата реч се появиха нови „думи“, състоящи се изцяло от такива „пунктуационни“ фонеми - където имаше паузи или интонация, променена по определен начин.

Голяма трудност възникна с данните за обучение - в повечето корпуси вече има нормализирани текстове, в които препинателните знаци са пропуснати. Освен това почти няма препинателни знаци в текстовете на заявките за търсене. Обърнахме се към „Ехо Москвы“, които ръчно транскрибираха всички техни предавания и ни позволиха да използваме техния архив. Бързо стана ясно, че тези транскрипции са неподходящи за нашите цели - направени са близо до текста, но не дословно, и следователно не са подходящи за машинно обучение. Следващият опит беше направен с аудиокниги, но в техния случай, напротив, качеството беше твърде високо. Добре поставените гласове, изразително рецитиращи текста, са твърде далеч истинския живот, а резултатите от обучението върху такива данни не могат да бъдат приложени в спонтанна диктовка.

Вторият проблем беше, че избраният подход имаше отрицателно въздействие върху общо качестворазпознаване. За всяка дума езиковият модел взема предвид няколко съседни думи, за да определи правилно контекста, а допълнителните „пунктуационни“ думи неизбежно го стесняват. Няколко месеца експерименти не доведоха до нищо.

Трябваше да започнем от нулата - решихме да поставим препинателни знаци още на етапа на последваща обработка. Започнахме с един от най-простите методи, който, колкото и да е странно, в крайна сметка показа доста приемливи резултати. Паузите между думите получават един от знаците: интервал, точка, запетая, въпросителен знак, удивителен знак, двоеточие. За да се предскаже кой етикет съответства на определена пауза, се използва методът на условните случайни полета (CRF). За да се определи контекстът, се вземат предвид три предходни и две следващи думи и тези прости правила ви позволяват да поставите знаци с доста висока точност. Но ние продължаваме да експериментираме с пълноценни модели, които ще могат правилно да интерпретират човешките интонации по отношение на пунктуацията дори на етапа на гласово разпознаване.

Бъдещи планове

Днес SpeechKit се използва активно за решаване на "бойни" задачи в масови услуги за крайни потребители. Следващият важен етап е да се научите да разпознавате спонтанна реч в поток на живо, така че да можете да транскрибирате интервю в реално време или автоматично да си водите бележки за лекция, като получавате вече маркиран текст като изход, с подчертани тези и ключови факти. Това е огромна и много наукоемка задача, която никой в ​​света все още не е успял да реши - и ние не харесваме другите!

За развитието на SpeechKit е много важно Обратна връзка. Слагам

Yandex пусна ново приложение Yandex.Dictation, което ви позволява да оцените говорните технологии на компанията. Програмата записва текстове от диктовка и изпълнява гласови команди. Сега потребителят не трябва да докосва клавиатурата, за да напише бележка или кратко съобщение.


Yandex.Dictation използва технологии от облачната платформа за гласово разпознаване Yandex SpeechKit, включително гласово активиране, разпознаване на реч, гласов контрол, пунктуация и синтез на реч. Yandex SpeechKit е проектиран да работи с руски и турски, поддържа кратки заявки на всяка тема, геозаявки и диктовка с кратък текст. Според Yandex забавянето на разпознаването не надвишава една секунда.


Всички текстове, въведени с глас, се запазват автоматично в приложението и след оторизация в услугата Yandex.Disk. Всеки запис може да бъде изпратен чрез SMS, по пощата или публикуван в социалните мрежи.

За да може приложението да разбере добре потребителя, трябва да диктувате ясно в микрофона, като отделяте думите една от друга и произнасяте окончанията. Ако дадена фраза е била разпозната неправилно, тя може да бъде коригирана с помощта на бутона "Коректор" - това ще помогне за подобряване на качеството на разпознаване.


Yandex.Dictation ви позволява да редактирате въведен текст с гласа си. Например можете да кажете „Изтриване на последната дума“, „Започнете от нов ред“ или „Добавяне на забавно емоджи“. Приложението не само разпознава думите, но и разбира тяхното значение, така че списъкът с команди не е ограничен. Приложението също така се фокусира върху паузите в речта и поставя препинателни знаци.