Pengeditan teks suara interaktif menggunakan teknologi ucapan baru dari Yandex. "Yandex.Dictation" - ubah ucapan menjadi teks Unduh dikte Yandex untuk android

  • 06.04.2020

Halo pembaca yang budiman! Sebelum Anda adalah artikel blog kami yang paling tidak biasa, karena saat menulisnya, pengetikan suara digunakan. Oleh karena itu, hari ini kita akan membahas cara mengetik teks dengan suara Anda.

Ini adalah metode mengetik menggunakan ucapan yang ditransmisikan melalui mikrofon. Topik ini sangat relevan bagi mereka yang bekerja dengan volume besar, misalnya, blogger, serta para penyandang cacat. Atau bagi yang belum menguasai keyboard komputer.

Layanan panggilan suara

Ada layanan yang bekerja secara online, dan ada program yang diinstal di komputer.

Pelayanan online

Gratis pengembangan Google Chrome, yang, karenanya, hanya berfungsi di browser ini. Saya pikir tidak akan ada masalah dengan ini, karena ini adalah browser terbaik, dan jika Anda masih tidak menggunakannya, baca artikel tentang itu. Notepad dapat diinstal langsung ke browser atau Anda dapat menggunakan pengetikan suara dengan membuka situs web mereka.

Mirip dengan layanan sebelumnya, juga hanya berfungsi di Google Chrome. Menggunakannya adalah dasar: kami memilih bahasa yang diinginkan dan aplikasi mencetak sendiri di bawah dikte.

Keuntungan dari layanan gratis ini adalah adanya perintah suara, kemampuan untuk melihat opsi pengenalan. Ada juga editor yang mudah digunakan untuk menyalin materi yang diterima, mencetaknya di printer, mentransfernya ke bahasa asing atau kirim melalui surat.

Untuk menggunakan panggilan tanpa menyentuh keyboard, Anda perlu membuka tab "Peralatan”, lalu klik “Masukan suara…”

Berbagai perintah untuk mengedit dan memformat saat ini hanya tersedia di bahasa Inggris, tetapi untuk bahasa Rusia didukung perintah tanda baca:

  • "dot",
  • "koma",
  • "Tanda seru",
  • "tanda tanya",
  • "garis baru",
  • "paragraf baru"

Seperti yang telah ditunjukkan oleh latihan, ini sangat nyaman.

Program

Program berbayar yang, dengan bantuan suara, tidak hanya mencetak di komputer dan menetapkan tanda baca, tetapi juga menyenangkan opsi tambahan: dapat audio, Anda juga dapat memperluas versi dengan kamus (misalnya, dengan istilah hukum atau lainnya).

Didukung sistem operasi, dimulai dengan Windows 7 dan di atasnya.

Harga: dari 1.690 rubel.

Ini gratis dan dapat memenuhi ambisi banyak pengguna. Daya tariknya terletak pada kenyataan bahwa ia dapat mengenali suara dalam 50 bahasa. Untuk penggunaan yang nyaman, ada tombol pintas, Anda dapat memilih sendiri sumber suara, mengoreksi teks yang dikenali.

Pro dan kontra dari panggilan suara

Kelebihan:

  • Berkat aplikasi ini, pekerja lepas dapat menghasilkan banyak uang dengan melakukan transkripsi. Banyak tugas semacam ini dapat ditemukan di bursa Work-zilla, yang merupakan tempat favorit bagi pendatang baru untuk kerja jarak jauh. Anda hanya perlu menyalakan program dan memperbaiki teks di Word beberapa saat kemudian.
  • Menghemat waktu dan tenaga.
  • Temuan yang bagus untuk para penyandang cacat.
  • Bagi orang-orang kreatif, layanan di atas adalah penyelamat, semua ide dapat dengan cepat ditulis, cukup dengan menyuarakannya agar tidak lupa.

Sayangnya, ada minus saat menggunakan layanan ini:

  • Jika ada suara asing di ruangan tempat Anda mendikte, maka pengenalan kata dan frasa memburuk secara signifikan.
  • Banyak aplikasi online hanya tersedia di browser Google Chrome.
  • Setelah mengetik, Anda perlu meluangkan waktu untuk mengedit dan memperbaiki teks.
  • Penting untuk memiliki mikrofon sensitif berkualitas tinggi.
  • Sebaiknya memiliki diksi yang baik untuk mengurangi risiko kesalahan.

Kesimpulan

Menyimpulkan artikel ini, kita dapat mengatakan bahwa teknologi telah berkembang jauh, dan jika sebelumnya semuanya harus dicetak secara manual, sekarang sangat mungkin untuk melakukannya hanya dengan mendikte informasi dengan suara. Tentu saja, tidak ada jaminan pengakuan yang sempurna, tetapi kemajuannya jelas.

Dengan pengembangan aplikasi yang sangat memudahkan pekerjaan pekerja jarak jauh, Anda dapat mencapai produktivitas maksimum dan tugas lebih cepat. Oleh karena itu, kami berharap artikel ini akan membantu Anda menjadi lebih efektif dalam pekerjaan Anda.

Tinggalkan umpan balik Anda tentang pekerjaan berbagai layanan pengenalan suara di komentar.

Semua yang terbaik!

Halo teman teman! Baru-baru ini, saya menjelaskan dua aplikasi yang berguna: yang pertama adalah aplikasi berbagi foto seluler, dan yang kedua ada di browser Google Chrome. Tapi, seperti yang mereka katakan, Tuhan menyukai trinitas, jadi saya memutuskan untuk membuat trilogi dan memperkenalkan Anda pada satu hal lagi yang berguna - aplikasi seluler Yandex.Dictation, yang memungkinkan Anda mengetik teks dengan suara Anda.

Aplikasi Yandex.Dictation relatif baru dan terus ditingkatkan. Ini akan berguna bagi anak sekolah dan orang-orang dari berbagai profesi, termasuk blogger. Dengan itu, Anda dapat mendiktekan teks apa pun, menggambarkan kesan Anda, pemikiran Anda dalam kata-kata ... untuk kemudian mentransfer semuanya ke kertas, mengaturnya dalam artikel tertentu, memasukkan catatan ke microblog atau buku harian pribadi Anda. Karena aplikasi itu sendiri bersifat seluler, Anda dapat menggunakannya dalam situasi apa pun yang sesuai dan menghemat waktu Anda.

Pada prinsipnya, ada banyak solusi seperti itu di Internet. Misalnya, tentang yang sudah saya tulis. Ini, tentu saja, lebih populer daripada Yandex.Dictation, dan ekstensi tersedia untuknya di Google Chrome, tetapi saya belum dapat menemukan versi selulernya.

Tentu saja, Anda harus menyelesaikan artikel dan menempatkan tautan yang diperlukan sudah ada di komputer, tetapi itu masih lebih cepat daripada mengetik semua teks dengan tangan. Dan Anda tidak perlu khawatir tentang keunikannya.

Akhirnya, saya akan mengatakan bahwa, sejujurnya, Anda memerlukan mikrofon yang kurang lebih layak untuk bekerja di layanan Speechpad. Dalam kasus Yandex.Dictation, tidak akan ada masalah seperti itu, karena headsetnya modern ponsel memiliki karakteristik yang sangat baik.

Satu-satunya masalah yang benar-benar memengaruhi pengenalan suara (dan dalam layanan semacam itu!) Adalah diksi pembicara. Tapi ini bisa diperbaiki. Diksi dapat dilatih dengan latihan dasar, misalnya, seperti

Pengujian teknologi baru pengenalan ucapan dari perusahaan Rusia Yandex.


Pengantar:

Yandex dapat dengan aman disebut sebagai layanan pencarian paling populer kedua di Rusia, yang secara aktif mengerjakan perkembangannya sendiri, termasuk pengenalan suara. Baru-baru ini, Yandex memperkenalkan aplikasi baru mereka, yang masih dalam tahap pengujian, tetapi semua orang sudah dapat mencobanya. Aplikasi ini disebut " Yandex.Dikte” dan itu pasti akan mengejutkan Anda.



Fungsional:


Layar utama aplikasi menunjukkan seluruh daftar entri yang telah Anda buat, yang juga diurutkan berdasarkan tanggal. Jika ada banyak catatan, maka Anda dapat dengan mudah menggunakan pencarian untuk menemukan yang Anda butuhkan. Perhatian! Koneksi internet aktif diperlukan untuk menggunakan aplikasi. Untuk membuat entri baru, cukup ucapkan frasa "Dengarkan Yandex" atau "Catatan Yandex". Setelah itu, Anda dapat mulai mendiktekan kepadanya apa pun yang diinginkan hati Anda, dan dia hanya akan menuliskan pikiran Anda. Hal utama adalah tidak berbicara dengan tenang dan kurang lebih jelas. Satu-satunya hal yang tidak menggembirakan sejauh ini adalah jika Anda mengatakan beberapa kalimat pendek, tetapi belum menyelesaikan pemikiran Anda, Yandex berpikir bahwa Anda telah menyelesaikannya dan frasa berikutnya akan dimulai dengan huruf kapital. Sayangnya, fungsi ini tidak dapat dinonaktifkan, tetapi Yandex juga tidak dapat dikritik, karena aplikasi ini masih dalam pengujian dan akan dilengkapi dan diperbaiki. Pada layar utama di sidebar Anda akan menemukan bagian yang sangat menarik yang disebut "Contoh Perintah". Ya, ya, Yandex akan dapat menyorot seluruh teks tertulis atau hanya sebuah kata (kalimat), menghapus, menyalin atau menyuarakan teks tertulis, serta banyak lagi perintah menarik.


Hasil:


Dalam pengaturan, Anda dapat mengaktifkan/menonaktifkan efek suara jika mengganggu. Untuk meringkas: " Yandex.Dikte” adalah aplikasi hebat untuk menulis catatan sederhana dengan cepat, yang memiliki potensi besar dan percayalah, kontrol suara sangat membuat ketagihan. Selamat menggunakan!

Hari ini aplikasi Dikte kami untuk penulisan interaktif dan pengeditan teks dengan suara muncul di AppStore dan Google Play. Tugas utamanya adalah mendemonstrasikan beberapa kemampuan baru dari kompleks teknologi ucapan Yandex. Ini tentang apa yang menarik dan unik tentang pengenalan suara dan teknologi sintesis kami yang ingin saya bicarakan dalam posting ini.

Beberapa kata sehingga Anda memahami apa yang akan dibahas. Yandex telah lama menyediakan API seluler gratis yang dapat digunakan, misalnya, untuk pengenalan alamat dan kueri penelusuran suara. Selama tahun ini, kami mampu membawa kualitasnya ke tingkat yang hampir sama di mana permintaan dan komentar semacam itu dipahami oleh orang-orang itu sendiri. Dan sekarang kami mengambil langkah berikutnya - model untuk pengenalan ucapan bebas tentang topik apa pun.

Selain itu, sintesis ucapan kami mendukung emosi dalam suara. Dan, sejauh yang kami tahu, ini adalah sintesis ucapan pertama yang tersedia secara komersial dengan kemampuan ini.

Baca tentang semua ini, serta beberapa fitur SpeechKit lainnya: aktivasi suara, tanda baca otomatis, dan pengenalan objek semantik dalam teks - baca di bawah.

ASR omnivora dan kualitas pengenalan

Sistem pengenalan ucapan di SpeechKit bekerja dengan jenis yang berbeda teks, dan Tahun lalu kami telah bekerja untuk memperluas cakupannya. Untuk melakukan ini, kami telah membuat model bahasa baru, yang terbesar sejauh ini, untuk mengenali teks pendek tentang topik apa pun.

Selama setahun terakhir, proporsi relatif kata-kata yang salah dikenali (Rasio Kesalahan Kata) telah menurun 30%. Misalnya, hari ini SpeechKit mengenali 95% alamat dan objek geografis dengan benar, mendekati seseorang yang memahami 96-98% kata yang mereka dengar. Kelengkapan pengenalan model baru untuk dikte teks yang berbeda sekarang 82%. Dengan level ini, Anda dapat membuat solusi lengkap untuk pengguna akhir, yang ingin kami tunjukkan pada contoh Dikte.

Awalnya, SpeechKit hanya berfungsi untuk kueri penelusuran: topik umum dan navigasi geografis. Meski begitu kami berencana untuk tidak hanya alat tambahan input, keyboard "suara", tetapi antarmuka universal yang sepenuhnya akan menggantikan interaksi apa pun dengan sistem dengan percakapan langsung.

Untuk melakukan ini, perlu belajar mengenali ucapan apa pun, teks tentang topik yang sewenang-wenang. Dan kami mulai mengerjakan model bahasa terpisah untuk ini, yang beberapa kali lebih besar dari model geo-navigasi dan penelusuran umum yang ada.

Ukuran model ini menetapkan kondisi baru dalam hal sumber daya komputasi. Untuk setiap bingkai, beberapa ribu opsi pengenalan dipertimbangkan - dan semakin banyak kami berhasil, semakin tinggi kualitasnya. Dan sistem harus bekerja dalam aliran, secara real time, sehingga semua perhitungan perlu dioptimalkan secara dinamis. Kami bereksperimen, mencoba, mencari pendekatan: kami mencapai akselerasi, misalnya, dengan mengubah pustaka aljabar linier.

Tetapi hal yang paling penting dan paling sulit adalah mengumpulkan cukup data yang benar yang cocok untuk pengajaran pidato streaming. Saat ini, sekitar 500 jam pidato transkripsi tangan digunakan untuk melatih model akustik. Itu bukan dasar yang besar - sebagai perbandingan, korpus sains populer Switchboard, yang sering digunakan untuk tujuan penelitian, berisi sekitar 300 jam percakapan spontan yang hidup. Tentu saja, peningkatan basis berkontribusi pada peningkatan kualitas model yang dilatih, tetapi kami fokus pada persiapan data yang benar dan transkripsi model yang akurat, yang memungkinkan kami untuk melatih dengan kualitas yang dapat diterima pada basis yang relatif kecil.

Beberapa kata tentang cara kerja modul pengenalan (kami membicarakannya secara rinci beberapa waktu lalu). Aliran pidato yang direkam dipotong menjadi frame 20 ms, spektrum sinyal diskalakan, dan setelah serangkaian transformasi, MFCC diperoleh untuk setiap frame.

Koefisien dimasukkan ke dalam model akustik, yang menghitung distribusi probabilitas untuk sekitar 4000 senon di setiap frame. Senon adalah awal, tengah, atau akhir fonem.

Model akustik SpeechKit dibangun di atas kombinasi model Markov tersembunyi dan jaringan neural feedforward yang dalam (feedforward DNN). Ini sudah merupakan solusi yang terbukti, dan dalam artikel terakhir kami berbicara tentang bagaimana pengabaian campuran Gaussian demi DNN memberikan peningkatan kualitas yang hampir dua kali lipat.

Kemudian model bahasa pertama masuk: beberapa WFST - transduser akhir berbobot - mengubah senon menjadi fonem yang bergantung pada konteks, dan seluruh kata dibangun darinya menggunakan kamus pengucapan, dan ratusan hipotesis diperoleh untuk setiap kata.

Pemrosesan akhir terjadi dalam model bahasa kedua. Terhubung dengannya adalah RNN , jaringan saraf berulang, dan model ini memberi peringkat hipotesis yang diterima, membantu memilih opsi yang paling masuk akal. Jaringan tipe berulang sangat efektif untuk model bahasa. Menentukan konteks setiap kata, dapat memperhitungkan pengaruh tidak hanya kata-kata terdekat, seperti dalam jaringan saraf umpan-maju (misalnya, untuk model trigram, ini adalah dua kata sebelumnya), tetapi juga yang jauh lebih jauh, seolah-olah "mengingat" mereka.

Pengenalan teks yang terhubung lama tersedia di SpeechKit Cloud dan SpeechKit Mobile SDK - untuk menggunakan model bahasa baru, Anda harus memilih topik "catatan" dalam parameter kueri.

Aktivasi suara

Komponen kunci kedua dari antarmuka suara adalah sistem aktivasi suara, yang memicu tindakan yang diinginkan dalam menanggapi frase kunci. Tanpa itu, tidak mungkin untuk sepenuhnya "melepaskan tangan" pengguna. Kami telah mengembangkan modul aktivasi suara kami sendiri untuk SpeechKit. Teknologinya sangat fleksibel - pengembang yang menggunakan perpustakaan SpeechKit dapat memilih frasa kunci apa pun untuk aplikasinya.

Tidak seperti, misalnya, solusi Google, pengembang mereka menggunakan jaringan saraf yang dalam untuk mengenali slogannya "Ok Google". DNN memberikan kualitas tinggi, tetapi sistem aktivasi terbatas pada satu perintah, dan sejumlah besar data diperlukan untuk pelatihan. Misalnya, model untuk mengenali frasa yang sudah dikenal dilatih pada contoh lebih dari 40.000 suara pengguna yang mengakses ponsel cerdas mereka dengan Google Now.

Dengan pendekatan kami, modul aktivasi suara sebenarnya adalah sistem pengenalan mini. Ini hanya bekerja dalam kondisi yang lebih keras. Pertama, pengenalan perintah harus terjadi pada perangkat itu sendiri, tanpa menghubungi server. Dan daya komputasi smartphone sangat terbatas. Konsumsi daya juga penting - jika modul pengenalan reguler dihidupkan hanya untuk waktu tertentu untuk memproses permintaan tertentu, maka modul aktivasi bekerja terus-menerus, dalam mode siaga. Dan pada saat yang sama tidak harus menanam baterai.

Namun, ada kesenangan - sistem aktivasi membutuhkan kamus yang sangat kecil, karena cukup untuk memahami beberapa frasa kunci, dan sisa pidato dapat diabaikan begitu saja. Oleh karena itu, model bahasa aktivasi jauh lebih ringkas. Sebagian besar status WFST sesuai dengan bagian tertentu dari perintah kami - misalnya, "awal fonem keempat". Ada juga status "sampah" yang menggambarkan keheningan, kebisingan asing, dan semua ucapan lain selain kata kunci. Jika model pengenalan penuh di SpeechKit memiliki puluhan juta status dan membutuhkan hingga 10 gigabyte, maka untuk aktivasi suara itu terbatas pada ratusan status dan muat dalam beberapa puluh kilobyte.

Oleh karena itu, model untuk mengenali frasa kunci baru dibuat tanpa kesulitan, memungkinkan Anda untuk menskalakan sistem dengan cepat. Ada satu syarat - perintah harus cukup panjang (lebih disukai - lebih dari satu kata) dan jarang muncul dalam percakapan sehari-hari untuk mengecualikan positif palsu. "Tolong" tidak baik untuk aktivasi suara, tetapi "dengarkan perintah saya" baik-baik saja.

Bersama dengan model bahasa terbatas dan akustik "ringan", pengenalan perintah berada dalam kekuatan ponsel cerdas mana pun. Masih berurusan dengan konsumsi energi. Sistem ini memiliki pendeteksi aktivitas suara bawaan, yang memantau penampilan suara manusia dalam aliran audio yang masuk. Suara lain diabaikan, jadi di latar belakang konsumsi daya modul aktivasi terbatas pada mikrofon saja.

sintesis ucapan

Komponen utama ketiga dari teknologi wicara adalah sintesis ucapan (text-to-speech). Solusi TTS SpeechKit memungkinkan Anda menyuarakan teks apa pun dengan suara pria atau wanita, dan bahkan mengatur emosi yang diinginkan. Tak satu pun dari mesin suara yang dikenal di pasar memiliki kemampuan ini.

Ada beberapa teknologi sintesis ucapan yang berbeda secara fundamental, dan sebagian besar sistem modern sintesis gabungan digunakan dengan metode "pemilihan unit". Sampel suara pra-rekaman dipotong menjadi spesifik elemen penyusun(misalnya, fonem-fonem yang bergantung pada konteks) dari mana dasar ujaran disusun. Kemudian kata-kata yang diinginkan dikumpulkan dari unit individu. Ternyata tiruan suara manusia yang dapat dipercaya, tetapi sulit untuk melihatnya - lompatan timbre, intonasi yang tidak wajar, dan transisi tajam muncul di persimpangan unit individu. Ini terutama terlihat saat menyuarakan teks yang terhubung panjang. Kualitas sistem seperti itu dapat ditingkatkan dengan meningkatkan volume dasar bicara, tetapi ini adalah pekerjaan yang panjang dan melelahkan yang membutuhkan keterlibatan seorang pembicara yang profesional dan sangat sabar. Dan kelengkapan pangkalan selalu menjadi hambatan sistem.

Di SpeechKit, kami memutuskan untuk menggunakan sintesis ucapan statistik (parametrik) berdasarkan model Markov tersembunyi. Prosesnya pada dasarnya mirip dengan pengenalan, hanya saja itu terjadi dalam arah yang berlawanan. Teks asli diteruskan ke modul G2P (grapheme-to-phoneme), di mana ia diubah menjadi urutan fonem.

Kemudian mereka masuk ke model akustik, yang menghasilkan vektor yang menggambarkan karakteristik spektral setiap fonem. Angka-angka ini diteruskan ke vocoder, yang mensintesis suara.

Timbre suara seperti itu agak "komputer", tetapi memiliki intonasi yang alami dan halus. Pada saat yang sama, kelancaran bicara tidak tergantung pada volume dan panjang teks yang dibaca, dan suaranya mudah disesuaikan. Cukup dengan menentukan satu kunci dalam parameter permintaan, dan modul sintesis akan menghasilkan suara dengan pewarnaan emosional yang sesuai. Tentu saja, tidak ada sistem pemilihan unit yang dapat melakukan ini.

Agar model suara dapat membangun algoritme yang sesuai dengan berbagai emosi, perlu untuk melatihnya dengan cara yang benar. Oleh karena itu, selama perekaman, rekan kami Evgenia, yang suaranya dapat didengar di SpeechKit, mengucapkan dialognya secara bergantian dengan suara netral, gembira dan, sebaliknya, kesal. Selama pelatihan, sistem mengidentifikasi dan menggambarkan parameter dan karakteristik suara yang sesuai dengan masing-masing status ini.

Tidak semua modifikasi suara dibangun berdasarkan pembelajaran. Misalnya, SpeechKit juga memungkinkan Anda untuk mewarnai suara yang disintesis dengan parameter "mabuk" dan "sakit". Pengembang kami merasa kasihan pada Zhenya, dan dia tidak harus mabuk sebelum merekam atau berlari dalam cuaca dingin untuk mendapatkan flu yang baik.

Untuk suara mabuk, ucapan diperlambat dengan cara khusus - setiap fonem terdengar sekitar dua kali lebih lambat, yang memberikan efek karakteristik. Dan untuk pasien, ambang kemerduan meningkat - pada kenyataannya, apa yang terjadi pada pita suara seseorang dengan radang tenggorokan dimodelkan. Sonoritas fonem yang berbeda tergantung pada apakah udara melewati saluran suara manusia dengan bebas atau apakah pita suara yang bergetar menghalangi. Dalam mode "penyakit", setiap fonem cenderung tidak disuarakan, yang membuat suara serak, ditanam.

Metode statistik juga memungkinkan perluasan sistem yang cepat. Dalam model pemilihan unit, untuk menambahkan suara baru, Anda perlu membuat basis ucapan terpisah. Penyiar harus merekam banyak jam bicara, sambil mempertahankan intonasi yang sama dengan sempurna. Di SpeechKit, untuk membuat suara baru, cukup untuk merekam setidaknya dua jam bicara - sekitar 1800 kalimat khusus yang seimbang secara fonetis.

Isolasi objek semantik

Penting tidak hanya untuk menerjemahkan kata-kata yang diucapkan seseorang menjadi huruf, tetapi juga untuk mengisinya dengan makna. Teknologi keempat, yang tersedia dalam bentuk terbatas di SpeechKit Cloud, tidak secara langsung berhubungan dengan bekerja dengan suara - ia mulai bekerja setelah kata-kata yang diucapkan dikenali. Tetapi tanpa itu, setumpuk lengkap teknologi ucapan tidak dapat dibuat - ini adalah pemilihan objek semantik dalam ucapan alami, yang pada output tidak hanya memberikan teks yang dikenali, tetapi sudah ditandai.

Sekarang SpeechKit mengimplementasikan pemilihan tanggal dan waktu, nama lengkap, alamat. Sistem hybrid menggabungkan tata bahasa bebas konteks, kamus kata kunci dan data statistik pencarian dan berbagai layanan Yandex, serta algoritme pembelajaran mesin. Misalnya, dalam frasa "ayo pergi ke Jalan Leo Tolstoy", kata "jalan" membantu sistem menentukan konteksnya, setelah itu objek yang sesuai berada di basis data Yandex.Maps.

Dalam Dikte, kami telah membangun di atas teknologi ini fungsi pengeditan teks dengan suara. Pendekatan untuk mengekstrak entitas pada dasarnya baru, dan penekanannya adalah pada kesederhanaan konfigurasi - Anda tidak perlu mengetahui pemrograman untuk menyiapkan sistem.

Masukan sistem adalah daftar berbagai jenis objek dan contoh frasa dari ucapan langsung yang menggambarkannya. Selanjutnya, pola dibentuk dari contoh-contoh ini menggunakan metode Penambangan Pola. Mereka memperhitungkan bentuk awal, akar, variasi morfologis kata. Langkah selanjutnya adalah memberikan contoh penggunaan objek yang dipilih dalam kombinasi yang berbeda, yang akan membantu sistem memahami konteksnya. Berdasarkan contoh-contoh ini, model Markov tersembunyi dibangun, di mana objek yang dipilih dalam replika pengguna menjadi status yang dapat diamati, dan objek yang sesuai dengannya dari bidang subjek dengan nilai yang sudah diketahui menjadi status tersembunyi.

Misalnya, ada dua frasa: "masukkan 'halo teman' di awal" dan "tempel dari papan klip". Sistem menentukan bahwa dalam kasus pertama setelah "menempel" (tindakan pengeditan) ada teks arbitrer, dan yang kedua - objek yang dikenalnya ("papan klip"), dan bereaksi berbeda terhadap perintah ini. Dalam sistem tradisional, ini akan membutuhkan penulisan aturan atau tata bahasa secara manual, tetapi dalam teknologi Yandex yang baru, analisis konteks terjadi secara otomatis.

Tanda baca otomatis

Saat mendiktekan sesuatu, Anda berharap melihat tanda baca di teks yang dihasilkan. Dan mereka akan muncul secara otomatis sehingga Anda tidak perlu berbicara dengan antarmuka dalam gaya telegraf: "Teman yang terhormat - koma - apa kabar - tanda tanya." Oleh karena itu, SpeechKit dilengkapi dengan sistem tanda baca otomatis.

Peran tanda baca dalam pidato dimainkan oleh jeda intonasi. Oleh karena itu, awalnya kami mencoba membangun model akustik dan bahasa yang lengkap untuk pengenalan mereka. Setiap tanda baca diberi fonem, dan dari sudut pandang sistem, "kata-kata" baru muncul dalam pidato yang dikenali, yang seluruhnya terdiri dari fonem "tanda baca" seperti itu - di mana ada jeda atau intonasi diubah dengan cara tertentu.

Kesulitan besar muncul dengan data untuk pelatihan - di sebagian besar korpora sudah ada teks yang dinormalisasi di mana tanda baca dihilangkan. Juga, hampir tidak ada tanda baca dalam teks permintaan pencarian. Kami beralih ke Ekho Moskvy, yang secara manual menyalin semua siaran mereka, dan mereka mengizinkan kami untuk menggunakan arsip mereka. Dengan cepat menjadi jelas bahwa transkripsi ini tidak cocok untuk tujuan kami - mereka dibuat dekat dengan teks, tetapi tidak kata demi kata, dan karena itu tidak cocok untuk pembelajaran mesin. Upaya berikutnya dilakukan dengan buku audio, tetapi dalam kasus mereka, sebaliknya, kualitasnya terlalu tinggi. Suara yang ditempatkan dengan baik, secara ekspresif melafalkan teks, terlalu jauh dari kehidupan nyata, dan hasil pelatihan pada data tersebut tidak dapat diterapkan dalam dikte spontan.

Masalah kedua adalah bahwa pendekatan yang dipilih memiliki dampak negatif pada kualitas umum pengakuan. Untuk setiap kata, model bahasa mempertimbangkan beberapa kata tetangga untuk menentukan konteksnya dengan benar, dan kata-kata "tanda baca" tambahan pasti mempersempitnya. Beberapa bulan percobaan tidak menghasilkan apa-apa.

Kami harus memulai dari awal - kami memutuskan untuk meletakkan tanda baca pada tahap pasca-pemrosesan. Kami mulai dengan salah satu metode paling sederhana, yang, anehnya, menunjukkan hasil yang cukup dapat diterima pada akhirnya. Jeda di antara kata-kata menerima salah satu tanda: spasi, titik, koma, tanda tanya, tanda seru, titik dua. Untuk memprediksi label mana yang sesuai dengan jeda tertentu, metode bidang acak bersyarat (CRF) digunakan. Untuk menentukan konteksnya, tiga kata sebelumnya dan dua kata berikutnya diperhitungkan, dan aturan sederhana ini memungkinkan Anda untuk menempatkan tanda dengan akurasi yang cukup tinggi. Tetapi kami terus bereksperimen dengan model lengkap yang akan dapat menafsirkan intonasi manusia dengan benar dalam hal tanda baca bahkan pada tahap pengenalan suara.

Rencana masa depan

Saat ini, SpeechKit secara aktif digunakan untuk menyelesaikan tugas "pertempuran" dalam layanan massal untuk pengguna akhir. Tonggak berikutnya adalah belajar mengenali ucapan spontan dalam streaming langsung, sehingga Anda dapat menyalin wawancara secara real time atau secara otomatis membuat catatan tentang kuliah, menerima teks yang sudah ditandai sebagai output, dengan tesis yang disorot dan fakta-fakta kunci. Ini adalah tugas besar dan sangat intensif sains yang belum pernah diselesaikan oleh siapa pun di dunia - dan kami tidak menyukai yang lain!

Untuk pengembangan SpeechKit sangat penting Masukan. Taruh

Yandex telah merilis aplikasi Yandex.Dictation baru yang memungkinkan Anda mengevaluasi teknologi ucapan perusahaan. Program merekam teks dari dikte dan menjalankan perintah suara. Sekarang pengguna tidak perlu menyentuh keyboard untuk menulis catatan atau pesan singkat.


Yandex.Dictation menggunakan teknologi dari platform pengenalan suara berbasis cloud Yandex SpeechKit, termasuk aktivasi suara, pengenalan suara, kontrol suara, tanda baca, dan sintesis ucapan. Yandex SpeechKit dirancang untuk bekerja dengan bahasa Rusia dan Turki, mendukung kueri singkat tentang subjek apa pun, geokueri, dan dikte teks singkat. Menurut Yandex, penundaan pengenalan tidak melebihi satu detik.


Semua teks yang diketik dengan suara secara otomatis disimpan dalam aplikasi, dan setelah otorisasi di layanan Yandex.Disk. Entri apa pun dapat dikirim melalui SMS, melalui surat, atau dipublikasikan di jejaring sosial.

Agar aplikasi memahami pengguna dengan baik, Anda perlu mendiktekan dengan jelas, ke mikrofon, memisahkan kata satu sama lain dan mengucapkan akhiran. Jika suatu frasa salah dikenali, frasa tersebut dapat diperbaiki menggunakan tombol "Korektor" - ini akan membantu meningkatkan kualitas pengenalan.


Yandex.Dictation memungkinkan Anda mengedit teks yang diketik menggunakan suara Anda. Misalnya, Anda dapat mengucapkan "Hapus kata terakhir", "Mulai dari baris baru", atau "Tambahkan emoji lucu". Aplikasi tidak hanya mengenali kata, tetapi juga memahami artinya, sehingga daftar perintah tidak terbatas. Aplikasi ini juga berfokus pada jeda dalam ucapan dan menempatkan tanda baca.