мовні технології

  1. Ключові розробки
  2. Запис звуку й мови
  3. шумоочистки
  4. розпізнавання мови
  5. синтез мови
  6. Голосова біометрія
  7. Аналіз і обробка мови
  8. Сучасні принципи аналізу і синтезу мови
  9. Розпізнавання злитого мовлення
  10. синтез мови
  11. Голосова біометрія
  12. галузеві рішення
  13. Уряд і державні структури
  14. контактні центри
  15. Фінансовий сектор
  16. Охорона здоров'я
  17. служби безпеки
  18. Судова система
  19. Інтернет і телебачення
  20. Автомобільна промисловість
  21. Розробки і досягнення ЦРТ

Сьогодні мовні технології міцно увійшли в життя сучасної людини, роблячи її набагато зручніше і простіше. З їх допомогою можна озвучувати книги, sms-повідомлення, документи та цілі веб-сайти, будувати запити в пошукових системах без допомоги клавіатури, вивчати мови, отримувати інформацію з особистого рахунку без використання паролів і навіть давати вказівки персонального автомобілю.

Ключові розробки

В області сучасних мовних технологій, крім трьох основних завдань - розпізнавання мови, синтезу мови по тексту, а також голосовий біометрії - найбільш затребуваними розробками, як в Росії, так і за кордоном, є: запис звуку й мови; шумоочистки і покращити чіткість мовного сигналу; інтелектуальний аналіз і обробка мовних даних. Якщо технології розпізнавання і синтезу мови залежать від мови, то інші є «язиконезавісімимі» технологіями. Розглянемо докладніше основні мовні технології.

Запис звуку й мови

Пристрої запису мовної інформації і звуку (з телефонних ліній, мікрофонів або лінійних виходів апаратури) можуть виступати в якості автономних реєстраторів або цифрових диктофонів. Серед основних переваг автономних реєстраторів можна виділити можливість роботи з фонограмами через веб-інтерфейс, низьке енергоспоживання, централізовану базу даних і централізований моніторинг всіх записуючих пристроїв. Цифрові диктофони, так само, як і автономні реєстратори, відрізняються наявністю безпечного доступу до аудіозаписів, високою якістю записів, що робить їх придатними для розпізнавання мови і голосу.

шумоочистки

Шумоочистки - обробка сигналу, яка дозволяє підвищити розбірливість мовного сигналу, зменшити частку шумів і компенсувати спотворення, викликані як акустичними, так і технологічними причинами.

Сучасні технології дозволяють проводити шумоочистки в реальному і відкладеному часу, застосовувати різні фільтри. В основу більшості алгоритмів обробки мовних сигналів [4] покладена ідея адаптації, суть якої полягає у використанні поточної інформації про сигнал для автоматичного підстроювання режиму його обробки до типу перешкоди.

розпізнавання мови

При вивченні технології розпізнавання мови, як правило, виділяють:

  • Розпізнавання окремих команд. Ця технологія лежить в основі голосової навігації по сайтах. Вона побудована на роздільному проголошенні і подальшому розпізнаванні слова або словосполучення з невеликого заздалегідь заданого словника.
  • Розпізнавання по граматиці. Суть технології - розпізнавання фраз, які відповідають певним заданим правилам (граматиці). Щоб її реалізувати, для завдання граматик використовуються стандартні XML-мови (VoiceXML), а обмін даними між системою розпізнавання і додатком, як правило, здійснюється по протоколу управління медіаресурсами (Media Resource Control Protocol, MRCP). Технологія широко застосовується в системах голосового самообслуговування (СГС): користувача можуть попросити вимовити дату, будь-які номери, прізвища, адреси, підтвердити будь-яку дію словами «так» або «ні».
  • Пошук ключових слів (ПКС). Він будується на основі розпізнавання окремих ділянок мови. У цьому випадку мова може бути як спонтанної, так і відповідної певним правилам. Вимовлена ​​мова не повністю перетворюється в текст - в ній автоматично знаходяться лише ті ділянки, які містять задані слова чи словосполучення. ПКС застосовується в пошукових системах, а також в системах моніторингу мовлення.
  • Розпізнавання злитого мовлення на великому словнику. (Large Vocabulary Continuous Speech Recognition, LVCSR). Найскладніша технологія: вона переводить мова в текст, не обмежуючись при цьому будь-якої наперед заданої граматикою. Іноді її називають STT (speech-to-text), оскільки дана технологія більше інших наближає людину до мрії про його взаємодії з комп'ютером. Завдання повноцінного розпізнавання злитої мови не вирішена ніде в світі, проте достовірність розпізнавання вже досить висока для використання технології на практиці: наприклад, на телебаченні (для створення прихованих субтитрів) або в медицині (для введення даних в електронні карти пацієнтів).

синтез мови

Синтез мови - це технологія, яка дає можливість прочитати текст (документ, лист, sms) голосом, наближеним до природного. Щоб синтезоване мовлення звучала натурально, необхідно вирішити цілий комплекс завдань, пов'язаних як із забезпеченням природності голосу на рівні тембру, плавності звучання і інтонації, так і з правильною розстановкою наголосів і пауз, розшифровкою скорочень, чисел, абревіатур і спеціальних знаків.

На практиці технології синтезу мови застосовуються для озвучування новинних RSS-каналів, субтитрів, власного контенту, а також при створенні голосових листівок. Більш того, синтез мови не обмежується використанням певних голосів. Є можливість реалізувати унікальний голос «на замовлення», наприклад відтворити голос великого актора Юрія Юр'єва і реконструювати всі його монологи, як це було зроблено в Олександрійському театрі в рамках програми збереження культурної спадщини Росії. Як правило, на створення нового голосу необхідно три-чотири місяці, в залежності від необхідної якості звучання, а для створення голосу на новому мовою - до півроку.

Голосова біометрія

Згідно ДСТУ ISO / IEC 24713-1-2013, біометрія є автоматизоване розпізнавання особистості людини, засноване на його поведінкових або біологічних характеристиках. Відповідно, голосова біометрія є автоматизоване розпізнавання особистості по фонограмах мови. Основними режимами розпізнавання є верифікація (підтвердження особи диктора) і ідентифікація (встановлення (пошук) диктора). Термін «диктор» введений тим же стандартом і означає людину, яка говорить.

Унікальність голосу людини обумовлена ​​безліччю фізіологічних причин - будова голосових зв'язок, трахеї, носових порожнин, манера вимови звуків, розташування зубів і ін. Комбінація всіх цих характеристик так само індивідуальна, як і відбитки пальців. Однак на практиці жодна з унімодальних біометричних систем, в тому числі і голосова, не може гарантувати 100% правильної ідентифікації. Використання бімодальною біометрії (по голосу і особі) має свої переваги: ​​підвищення точності ідентифікації, можливість роботи з великими базами даних зі збереженням ефективності пошуку, підвищення стійкості до атак порушників і фальсифікацій.

Технологія, що лежить в основі голосової біометрії, може бути застосована в будь-якій країні світу, так як є незалежною від перерахованих вище характеристик: не мають значення мову мовлення, акцент диктора, який використовується діалект, зміст усного мовлення і т. Д.

Аналіз і обробка мови

До технологій аналізу і обробки мови відносять швидкий пошук ключових слів у аудіозаписах, автоматичний аналіз і оцінку телефонних переговорів, інтелектуальний аналіз мовної інформації. Данн технологія відрізняється простотою використання і точністю пошуку в фонограмах, яка визначається розміром пошукового словника. Так, для словника з п'яти слів надійність пошуку становить не менше 95%, для словника з 100 слів - 81%.

Інтелектуальний аналіз мовної інформації дозволяє автоматично визначати тематику телефонних переговорів. В основі аналізу лежать технології розпізнавання злитого мовлення на великому словнику LVCSR і вилучення інформації за допомогою кластерного аналізу даних (Data Mining Clustering). В результаті автоматичного розпізнавання мовлення дикторів перетворюється в текстовий індексований файл, придатний для автоматичного лексико-семантичного аналізу. Рішення про приналежність аудіозаписи до абстрактного тематичним кластеру проводиться з урахуванням частотності і зв'язності слів і словосполучень, що вживаються дикторами в ході телефонної бесіди (рис. 1).

Сьогодні мовні технології міцно увійшли в життя сучасної людини, роблячи її набагато зручніше і простіше

Мал. 1. Приклад семантичного хмари теми «Відновлення пароля»

Сучасні принципи аналізу і синтезу мови

Мал. 2. Скаттерограмма корпусів мовних даних NIST: фіолетовий колір - стільниковий корпус, інші - корпусу мовних даних в акустиці приміщень

Інформація, укладена в мовному сигналі, може бути розділена на основну (мовну), яка полягає в передачі смислового змісту промови, а також додаткову (немовних), до якої відносять інформацію про характеристики передавального середовища і паралингвистическими (екстралінгвістичні) інформацію та ін.

До характеристик середовища передачi зазвичай ставляться рівень і тип шуму навколишнього середовища (офісні шуми, шуми вулиці, фонова музика, голоси інших людей і т. Д.), Рівень реверберації (ступінь накладення на мовний сигнал його відображень від різних поверхонь), шуми і спотворення в каналі передачі (мікрофони, підсилювачі, АЦП, кодеки і т. д.).

Знання характеристик середовища передачi допомагає вирішувати завдання шумоочистки і поліпшення якості мовних сигналів, а також оцінювати їх придатність для подальшого використання в системах автоматичного розпізнавання мови і голосу. Так, наприклад, точність більшості систем автоматичного розпізнавання мови і голосу різко погіршується при зниженні відносини сигнал-шум менше 15 дБ, збільшенні рівня реверберації більше 0,4 с.

Мовні сигнали з «підходящими» параметрами характерні, в основному, для каналів телефонного зв'язку (рис. 2). Мовні сигнали в акустиці приміщень мають значно гірші параметри, що призводить до низької точності розпізнавання мови і голосу на таких даних.

Передобробка і оцінка якості мовного сигналу (рис. 3) передбачає поділ фонограм на сегменти з корисним мовним сигналом і сегменти з шумом, паузами, телефонними та музичними сигналами. Крім того, виконується оцінка якості мовного сигналу для оцінки його придатності для розпізнавання мови і голосу.

Крім того, виконується оцінка якості мовного сигналу для оцінки його придатності для розпізнавання мови і голосу

Мал. 3. Передобробка і оцінка якості мовного сигналу

Аналіз і обробка мовних сигналів зазвичай проводиться не в тимчасовій, а в частотно-часової області. Для цього здійснюється короткочасне перетворення Фур'є по квазістаціонарним фрагментами мовного сигналу тривалістю 20-25 мс із зсувом на половину фрагмента. В результаті виходить так звана сонограмма (спектрограмма) мови - візуальне відображення мови як функції часу (горизонтальна вісь), частоти (вертикальна вісь) і енергії голосу (ступінь зачернения, колір). Найбільш темні горизонтальні смуги частот показують спектральні максимуми (рис. 4).

Мал. 4. Приклади подання мовного сигналу у вигляді:
a) осцилограми;
б) сонограми

Мовний сигнал є за своєю природою поліінформатівним, що проявляється в різноманітті типів інформації, переданої за допомогою мови. Так, на сонограмі можна виділити безперервно наступні один за одним сегменти різного рівня: фонеми, слова, фрази.

Фонема - найменша смислоразлічітельную одиниця мови. Фонема не їсти фізична реалізація звуку, а є поданням звуку в свідомості. «Фон» (phone) - конкретна реалізація фонеми. Фони, що належать до однієї фонеми, називаються аллофонами. Звуковий оточення спотворює форму фонеми, т. Е. Фонема в різних місцях слова може бути не схожа сама на себе. Наприклад, в схожих між собою словах «Даша» і «Маша» звук «а» звучить по-різному, так як мовний апарат по-різному вимовляє одну і ту ж голосну після звуків «д» і «м». Крім того, різні люди в принципі по-різному вимовляють одні й ті ж звуки (рис. 5).

5)

Мал. 5. сонограми звуку «а», вимовленого чотирма чоловіками і трьома жінками

Розпізнавання злитого мовлення

Однією з кардинальних завдань розпізнавання мови є забезпечення стійкості і стабільності розпізнавання фонів в умовах їх величезною акустичної варіативності. При цьому злита спонтанне мовлення важче піддається автоматичному розпізнаванню в порівнянні зі злитої діктовочной промовою через більшу лінгвістичної ( «вільний» стиль мовлення, редукції, жаргонізми, застереження, неканонічні транскрипції, неправильна структура фраз), канальної (спотворення і шуми в акустиці приміщень і каналах зв'язку) і дикторської (індивідуальні особливості голосів дикторів, різний акцент, діалект, вік і психофізичний стан дикторів і ін.) варіативності.

У таблиці 1 наведені дані по точності сучасних систем розпізнавання злитого мовлення. Для порівняння: Послівний помилка розпізнавання мови людиною становить 2-4%.
У таблиці 1 наведені дані по точності сучасних систем розпізнавання злитого мовлення

Найсучаснішою технологією є розпізнавання злитого мовлення на основі багатошарових нейронних мереж (Deep Neural Network, DNN). Сьогодні її використовують всі лідери ринку мовних технологій. Ця технологія імітує роботу людського мозку і дозволяє розпізнавати кілька тисяч фонів. Фактори успіху: багато / дуже багато якісних / не надто якісних навчальних даних (від сотень до десятків тисяч годин мовлення в реальних ситуаціях), ефективний «тюнінг» моделі і процедури навчання.
На поточний момент є ресурси консорціуму лінгвістичних даних (Linguistic Data Consortium, LDC), мовні бази даних компаній-розробників (Google, Yandex, Baidu, ЦРТ та ін.). Фонд перспективних досліджень РФ визначив, що однією з умов успішної реалізації майбутніх систем розпізнавання мови є формування мовних баз даних і словників великого обсягу силами добровольців (технології краудсорсингу).

синтез мови

Основними напрямками в розробці технології синтезу є:

  • компілятивний синтез з використанням технології Unit Selection (вибір звукових елементів з мовної бази);
  • синтез, що генерує звуковий сигнал за параметрами, передбаченим на основі прихованих марківських моделей (Hidden Markov Models, HMM-синтез).

Метод Unit Selection є різновидом конкатенативного синтезу мови, т. Е. В процесі синтезу мовного сигналу використовуються заздалегідь зроблені звукозапису природної мови. В процесі акустичного синтезу алгоритм будує оптимальну послідовність звукових одиниць, враховуючи одночасно і те, наскільки кандидат підходить під опис необхідних характеристик звуку (вартість заміни), і то, наскільки добре вибрані елементи будуть конкатеніроваться з сусідніми (вартість зв'язку). Такий підхід дозволяє мінімізувати модифікації мовного сигналу, що підвищує природність синтезується.

У разі HMM-синтезу проводиться опис звукової бази даних параметричної моделлю. Параметри (наприклад, спектральні характеристики, частота основного тону, тривалість і т. Д.) Узагальнюються безліччю статистичних моделей, які містять в собі шаблони мовних елементів. Визначення параметрів мовного сигналу відбувається на основі критерію максимального правдоподібності стосовно до цих моделей. Синтез мови, заснований на моделях, реалізований в компаніях Microsoft і Whistler.

Як схем, які об'єднують HMM-синтез і Unit Selection, можуть застосовуватися такі: генерація фізичних параметрів звукових елементів на основі прихованих марківських моделей для подальшого обчислення вартості заміни для методу Unit Selection; використання статистичних моделей для обчислення вартості зв'язку між елементами і т. п.

Голосова біометрія

Для вилучення характеристик голосу диктора спочатку здійснюється поділ дикторів на фонограмі: виділяється мова на тлі акустичних перешкод (створюваних телевізором, радіо і т. П.); розділяється мова на ділянках, що містять мову декількох дикторів, яка може накладатися одна на одну, утворюючи «голосовий коктейль». Виділені ділянки мовного сигналу розмічаються за належністю різним дикторам.

Далі в виділених ділянках мовного сигналу проводиться автоматичне вилучення біометричних ознак голосу і мови. Експертами традиційно використовуються акустичні ознаки: частота основного тону диктора (частота змикання / розмикання голосових зв'язок), формантного частоти (резонансні частоти голосового тракту) і їх траєкторії. В автоматичних методах використовуються різні кепстральних ознаки, таких як MFCC, LFCC, LPCC і т. Д.

У статистичних методах верифікації / ідентифікації модель голосу диктора являє собою апроксимацію розподілу витягнутих ознак сумішшю гауссових розподілів (GMM-модель).
Процедура розпізнавання диктора полягає в автоматичному попарном порівнянні «голосових моделей», в яких закодовані індивідуальні (біометричні) характеристики голосу та мовлення дикторів.

Слід Зазначити, что зовсім недавно системи розпізнавання по голосу володілі значний гіршімі робочими характеристиками (точність розпізнавання, розмір біометрічної моделі и т. Д) У порівнянні з системами других біометрічніх модальностей. Однако за останні 5-7 років в області голосової біометрії були досягнуті значні успіхі [3], Які дозволили наблізіті робочі характеристики голосової модальності до других модальностям, особливо до ліцьової (табл. 2, 3).
Основними режимами розпізнавання диктора є текстозавісімій, по зелених сандалів з ключовими фраз або за розділамі з 10 цифр, текстонезавісімій по читаемому тексту або по розмовної мови. Перші три режими забезпечують високий рівень точності розпізнавання, але вимагають проголошення заздалегідь підготовленого тексту. Ці режими не завжди зручні для користувача і не забезпечують належного рівня захисту в системах безпеки.

Ці режими не завжди зручні для користувача і не забезпечують належного рівня захисту в системах безпеки

На практиці найбільш затребуваний текстонезавісімий режим, коли користувач спілкується з системою природною мовою. Однак основною проблемою при вирішенні завдання текстонезавісімого розпізнавання диктора є проблема неузгодженості, викликана мінливістю сесій запису голосу для окремого диктора. Причинами цього неузгодженості можуть бути шуми навколишнього середовища під час запису, спотворення в каналах запису і передачі мовного сигналу, а також мінливість голосу самого диктора. Облік ефектів каналу є найбільш значущим чинником серед перерахованих.

Для вирішення зазначеної проблеми традиційним стало застосування спільного факторного аналізу (Joint Factor Analysis, JFA), який дозволяє ефективно розщеплювати дикторську і канальну інформацію в окремому проголошенні диктора, що, в свою чергу, дозволяє будувати канало-незалежні GMM-моделі диктора і пригнічувати ефекти каналу в тестовому проголошенні. Додатково до порождающему методу GMM в системах голосової біометрії популярним є дискримінантний метод розпізнавання диктора - машини опорних векторів (Support Vector Machine, SVM). Гібридні системи SVM-GMM і GMM-JFA-SVM володіють кращою ефективністю як за параметрами точності (більш робастний до різного роду шумів, а також до міжсесійний і внутрідікторской варіативності), так і за параметрами швидкодії.

галузеві рішення

Розробки в області мовних технологій користуються наростаючим попитом у багатьох галузях: державний сектор, фінанси, охорона здоров'я, правова і судова системи, медіакомунікацій, військова промисловість. Основною причиною, підстьобує науково-дослідний і бізнес-інтерес до даного напрямку, є зростання попиту на рішення для оптимізації рутинних процесів на виробництві та в бізнесі.

Уряд і державні структури

Одним із драйверів зростання російського ринку мовних технологій виступають державні та силові структури [8]. Крім пристроїв шумоочистки і записи мовних сигналів, починають впроваджуватися системи криміналістичних обліків по голосу і обличчю [9]. У деяких органах законодавчої та виконавчої влади РФ зараз проходить впровадження систем підготовки стенограм засідань з використанням технології злитого розпізнавання російської мови.

контактні центри

На ринку мовних технологій справжній «бум» переживають так звані «системи голосового самообслуговування» (IVR), які активно впроваджуються в контактні центри різних компаній і в контактні центри, що працюють на аутсорсингу.

Технології, що лежать в основі систем голосового самообслуговування, постійно розвиваються: крім надання довідкової інформації і обробки типових запитів в автоматичному режимі, перед контактним центром ставляться завдання по створенню віртуальних консультантів з можливістю штучного інтелекту.

Зростає число проектів по впровадженню в контактні центри систем мовної аналітики, систем управління якістю роботи операторів і оцінки задоволеності клієнтів. Використання цих систем відкриває можливості по визначенню рівня стресостійкості та психофізичного стану операторів, аналізу причин повторного звернення клієнтів, визначення рівня їх лояльності і задоволеності.

Фінансовий сектор

Істотне зростання числа шахрайських кредитів за останні кілька років привів до того, що банки стали активно впроваджувати рішення на базі мовних технологій для зниження ризиків шахрайства, захисту існуючих клієнтів і підвищення довіри до банку.

Виходячи з необхідності віддаленого обслуговування клієнтів, наприклад при підтвердженні особистості оператором контактного центру, а також на сайті, при вході в особистий кабінет, або в мобільному додатку, банки все більше схиляються до використання технологій голосової біометрії. В умовах віддаленого обслуговування голос людини стає найбільш надійним способом верифікації користувача, оскільки його, на відміну від будь-якої іншої інформації, не можна вкрасти або підробити.

Охорона здоров'я

На ринку мовних технологій існують рішення для охорони здоров'я, які націлені на підвищення продуктивності праці медиків. Технологія розпізнавання мови лікаря і автоматичного занесення інформації в медичну систему може застосовуватися при заповненні карти при огляді пацієнта, а також при роботі в операційній. В якості ефекту від впровадження даної технології спостерігається зростання кількості обстежень, економія коштів за рахунок можливості відмовитися від послуг медсестер і помічників, а також економія часу лікаря.

служби безпеки

У комерційних організаціях, а також на об'єктах промислового і цивільного призначення, в міському громадському транспорті, в освітніх установах і закладах розважальної сфери реалізуються проекти з впровадження в служби безпеки систем ефективної охорони периметра і евакуації за рахунок організації суцільного відеоспостереження та автоматичного оповіщення відповідальних осіб за різними каналах зв'язку.

Для профілактики витоку інформації і розбору подій службами безпеки застосовується аналіз мови і емоційного стану і централізована система реєстрації переговорів співробітників, диспетчерів, операторів.

Судова система

В урядових структурах, так само як і в судових органах, використовується система стенографування для підвищення мобільності та швидкості підготовки стенограм одночасно з декількох засідань. Сучасні мовні технології дозволяють здійснювати синхронну запис мови виступаючого з його відеозображенням, а також провести підготовку протоколу в автоматизованому режимі з використанням технології розпізнавання злитого мовлення.

Інтернет і телебачення

При щоденному використанні Інтернету і телебачення є велика ймовірність зіткнутися з застосуванням мовних технологій. Наприклад, організація онлайнових трансляцій спортивних ігор з субтитрами будується на базі технології розпізнавання мови [14], технологія розпізнавання окремих команд використовується для впровадження сервісу голосової навігації по сайту в Інтернеті, а перевірка особи за голосом - для розважальних Інтернет-ресурсів і корпоративних порталів.

Автомобільна промисловість

Застосування мовних технологій в автомобільній промисловості відкриває нові можливості для використання розважальних і сервісних функцій, які були недоступні автовиробникам раніше. Універсальні голосові рішення для автомобілів спрощують способи взаємодії водія і пасажирів з мультимедіа і навігаційною системою, тим самим знижуючи аварійну небезпеку, не відволікаючи водія від керування автомобілем, на відміну від звичних бортових комп'ютерів, які потребують підвищеної уваги. Застосування голосової біометричної аутентифікації водія дозволяє знизити ризик викрадення автомобіля.

Розробки і досягнення ЦРТ

«Центр мовних технологій» (ЦРТ) виріс з невеликої команди однодумців до великої ІТ-компанії, що займає ключові позиції на ринку мовних технологій і мультимодальной біометрії, як в Росії, так і за кордоном.

Першими великими замовниками ЦРТ стали правоохоронні органи, для яких компанія розробила спеціалізований звуковий редактор для експертів-криміналістів SIS, а також пристрої шумоочистки серії «Попелюшка». Після виходу на міжнародний ринок в 1997 р почалася активна співпраця з такими відомими компаніями, як Intel (США), Samsung (Корея), SWATCH (Швейцарія).

Мал. 6. Професійні пристрої запису аудіо- і відео-сигналів: інтерактивна система аудіовідеонаблюденія AVIDIUS і диктофони серії «Гном»

Накопичивши науковий потенціал, а також досвід ведення великих проектів, в тому числі міжнародних, ЦРТ зайнявся створенням системи багатоканального запису, обробки та аналізу викликів «Незабудка», розробкою системи стенографування «Нестор», серійним виробництвом диктофонів серії «Гном» (рис. 6) , продажами програмного комплексу шумоочистки Sound Cleaner (рис. 7), висновком на ринок систем ідентифікації по голосу і обличчю.

Мал. 7. Програмний комплекс шумоочистки аудіозаписів Sound Cleaner

На початку 2000-х років співробітників ЦРТ починають запрошувати в якості аудіоекспертов для участі в розслідуванні великих катастроф, наприклад аварії на АПЛ «Курськ» або справи про захоплення заручників «Норд-Ост».

Перші кроки по створенню програм синтезу і розпізнавання російської мови були зроблені в 2007 р, коли ЦРТ отримав премію Мінінформзв'язку в області якості, а також був визнаний кращою компанією в області технологій шумоочистки на конгресі AES в Денвері.

У 2010 р ЦРТ успішно завершив проект по впровадженню першої і найбільшої в світі біометричної системи національного масштабу на замовлення уряду Мексики, а в 2012 р в МВС Еквадору була впроваджена перша в світі інтегрована система біометричного пошуку та національного криміналістичних обліків по голосу і особі для пошуку злочинців.

Мал. 9. Система VoiceKey.ONEPASS - бімодальне рішення для захисту мобільних додатків від несанкціонованого доступу

Дотримуючись загальної тенденції розвитку мобільних додатків, ЦРТ розширив лінійку продуктів і запропонував ринку кілька додатків: для озвучування новинних RSS-каналів - Radio RSS, «Читач» (рис. 8) для озвучування електронних книг, додаток-караоке Sing & Fly, а також випустив унікальне рішення для захисту мобільних додатків від злому - VoiceKey.ONEPASS (рис. 9).

Мал. 8. Додаток «Читач» для озвучування електронних книг

За минулий, 2014 р ЦРТ може пишатися не одним великим проектом: трансляція закриття Паралімпійських ігор в Сочі з онлайн-субтитрами, створення віртуального консультанта «Олена» для служби клієнтського сервісу «Мегафона», впровадження першої в Росії системи біометричної ідентифікації вболівальників на стадіоні « Петровський »- SmartTracker.Arena.

У скарбничку перемог ЦРТ додалося перше місце на всесвітньому конкурсі NIST i-vector Machine Learning Challenge 2014 за розроблену технологію ідентифікації диктора. Крім цього, компанія «ЦРТ-інновації» стала третьою російською організацією, представленою в співтоваристві FIDO Alliance (Fast Identity Online Alliance), в числі яких такі міжнародні гіганти, як Microsoft, Google, LG Electronics і ін.

Наслідуючи світові тенденції, ЦРТ також вносить свій внесок в створення штучного інтелекту.

***
Особливості сучасної ситуації на ринку мовних технологій:

  • ринок мовних технологій і засобів комп'ютерної обробки мови - один з найбільш швидкозростаючих на сьогодні;
  • використання сучасних мовних рішень дозволяє оптимізувати внутрішні процеси компаній і знизити витрати практично у всіх галузях;
  • в основному компанії вкладають кошти в розробку автоматичного розпізнавання мови, технологію перетворення тексту в мову і систему верифікації спікера;
  • лідерами серед розробників є США, Великобританія, Японія, Ізраїль і Росія, проте за прогнозованими темпами зростання попереду знаходяться країни Азіатсько-Тихоокеанського регіону.