Синтез речи — что это такое и как работает
Люди ежедневно используют самых разных виртуальных ассистентов. Из-за их популярности синтез речи давно относится к технологиям, постоянно привлекающим интерес разработчиков. Однако, применять архитектуры нейросетей и известные методы недостаточно. В нашей статье кратко расскажем, как работает технология, где используется и какие особенности характерны для нее.
Сферы применения синтеза речи
Рассмотрим часто встречающиеся варианты использования синтеза речи.
- Мобильные приложения. Голосовой помощник может зачитывать статьи, обзоры, пуш-уведомления, сообщения и помогать с навигацией.
- Колл-центры. В лидирующих компаниях уже 2–3 года ответы на звонки клиентов роботизированы. Умные голосовые помощники детально разбираются в вопросе и, соответственно, быстрее удовлетворяют потребности звонящего. Для бизнеса это выгодное решение из-за адекватной стоимости: не нужно держать в штате или на фрилансе операторов.
- Гаджеты. Все знакомы с Siri, Google Assistant и Alexa. Вы им — команду, а они вам — ответ. Поддерживают множество функций. Иногда пытаются шутить и подкалывать, получается неплохо.
Принцип работы синтеза речи
Выражать эмоции по-разному и использовать отличающиеся интонации нам позволяют голосовые связки. Нейросеть должна уметь имитировать их. Для этого в SberDevices решили использовать вокодер — синтезатор речи с богатым спектром. Но зачитывать буквы мало. Устройству нужно было научиться правильно расставлять паузы и ударения на значимые слова. С помощью языковой модели BERT архитектуре пришлось освоить контекст и смысл слов. Такой комплекс мер по улучшению продукта позволяет выпускать обученных на высоком уровне и приятных на слух голосовых ассистентов.
Особенности обучения и применения синтеза речи
- Для обучения устройства еще нужны студийные записи дикторов.
- Над голосом виртуального ассистента работает большая команда специалистов: войс-коучи, разметчики, дата-сайентисты, разработчики, аналитики.
- Невозможно угодить всем пользователям: одни хотят естественный по звучанию синтез, а другие — похожий на робота, чтобы отличать машину от человека.
Технологии развиваются каждый день. В ближайшем будущем появятся не только встроенные синтезаторы речи, но и отдельные приложения, через которые пользователь за пару часов или даже минут услышит свой голос в машинном исполнении.
Смотрите также: Топ 100 лучших постов.
А вы знали, что у нас есть Telegram?
Подписывайтесь, если вы ценитель красивых фото и интересных историй!
"О таком даже стыдно вспоминать!" - позорные моменты озорных котиков
Знаменитости, которых постоянно путают: 24 пары похожих звёзд
Зачем Дональд Трамп трижды приезжал в Россию, и почему в Москве не построили Trump Tower
Аномальное озеро Фундудзи - жемчужина ЮАР, воду из которой нельзя унести
15 неожиданных фото отечественных знаменитостей, на которых их сложно узнать
"Нам не хватает этого в английском", как американцы переводили русские ругательства (остор ...
Марина и Алекс Ворфингтон — история любви и смертельно опасного бегства из СССР
12 ошибок в стиле, которые прибавляют женщинам лишних 10-20 лет
19 пронзительных и отрезвляющих фото того, как беспощадно время
22 человека, которые поняли, что кулинария — это не их конек
