Разработчики Google представили Tacotron 2 — систему синтеза речи, основанную на работе рекуррентных нейросетей. Алгоритм, подробно описанный в препринте на arXiv.org, реконструирует на основе сгенерированных из текста спектрограмм речь, максимально приближенную к человеческой. Послушать примеры работы алгоритма можно здесь.

Google занимается разработкой систем синтеза человеческой речи достаточно давно. Например, их система WaveNet, работающая на основе сверточных нейросетей, при производстве аудио учитывает не только звучание отдельных языковых токенов из обучающей выборки, но также и языковые параметры, например, просодию и длину слогов и слов. Для работы такого алгоритма, тем не менее, требуется сложный предварительный анализ текста и огромное количество данных в обучающей выборке. 

Другой подход к синтезу речи, придуманный разработчиками Google, — это представление звуковой информации в виде спектрограмм (визуализации частоты в зависимости от времени). Такой подход позволяет избавиться от подробного языкового анализа и может быть осуществлен с использованием всего одной нейросети (разработчики назвали первую ее версию Tacotron), разработанной при помощи модели Seq2Seq (sequence to sequence).

Алгоритм, представленный командой разработчиков Google при участии Джонатана Шена (Jonathan Shen), работает на основе двух нейронных сетей. Первая нейросеть разбивает полученный текст на отдельные токены (буквы, паузы и знаки препинания) и визуализирует их в виде спектрограмм, а вторая — синтезирует на их основе аудио, используя алгоритмы WaveNet.

Новый алгоритм во многом превосходит все существующие. Например, Tacotron2 может распознавать омонимию на основе семантики (отличать разные формы глагола read или понимать, обозначает слово desert существительное или глагол), а также делать интонационные паузы на месте знаков препинания или делать акценты на словах, которые в исходном тексте написаны заглавными буквами.

Более того, синтезируемая алгоритмом речь практически ничем не отличается от человеческой. Авторы разработки представили несколько примеров парных аудиозаписей, которые практически не отличаются друг от друга. 

— отрывок, синтезированный Tacotron2

— отрывок, произнесенный человеком

Разработчики также попросили восемь человек оценить полученные с помощью работы системы образцы речи, сравнив их с теми же фразами, произнесенными людьми, по шкале от 1 до 5 (где 1 — меньше всего похоже на человеческую речь). Средняя оценка аудио, полученных с помощью Tacotron2, составила 4,53. Для сравнения, человеческая речь была оценена теми же людьми в среднем в 4,58 балла, а предыдущая версия Tacotron — в 4,001.

Авторы работы утверждают, что новый алгоритм является самым совершенным на сегодняшний момент в сфере искусственного синтеза речи и может быть использован для улучшения работы голосовых помощников.

Елизавета Ивтушок