Клонирование голоса
Клонирование голоса (англ. clone voice) – это технология, реализующая изменение голоса абонента в телефонной линии в режиме реального времени.
Технология позволяет моделировать персональные характеристики речи любого человека со 100%-ым совпадением с оригиналом, так называемой «мишенью копирования». На практике это выглядит следующим образом:
- Предварительно вы заказываете на web-сайте обратный звонок на свой телефон и звонок на телефон «мишени копирования» и предоставляете системе образцы своих голосов;
- Затем вы заказываете обратный звонок на свой телефон и телефон интересующего вас абонента. Система соединяет вас, и сигнал от вас проходит через сервер, где меняются частотные характеристики и тембральная окраска вашего голоса на параметры голоса человека – «мишени копирования». Абонент услышит ваши слова, но для него эти слова будут звучать голосом человека – «мишени копировании».
Описание технологии
Технология клонирования речи в условиях телефонного разговора в режиме реального времени базируется на известных алгоритмах математической обработки сигнала-носителя голоса[1] [1, 3]. При этом используются методы DFT анализа частот в дискретном сигнале (методом специального преобразования Фурье), полученном оцифровкой аналогового телефонного сигнала с применением узкополосного речевого кодека G.729[2] [4, 5, 6, 7]. Синтез измененной речи на основе сигнал-носителя, то есть получившийся «клонированный голос» реализует возможность максимального сохранения персональных акустических характеристик копируемого исходного голоса: фонетических особенностей произношения, акцента и даже артефактов такого рода, как заикание[3] [8]. Таким образом идентифицировать искусственность говорящего невозможно даже при специальной обработке и математическом анализе исходного телефонного сигнала.
Описываемая технология клонирования голоса в телефонных сетях является новейшим инновационным продуктом, не имевшим аналогов ранее.
Предшествующий уровень
В настоящее время сравнительно хорошо развиты системы распознавания речи. На этом принципе строиться голосовое управление различными бытовыми приборами (начиная с телефонов и автомобильных аудиосистем, и заканчивая стиральными машинами). А вот «обратный процесс» - извлечение слов из аудио сигнала и синтез речи встречает ряд трудностей.
Существующие сейчас системы создания машинной речи хорошо зарекомендовали себя в определенных технических нишах: в навигационных системах автомобилей, наручных часах, электронных «читающих» словарях-переводчиках и так далее. В подобных системах не ставится задача подражания голосу конкретного человека, поэтому получаемая машинная речь также не является персонифицированной, и легко узнается по причине своего ярко выраженного искусственного происхождения.
Ранее попытки синтезировать речь конкретного человека базировались на принципе создания «ядра» речевого клона, который содержит полный набор акустических, фонетических и просодических признаков – индивидуальных особенностей речи. Для этого требовалось наличие довольно подробной персонифицированной базы данных «копируемого» голоса. Человеку, голос которого требовалось скопировать, необходимо было прочитать длинный подготовленный текст, специально разработанный и содержащий в себе большое количество фонем, для максимального выявления особенностей речи говорящего.
Это представляло определенные трудности, так как известно, что обычный человек утомляется даже после 15-ти минут непрерывного чтения, а после 20 минут чтения его голос может и вовсе сорваться. Даже для профессионального диктора 45 минут непрерывного чтения с сохранением всего комплекса индивидуальных характеристик речи – довольно трудная задача. Требования к качеству записи голоса также предъявлялись весьма высокие – требовалось исключение различного рода шумов, способных помешать моделированию. Полученная таким образом персонифицированная запись исходного голоса подвергалась частотному анализу и математической обработке, причем вычислительный процесс часто занимал не одни сутки. После этого индивидуальная база данных голоса конкретного человека могла использоваться синтезатором речи. Естественно, длительность процесса кодирования и главное – необходимость записи эталонной речи в условиях студии существенно сужало спектр применения системы копирования речи в обычных условиях.
Применение
В настоящее время наиболее ярким примером коммерческого применения инновационной технологии клонирования речи может являться игровая индустрия. Звоня абоненту и общаясь с ним голосом другого лица (например, вашего общего знакомого) вы можете разыграть его, или выяснить его мнение о вас самих. Дети получат возможность слушать сказки, которые изначально были озвучены профессиональными дикторами, но переозвученные родительским голосом. Следует особо отметить, что подобная технология открывает простор для широкого спектра злоупотреблений, однако незаконное использование технологии клонирования речи строго исключается в соответствии со специальной программой защиты он-лайн сервиса, предоставляющего данную услугу.
Интересные факты
- Технология клонирования речи и даже само мобильное устройство для этого (в виде «мини-диктофона») было показано как небольшой гаджет в самом первом фильме из сериала BUGS.Электронные жучки.
- Клонированным голосом виртуальной актрисы общался герой Аль Пачино в фильме режиссера Виктора Тарански «Симона» (англ. Simone).
- Способностью мастерски имитировать голоса других людей, выдавая себя за них в телефонном разговоре для получения собственной выгоды, обладал Игорь Луценко в исполнении Игоря Скляра - герой отечественного фильма «Имитатор» режиссера Олега Борисовича Фиалко.
Примечания
- ↑ Abe M., Nakamura S., Shikano K. and Kuwabara H. “Voice conversion through vector quantization“, in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655 – 658.
- ↑ Levine S. and Smith J.O. “A sines+transients+noise audio representation for data compression and time/pitch scale modifications”, in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
- ↑ Huang X., Acero A., Hon H-W. “Spoken Language Processing: a guide to theory, algorithms, and system development”, Prentice Hall, NJ, 2001. – p. 980.
Литература
- Abe M., Nakamura S., Shikano K. and Kuwabara H. “Voice conversion through vector quantization“, in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655 – 658.
- Patent No.: US 6615174B1, Sep. 2, 2003.
- ITU-T Rec. G.729, “Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear – prediction (CS-ACELP)”, Mar. 1996.
- Levine S. and Smith J.O. “A sines+transients+noise audio representation for data compression and time/pitch scale modifications”, in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
- Talkin D. “Robust algorithm for pitch tracking” in “Speech Coding and Synthesis”, Kleijn, W.B. and Palival, K.K. Eds. Elsevier, Amsterdam, Netherlands, 1995.
- Grocholevski S. “First Database for Spoken Polish”, in Proc. Int. Conf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059 – 1062.
- KY Lee, Y Zhao, “Statistical Conversion Algorithms of Pitch Contours Based on Prosodic Phrases”. Proceedings of the International Conference “Speech Prosody 2004”. (SP 2004)”, Nara, Japan March 23-26 2004.
- Huang X., Acero A., Hon H-W. “Spoken Language Processing: a guide to theory, algorithms, and system development”, Prentice Hall, NJ, 2001. – p. 980.
Если вам нравится SbUP.com Сайт, вы можете поддержать его - BTC: bc1qppjcl3c2cyjazy6lepmrv3fh6ke9mxs7zpfky0 , TRC20 и ещё....