Нейросеть создаёт портреты людей по голосам

В последнее время нейронные сети удивляют своими умениями — могли бы вы десять лет назад поверить в то, что компьютер сможет «оживлять» портреты Достоевского и Мэрилин Монро? Готовьтесь удивляться дальше, потому что исследователи из Массачусетского технологического института создали нейросеть Speech2Face, которая способна рисовать портреты людей, просто послушав их голоса.

Технология пока далека от идеала, но ее способность определять пол, национальность и возраст человека впечатляет.

Для обучения нейросети использовался набор AVSpeech с миллионом коротких видеороликов с тысячами говорящих людей. Дорожки с видео и звуком разделены, поэтому система смогла изучить каждый тип материала максимально подробно. На первом этапе работы, алгоритм VGG-Face изучал фрагменты видео и создавал портреты фигурирующих на них людей в анфас и нейтральным выражением лица. Другая часть алгоритма изучала спектрограмму голоса и накладывала на полученные портреты дополнительные изменения — в итоге получился примерный портрет каждого разговаривающего человека.

Нейросеть для создания портретов на основе голоса уже реальность

Если сравнить лицо человека с видео и предложенный алгоритмом вариант, то можно найти множество отличий. Впрочем, исследователи уверяют, что они изначально не хотели создать максимально похожий портрет человека — на тон и интонацию человеческого голоса влияют множество факторов, поэтому идеального результата они бы все равно не получили. Зато нейронная сеть отлично справляется с тем, что важно исследователям, а именно с точным определением пола, национальности и возраста.

Авторы работы отметили, что на данный момент алгоритм слабоват при определении возраста, но они в силах повысить точность. Также было обнаружено, что алгоритм лучше воссоздает лица с европейской и азиатской внешностью, но это связано только с тем, что на обучающих видеороликах было не равное количество лиц разных национальностей.

Зачем нужна нейросеть?

Чем же может быть полезна эта технология в будущем? Как вариант, при помощи нее когда-нибудь может быть создан сервис, где виртуальный аватар пользователя создается автоматически, на основе его голоса. Новое исследование также несет большую научную пользу — изучив данные, ученые могут найти взаимосвязь между внешностью человека и его голосом.

Источник