https://frosthead.com

Искусственный интеллект генерирует лица людей на основе их голосов

Новая нейронная сеть, разработанная исследователями из Массачусетского технологического института, способна построить грубое приближение лица человека, основываясь исключительно на фрагменте его речи, - опубликована в отчете arXiv сервера предварительной печати.

Команда обучила инструменту искусственного интеллекта - алгоритму машинного обучения, запрограммированному «мыслить» так же, как человеческий мозг, - с помощью миллионов онлайн-клипов, охватывающих более 100 000 различных докладчиков. Названный Speech2Face, нейронная сеть использовала этот набор данных для определения связей между голосовыми сигналами и определенными чертами лица; Как пишут ученые, возраст, пол, форма рта, размер губ, структура кости, язык, акцент, скорость и произношение - все это влияет на механику речи.

По словам Мелани Эренкранц из Gizmodo, Speech2Face использует ассоциации между внешностью и речью, чтобы генерировать фотореалистичные изображения передних лиц с нейтральными выражениями. Хотя эти изображения слишком общие, чтобы идентифицировать их как отдельного человека, большинство из них точно определяют пол, расу и возраст говорящих.

Интересно, что Джеки Сноу объясняет для Fast Company, что новое исследование не только основывается на предыдущих исследованиях, касающихся предсказания возраста и пола на основе речи, но также подчеркивает связи между голосом и «черепно-лицевыми особенностями», такими как структура носа.

Авторы добавляют: «Это достигается без предварительной информации или наличия точных классификаторов для этих типов точных геометрических элементов».

Тем не менее, алгоритм имеет свои недостатки. Как отмечает Минди Вайсбергер из Live Science, в модели возникают проблемы с анализом языковых вариаций. Например, при воспроизведении аудиоклипа азиатского человека, говорящего по-китайски, Speech2Face выдает лицо правильной этнической принадлежности, но когда тот же человек записывается на английском языке, ИИ генерирует изображение белого человека.

В других случаях мужчины с высокими частотами, включая детей, были ошибочно идентифицированы как женщины, что свидетельствует о гендерной предвзятости модели при сопоставлении низких голосов с мужчинами и высоких голосов с женщинами. Учитывая тот факт, что учебные данные были в основном получены из образовательных видео, размещенных на YouTube, исследователи также отмечают, что алгоритм не может «одинаково представлять все население мира».

По словам Джейн С. Ху из Slate, законность использования видео YouTube для научных исследований довольно очевидна. Такие клипы считаются общедоступной информацией; даже если пользователь защищает авторские права на свои видео, ученые могут включать материалы в свои эксперименты в соответствии с пунктом «добросовестного использования».

Но этика этой практики менее проста. Беседуя с Ху, Ник Салливан, глава отдела криптографии в Cloudflare, сказал, что он был удивлен, увидев его фотографию, представленную в исследовании команды MIT, поскольку он никогда не подписывал отказ и не слышал напрямую от исследователей. Хотя Салливан говорит Ху, было бы «приятно» получить уведомление о его включении в базу данных, он признает, что, учитывая огромный размер пула данных, ученым будет трудно достучаться до всех изображенных.

В то же время Салливан заключает: «Поскольку мое изображение и голос были выделены в качестве примера в статье Speech2Face, а не просто использованы в качестве точки данных в статистическом исследовании, было бы вежливо обратиться к мне или попроси у меня разрешения.

Одно из потенциальных реальных приложений для Speech2Face - использование модели для «прикрепления представительного лица» к телефонным звонкам на основе голоса говорящего. Сноу добавляет, что технология распознавания голоса уже используется во многих областях - часто без явного знания или согласия отдельных лиц. В прошлом году Чейз запустил программу «Voice ID», которая научилась распознавать клиентов кредитных карт, звонящих в банк, а исправительные учреждения по всей стране создают базы данных «голосовых отпечатков» заключенных.

Искусственный интеллект генерирует лица людей на основе их голосов