Технологія продовжує зростати семимильними кроками, спираючись на кілька областей для вивчення нових можливостей і функцій. Одна з них - вміти «реконструювати» обличчя людини через фрагмент голосу.
Дослідження Speech2Face ,представлене в 2019 році на конференції Vision and Recovition Patterns, показало, що Штучний інтелект (AI) можерозшифрувати зовнішність людини за допомогою коротких аудіосегментів.
У статті пояснюється, що метою дослідників Те-Хён Он, Талі Декель, Чангіля Кіма, ІнбарМосері, Вільяма Фрімена та Майкла Рубінштейна програми досліджень і науки MIT є не реконструкція обличчя людей однаково, а зробити образ з фізичними характеристиками, які пов'язані з проаналізовано аудіо.
Щоб досягти цього, вони використовували, розробили та навчили глибоку нейронну мережу , яка проаналізувала мільйони відео, знятих з YouTube, де люди розмовляють. Під час навчання модель навчилася співвідносити голоси з обличчями, дозволяючи створювати зображення з фізичними ознаками, схожими на ораторів, включаючи вік, стать та етнічну приналежність.
Тренінг проводився під наглядом та з використанням узгодження облич та голосів інтернет-відео, без необхідності моделювати детальні фізичні характеристики обличчя.
Вони детально розповіли, що оскільки це дослідження може мати аспекти, чутливі до етнічної приналежності, а також приватності, це те, що до відтворення облич не додано жодних конкретних фізичних аспектів, і вони запевняють, що, як і будь-яка інша системамашинного навчання, вона з часом покращується, оскільки при кожному використанні збільшує свою бібліотеку знань.
Хоча показані тести показують, що Speeech2Face має велику кількість збігів між обличчями та голосами, він також мав деякі недоліки, де етнічна приналежність, вік чи стать не відповідали використовуваному вибірці голосу.
Модель призначена для представлення статистичних кореляцій, які існують між рисами обличчя з голосом. Слід пам'ятати, що AI вивчили через відео YouTube, які не представляють реальної вибірки населення в світі, наприклад, в деяких мовах він показує розбіжності з даними навчання.
У цьому сенсі саме дослідження рекомендує наприкінці своїх результатів, щоб ті, хто вирішив дослідити та модернізувати систему, розглянути ширший вибірку людей та голосів, щоб машинне навчання мало ширший репертуар відповідності та відтворення облич.
Програма також змогла відтворити голос у мультфільмах, які також мають неймовірну схожість з голосами проаналізованих аудіо.
Оскільки ця технологія також може бути використана для зловмисних цілей, відтворення обличчя залишається максимально наближеним до людини і не дає повних облич, оскільки це може бути проблемою для конфіденційності людей. Тим не менш, дивно, що технологія може зробити з аудіо зразків.
ПРОДОВЖУЙТЕЧИТАТИ:
Más Noticias
“OCESA miente”: ARMY responde a organizadores tras culpar a BTS de los precios y deslindarse de revendedores
La promotora OCESA negó cualquier relación con revendedores y aseguró que los precios de los boletos de BTS fueron definidos por el grupo surcoreano

Panamá anuló la concesión que permitía a una filial de la empresa hongkonesa CK Hutchison Holdings operar dos puertos en el Canal
El fallo emitido por la Corte Suprema de Justicia afecta a la operación de los puertos de Balboa, en el Pacífico, y Cristóbal, en el Atlántico, administrados desde 1997 por la empresa Panama Ports Company, subsidiaria de Hutchison

Cómo está el euro frente al dólar este 30 de enero
La moneda europea mostró fluctuaciones en su cotización de este día

Los números que dieron la fortuna a los nuevos ganadores del Chispazo
El sorteo de Chispazo se lleva a cabo dos veces al día, a las 15:00 horas y a las 21:00 horas, de lunes a domingo. Estos son los resultados de los sorteos de hoy

A qué hora juega Alianza Lima vs Sport Huancayo HOY: partido por fecha 1 del Torneo Apertura de la Liga 1 2026
Los ‘blanquiazules’ tendrán que voltear la página y pensar en el torneo local, ya que tienen un duro rival de altura en el inicio del campeonato. Conoce los horarios del partidazo en el IPD de Huancayo
