Аз слушах гласовете на хората. Тогава тя генерира техните лица.

Изграждали ли сте някога ментален образ на човек, когото никога не сте виждали, основавайки се единствено на техния глас? Изкуственият интелект (AI) вече може да направи това, генерирайки дигитално изображение на лицето на човек, използвайки само кратък аудиоклип за справка. Имената Speech2Face, – компютър, който „мисли“ по начин, подобен на човешкия мозък – беше обучен от учени на милиони образователни видеоклипове от интернет, които показаха, че говорят над 100 000 различни хора. От този набор от данни Speech2Face научи асоциации между вокалните сигнали и някои физически характеристики в човешкото лице, пишат изследователи в ново проучване. След това AI използва аудиоклип, за да моделира фотореалистично лице, съответстващо на гласа. [ ] Резултатите бяха публикувани онлайн 23 Май в предпечат jounral За щастие, AI (все още) не знае точно как изглежда даден индивид въз основа на техния глас. Невронната мрежа разпознава определени маркери в речта, които сочат към пол, възраст и етническа принадлежност, характеристики, които се споделят от много хора, съобщават авторите на изследването. „Като такъв, моделът ще създаде само лица, изглеждащи средно,“ пишат учените. „Това няма да произведе образи на конкретни индивиди.“ AI вече показа, че може да произведе необичайно точни човешки лица, въпреки че . Лицата, генерирани от Speech2Face – всички с лице към предната част и с неутрални изрази – не съвпадат точно с хората зад гласовете. Но изображенията обикновено улавят правилните възрастови групи, етноси и полове на индивидите, според проучването. Но интерпретациите на алгоритъма далеч не са съвършени. Speech2Face демонстрира „смесено представяне“, когато се сблъсква с езикови вариации. Например, когато AI слуша аудио клип на азиатски човек, говорещ китайски, програмата произвежда образ на азиатско лице. Въпреки това, когато същият човек говори на английски език в различен аудиоклип, ИИ генерира лицето на бял човек, съобщават учените. Алгоритъмът показа също , свързвайки ниски гласове с мъжки лица и високи гласове с женски лица. И тъй като наборът данни за обучение представлява само образователни видеоклипове от YouTube, той „не представлява еднакво цялото световно население“, пишат изследователите. Друга загриженост относно този видео набор от данни възникна, когато човек, който се появи в видеоклип в YouTube, се изненада, когато научи, че неговото подобие е включено в проучването, . Ник Съливан, ръководител на криптографията с компанията за интернет сигурност Cloudflare в Сан Франциско, неочаквано забеляза лицето му като един от примерите, използвани за обучение на Speech2Face (и който алгоритъмът е възпроизвеждал доста приблизително). Съливан не се е съгласил да се появи в проучването, но видеоклиповете в YouTube в този набор от данни са широко разпространени, за да могат да се използват от изследователите, без да придобиват допълнителни разрешения, според Slate. Първоначално публикуван на .
https://www.livescience.com/65689-ai-human-voice-face.html
Преводът е осигурен от „Google translate“. Посетете  линка свързан със заглавието над краткия текст за да прочетете пълния текст в оригинал.