Общ

Тази нова технология позволява редактиране на звук точно като текст


Инженерите от университета в Принстън са разработили Photoshop за аудио редактиране. Обявява се като копиране и поставяне на звук. Този нов софтуер може да добавя думи или да замества думи в аудиозаписа на човешки глас.

[Източник на изображението: Pixabay]

Аудиоинженерите успяват да премахнат звуковите хапки, като редактират транскрипцията на клипа в продължение на няколко години. Те обаче никога не са успели да добавят или заменят дума за по-голяма яснота. Този нов софтуер - VoCo - синтезира новите думи в гласа на говорителя с лекота, дори ако тази дума не се появява никъде другаде в записа.

„VoCo автоматизира процеса на търсене и зашиване и дава резултати, които обикновено звучат дори по-добре от тези, създадени ръчно от аудио експерти“, каза Адам Финкелщайн. Финкелщайн служи като професор по компютърни науки в Принстън.

Как работи софтуерът

Софтуерът използва алгоритъм, който сканира целия запис и комбинира комбинация от звуци на думи. Тези звуци, наречени фонеми, завършват с новата дума в оригиналния глас. Алгоритъмът дори приспособява поставянето на думата в изречение. Той отчита контекста на думата и добавя подходящия акцент.

„VoCo дава надникване на много практична технология за редактиране на аудио записи, но също така е предвестник за бъдещи технологии, които ще позволят на човешкия глас да бъде синтезиран и автоматизиран по забележителни начини“, каза Финкелщайн.

Всъщност няколко души вече са се обърнали към инженерите, за да им помогнат да възвърнат гласа си. Аспирантът Зею Джин ще представи изследването през юли. Джин отбеляза, че софтуерът VoCo да може да даде глас на беззвучните.

„При нас се обърна човек, който има невродегенеративно заболяване и може да говори само чрез текст към речева система, контролирана от клепачите му“, каза Джин. "Гласът звучи роботизирано, подобно на системата, използвана от Стивън Хокинг, но той иска малката му дъщеря да чуе истинския му глас. Един ден може да е възможно да се анализират минали записи на неговия говор и да се създаде помощно устройство, което да говори със собствения си глас . "

Етични въпроси

Технологията поставя и някои интересни етични въпроси. Изследователите разпознават това и искат да разгледат всички възможни проблеми.

„Днес приемаме за даденост, че снимките могат да се редактират и съдим за снимките с малко повече скептицизъм“, каза Финкелщайн. „Разбираме, че към снимките има журналистическа отговорност.“

Би ли било позволено това в новинарските клипове да се добавят с думи, които често липсват като „a“, „и“ и „the“? Тези думи понякога могат да бъдат добавени в текста за по-голяма яснота. Те обаче могат да променят цели значения на изявление. Например Нийл Армстронг възнамеряваше да каже „Една малка стъпка за мъж“, а не „Една малка стъпка за човек“. Как тази технология би могла да повлияе на начина, по който чуваме и помним аудио клипове? Още по-параноичен въпрос може да се отнася до истината като цяло. В епоха, в която фактите стават субективни, би ли могло съществуването на тази технология да бъде обвинено за изкривяване на истината?

Засега инженерният екип очаква по-широко обсъждане на употребите на софтуера.

„Този ​​инструмент почти със сигурност ще подхрани разговора за аудиото, предшестван от разговор за снимки“, каза Финкелщайн. „Скоро това ще бъде последвано от разговор за видео.“

Целият изследователски проект може да бъде намерен в списанието Транзакции върху графики. Можете да прочетете повече за проекта от препринта на вестника на уебсайта на Принстън.

ВИЖТЕ СЪЩО: Това мъничко устройство може да преобразува замърсения въздух във водородно гориво


Гледай видеото: Ввод текста в Word 2007 640 (Юни 2021).