Адрес для входа в РФ: exler.world

ИИ генерирует звук для видео

20.02.2024 09:00  6227   Комментарии (25)

Совсем недавно компания OpenAI представила модель ИИ под названием Sora, которая умеет создавать реалистичные видео по обычным текстовым запросам.

А теперь компания ElevenLabs, занимающаяся автоматической озвучкой текста и генерацией аудио, показала, как ее ИИ может создавать озвучку для видео - тоже по простым текстовым промптам.

В демонстрационном ролике озвучиваются примеры, созданные Sora.

Кстати, компания ElevenLabs была основана Петром Дабковским, бывшим инженером по машинному обучению Google, и Мати Станишевским, бывшим стратегом по внедрению Palantir, для разработки сверхреалистичных моделей преобразования текста в речь для образования, аудиокниг, игр, фильмов, бизнеса и так далее. Компания получила $19 млн инвестиций.

И вот один из впечатляющих примеров их разработок: ИИ вслух читает роман Скотта Фицджеральда "Великий Гэтсби".

Комментарии 25

Впечатляет!
20.02.24 21:52
0 0

Читает нормально, но за версту слышно сгенерированный голос. Слишком ровный, без всяких вздохов и прерываний. Короче мимо. Я сам перепробовал много таких генераторов - ни один и близко не подошел к реальному голосу. Единственное применение - озвучка очередного ролика-нарезки из слайдов всякой современной школотой, падкой до инноваций в кавычках.
Вообще я бы хотел, чтобы все эту ИИ братию в один момент схватили за яйца.
Кино, музыка, живопись, графика - они же готовы [censored] всё ради штамповки очередного никому не нужного контента. Смотреть и слушать сгенерированный контент, все равно что спать с резиновой женщиной.
20.02.24 18:40
2 0

без всяких вздохов и прерываний.
Послушайте внимательнее, там всё интересней.
Если фраза длинная, то вдох в неё вставляется, и он слышен там, где его естественно взял бы человек, на логической запятой. Однако, если на место ожидаемого вдоха приходится конец предложения (точка), то вдоха не слышно. Это, по-моему, недоработка.
21.02.24 02:07
0 0

На ютубе есть озвучки ИИ вступлений к схваткам в игре мортал комбат (с прикольчиками типа). Все комментаторы сходятся в том, что ИИ озвучил в 100 раз лучше, чем натуральная Меган Фокс)
20.02.24 15:17
0 0

В данном ролике ИИ читает книгу в разы лучше, чем так называемый «профессиональный дубляж» на русский, вне зависимости от студии (от просто «говно, противно слушать», до «омерзительное говно»)

И, кстати, то же касается аудиокниг. Суханов, Чонишвили, Клюквин - норм. А вот Кинга, например, или Макса Фрая ни разу не слышал в нормальном прочтении.
20.02.24 11:00
0 2

В данном ролике ИИ читает книгу в разы лучше, чем так называемый «профессиональный дубляж» на русский, вне зависимости от студии (от просто «говно, противно слушать», до «омерзительное говно»)
Это точно. Я впечатлён качеством начитки от ИИ.
20.02.24 12:02
0 0

У гугловского Gemini тоже подвижки крутые:
20.02.24 10:47
0 4

Нормальный синтезатор голоса это то что нам примерно с 2000-го года обещают, да все никак.

Для аудиокнижек было б супер
20.02.24 10:01
0 2

Для аудиокнижек было б супер
Чем вас не утраивает Яндексовская Алиса? Там и мужской голос, довольно приятный (Алис?)) есть.
Часто так слушаю
20.02.24 10:23
3 0

Вы что, серьёзно? Да тот же Magic Goody 20 лет назад лучше озвучивал
20.02.24 10:40
0 3

Чем вас не утраивает Яндексовская Алиса? Там и мужской голос, довольно приятный (Алис?)) есть.Часто так слушаю
На уровне озвучки иностранных фильмов (то есть - дурацкие интонации с придыханием)
20.02.24 11:01
0 1

Чем вас не утраивает Яндексовская Алиса? Там и мужской голос, довольно приятный (Алис?)) есть.Часто так слушаю
Это вот такой? 😄
(можно промотать одну минуту вперед - до голоса автоматического такси)
Bor
21.02.24 02:22
0 0

Космонавт похож на Донала Глисона.
20.02.24 09:39
0 1

Космонавт похож на Донала Глисона.
Почему нет? В задании был явно указан "космонавт" - а их не так много, чтобы компиляция получилась достаточно усредненной и ни на кого не похожей...

Космонавт похож на Донала Глисона.
Мне показалось, что эпизод с космонавтом - это tongue-in-cheek отсылка к сюжету Danger Seeker из Kentucky Fried Movie.
21.02.24 02:13
0 0

Все жду, когда можно будет сгенерировать озвучку Михалева для новых фильмов
20.02.24 09:15
0 3

Тембр уже можно. Вот с интонациями сложнее. Но Живов (Михалев для ну очень бедных) еще при делах, вроде как.
20.02.24 09:43
0 0

Но Живов (Михалев для ну очень бедных) еще при делах, вроде как.
Юрий Живов умер 4 года назад. Сразу видно знатока.

Озвучку сгенерировать. конечно, можно, но она будет слишком гладкая и правильная, то есть противоречить самому стилю и принципам авторского перевода.
А авторский перевод ценен ведь не только голосом конкретного переводчика, но и его интонациями. Как вы сымитируете необходимую интонацию для нужного момента перевода?
Плюс не забывайте про микрозапинки, невольные ошибки, оговорки, паузы не к месту, запаздывания и прочее, что свойственно авторскому переводу, особенно старой школы. Это надо сидеть и вставлять эти огрехи по всему переводу вручную. Работы, наверное, на месяц, не меньше.
20.02.24 10:14
1 0

Сразу видно знатока.
Хамить-то зачем? Настолько неуверены в себе?

Озвучку сгенерировать. конечно, можно, но она будет слишком гладкая и правильная, то есть противоречить самому стилю и принципам авторского перевода.
Я не то же самое написал?
20.02.24 11:19
0 2

Хамить-то зачем? Настолько неуверены в себе? Я не то же самое написал?
Никакого хамства в моей реплике нет.
Если вы не считаете, что ваша фраза "Михалев для ну очень бедных" - это хамство.

Я просто дополнил то, что вы написали. Вы написали только про интонации. Я с этим и не спорю.
20.02.24 11:25
0 0

Живов - это Михалев для ну очень бедных. Он звучит похоже на Михалева, но куда хуже в плане перевода.

А, понял - снова Великий и могучий шутку сыграл.
20.02.24 12:54
0 0

Но представителям творческих профессий не стоит волноваться из-за ИИ...

...ведь правда?
20.02.24 09:14
0 7

Но представителям творческих профессий не стоит волноваться из-за ИИ......ведь правда?
20.02.24 09:37
0 13

один из впечатляющих примеров их разработок: ИИ вслух читает роман Скотта Фицджеральда "Великий Гэтсби".
Со чтением вслух справляется не хуже и Яндексовская Алиса, но вот примеры озвучки видео впечатляют.
Это ж скоро Голливуд на помойку, Sora заменит.
Как там в песне, "вкалывают роботы, а не человек".
ЗЫ Интересно, а у OpenAI в подвальчике полноценный ИИ не завалялся? Может, просто не для публики?
20.02.24 09:12
1 2

Это ж скоро Голливуд на помойку, Sora заменит.
Не знаю как Голливуд, но 90% Нетфликса - точно.

Интересно, а у OpenAI в подвальчике полноценный ИИ не завалялся? Может, просто не для публики?
Скоро.
20.02.24 09:16
0 2
Теги
Сортировать по алфавиту или записям
BLM 21
Calella 143
exler.ru 271
авто 441
видео 3984
вино 359
еда 498
ЕС 60
игры 114
ИИ 29
кино 1579
попы 190
СМИ 2751
софт 930
США 131
шоу 6