Адрес для входа в РФ: exler.world
Генерация изображений со скоростью ввода текста
Я сейчас изучаю возможности Foocus V2 (собственно, для этого я и покупал новую видеокарту) - это нейросеть, создающая изображения по текстовому описанию (и, возможно, по другим изображениям), базирующаяся на Stable Diffusion XL. Система крайне интересная, однако генерация каждой картинки по не особенно сложному запросу занимает на моем компьютере примерно 25 секунд. Что, с одной стороны, очень недолго, но, с другой, там явно есть возможности для совершенствования процесса.
Так вот, буквально вчера компания Stability.ai, разработчик Stable Diffusion XL, представила новую модель Stable Diffusion XL Turbo, которая может генерировать и изменять изображение прямо в процессе набора текстового запроса.
Вот как это выглядит.
А вот здесь в онлайне вы можете попробовать самостоятельно сгенерировать изображение (на английском) наблюдая за тем, как картинка появляется в реальном времени (внимание: бесплатно дается только пара попыток).
Вот, например, моя попытка.
Ну вот что мне нарисовала Foocus V2 в реалистичной манере по тому же запросу (без уточнений) за 30 шагов.
Тот же запрос у Leonardo.ai.
Примеры изображений, созданных с помощью Stable Diffusion XL Turbo.
Главная инновация SDXL Turbo заключается в способности создавать изображения за один шаг, что значительно меньше, чем 20-50 шагов, которые требовались его предшественнику. Компания Stability приписывает этот скачок в эффективности технике, которую она называет Adversarial Diffusion Distillation (ADD).
Компания Stability подробно описала внутреннюю работу модели в опубликованном во вторник исследовательском документе, посвященном технике ADD.
Изображения SDXL Turbo не столь детализированы, как изображения SDXL, полученные при большем количестве шагов, поэтому его нельзя считать заменой предыдущей модели. Но за счет экономии скорости результаты получаются впечатляющими.
Скорость генерации SDXL Turbo - это то, что называется "реальным временем". Stability AI утверждает, что на Nvidia A100 (мощном GPU с поддержкой искусственного интеллекта) модель может генерировать изображение размером 512×512 за 207 мс, включая кодирование, один шаг шумоподавления и декодирование. Подобная скорость может привести к созданию генеративных видеофильтров ИИ в реальном времени.
Генерация высокоточных изображений за один шаг. Все образцы сгенерированы с помощью диффузионной дистилляции (ADD)
DALLE-3 лучше следует подсказке но общее качество пока хромает.
Свежий пример для сравнения privet.fun
У себя на форуме (phpBB движок, с расширением github.com сделал возможность для пользователей генерировать Midjourney / DALLE / Stability.ai был еще Leonardo AI но потом убрал его тк он не пользовался популярностью.
Вот примеры:
- Midjourney privet.fun
- DALLE-2 privet.fun DALLE-3 пока решил не ставить, дорого выходит
- Stability.ai privet.fun
Для Leonardo AI сделал отдельного бота если кому интересно t.me
Он кстати генерит (генерил?) NSFW privet.fun
Что касается именно генерации картинок то тут совершенно не обязательно покупать видоекарту, более того не вижу в этом большого смысла основываясь на своем опыте.
Сам начинал с локальных инсталляции SD но позже перешел к использованию API.
Акаунт для Midjourney стоит $30/m с безлимитным числом генерации в режиме relax, да это будет медленно но можно подцепить через API коих сейцас много (сам использую $10/m useapi.net) и генерить по паре-тройке сотен картинок в день без напряга.
DALLE-3, Leonardo AI и Stability.ai все имеют официальный API
DALLE-3 openai.com
Leonardo AI leonadoai.com
Stability.ai platform.stability.ai
DALLE-3 достаточтно дорого может выйти, Stability.ai самый доступный в плане стоимости, Leonardo AI где-то по середине.
Для Leonardo AI можно создать пару десятков бесплатный акаунтов с 150 кредитами в день каждый и крутить их, хватит за глаза (собственно это и сделано на t.me
в запросе Риоха, а на картинке Хванчкара с коротким горлышком...
Что интересно, для составлений промтов писатель воспользовался помощью более знакомого с нейросетями друга.
Вангую появление новой профессии: художник-составитель запросов для нейросетей 😄
Т.е. если цвет стоит посередине то скорее всего он будет на тех предметах что стоят перед ним, а если в конце то уже на всех.
Вес слова можно увеличить (скобками:1.5).
В ранних нейросетях (до осени этого года) длинный текст понимается хуже. В Далли3 уже можно применять литературные обороты.
Ну и главный принцип - нейросеть рисует то что ты ей скажешь, а не то что тебе хочется. 😄
Кстати, в Фокусе в кнопках "стиль" так же зашит текст промта в том числе негативный поэтому часто использование родных стилей фокуса перекрыват значение других и не даёт им полноценно работать.
Для фокуса что то подобное пока в процессе.
Схему для Комфи можно скачать здесь:
openart.ai
Выложил
З.Ы. Кстати, у Алекса в иллюстрации от Foocus V2 у машины очевидно какие-то проблемы с рулем, он явно не там, где должен быть, и торпеда тоже какая-то очень странная. И котика с подушкой явно насадили на селектор передач.
Ёлки есть, асфальт есть, закат есть и даже асфальтоукладчик есть. Ну почти. 😄
Времени особо нет, просто слегка наметил направление куда двигаться.
Вообще смешно наблюдать как скептики и критики выдвигают две противоположные претензии: "ИИ отнимает кусок хлеба у тружеников потому что теперь каждый школьник одним кликом сделает шедевр" и "ИИ ваще ничего не умеет и нужно сидеть и трудится подбирая промт, модели, тренить Лоры и я ещё должен за это этим людям платить деньги".
Я потратил на эту сцену минут пятнадцать без использования референсов просто взяв в Гугле первый попавший укладчик. Что бы выполнить твой заказ нужно в разы больше работы. И можно будет подобрать и даже "рейскалер" определенной фирмы и модели.
Просто когда хочешь профессионального результата нужен и подход профессиональный а не "я тут два раза кнопки ткнул фигня ваш Моцарт ".
А далее будет ещё более профессиональный подход, будут банки моделей, будет рынок заказов на обучение лор на заказ. Будет ещё много всякого нового и разного.
Это новый мир к которому уже сейчас надо привыкать и уже сейчас надо разобраться как это работает (даже если вы планируете выступать со стороны заказчика).
Тот же Bing (вроде на базе Dall-E) гораздо лучше справился. Запрос "asphalt paver on the road in russian forest during sunset".
Асфальтоукладчик везут на вертолёте.
Асфальт есть, но глубоко.
Ёлки немного подросли в процессе.
Да, это так работает.
По ТК работали, до 17:00.
Трасса Лена.
Межгосударственная.
Сколько лет самостоятельной практики имеете?
Кто ваш учитель?
Это как ругаться на набор акварельных красок в кривых руках.
Но ведь в ровных - и кусок угля выдаст шедевр.
Да, это так работает.
Это действительно, так и работает - хочешь результат, на бесплатный интернет не надейся.
В твоём заказе порядок профессионального исполнения должен быть таким - в нейросетях создаёшь референсы кадра и согласовывает его с заказчиком, после этого так как заказчику требуется конкретная модель - создаёшь её (через фото сессию или 3D), и уже после генеришь финальные варианты согласовав которые шлифуешь их в ФШ.
Варианта "я сижу на попе и просто жмакаю кнопки" нет и самое главное - не будет. Если хочешь конечно крутой результат а не "и так сойдёт "
Это же прошло, и без всяких ИИ
Если хочется именно результатов то стоит остановиться на модифицированных моделях SDXL (некоторые так вообще остались на простой SD).
Основной источник этих моделей (чекпоинт) сайт civitai.com
Там же можно и уточняющие модели LORA скачать.
Если в любом комментарии кому-то мерещится ущемление его самооценки, по-моему это вопрос не про мою голову уже 😄
Имя файла длинное и с точкой оказалось. На Андроиде фиг увидишь.
Руками перебил, и...
подрихтовать.
Есть такая история про Лукашенко, когда он только стал президентом.
Пришёл к нему министр финансов, обсуждают проблемы с инфляцией. Лука слушает, кивает головой, а потом говорит:
- А что если я издам указ?
- В смысле?
- Ну, чтобы инфляции не было?
Немая сцена.
Так может издать указ об отмене скулшутинга? А то вот Невада и Брянск в один день. Непорядок.
Пришёл к нему министр финансов, обсуждают проблемы с инфляцией. Лука слушает, кивает головой, а потом говорит:
- А что если я издам указ?
- В смысле?
- Ну, чтобы инфляции не было?
Немая сцена.
Всё-таки Фокус на компе можно кочевряжить бесконечно, пока не надоест.
Но нужна видяха, да.
Причём всё по отдельности он знает, но вместе ерунда.
будут лучше помогать по запросу, такой себе продвинутый поиск в гугле - и ок
8 ноября 2023
В Южной Корее робот насмерть задавил человека, не сумев отличить его от коробки с овощами.
Сотрудник робототехнической компании в возрасте около 40 лет осматривал робота – накануне у него засбоил датчик.
По сообщению южнокорейского информационного агентства Yonhap, роботизированная рука, приняв мужчину за ящик с овощами, схватила его и прижала к конвейерной ленте, раздавив лицо и грудь.
Его доставили в больницу, но спасти не смогли.
***
Несчастный сотрудник тоже думал, что робот железный, и у него нет желаний. Желаний не было, а функция была, и робот ее старался выполнить максимально безупречно. Функции - это как человеческие желания, только продиктованные не слепой биологией, но в остальном такие же.
Ранний звоночек прозвенел в 2006-м, когда прогрессивный японский робот-бармен-сомелье, умеющий по виду и запаху определять продукты и их свежесть, уверенно обозначил руку журналиста как "ветчина" и собрался делать бутерброд, потому что он существует для этого.
Чтоб нейросеть в своем стремлении исполнить запрос не зашла слишком далеко, ей надо бесконечное количество запретов понатыкать, а всего на свете не предусмотришь.
```
_______
/ \
/ \
| 1 2 |
| \_/ |
| 3 4 |
| \_/ |
| 5 |
| |
| |
-----------
```
Это, конечно, простой текстовый рисунок, но надеюсь, он хотя бы немного поднимет вам настроение! Если у вас еще есть какие-либо вопросы или запросы, я здесь, чтобы помочь!
любое рабочее место с роботом должно быть оборудовано:
1 ограждение всей зоны доступности роботом с отключением робота если кто-то его разорвал ограждение
2 коврик реагирующй на нажатие отключением робота - если кто-то перелез ограждение не разорвав цепь безопасности и наступил на зону доступную роботу
3 все элементы робота при любом подозрении меняются на заведомо исправные и НИКОГДА не тестируются-проверяются в рабочей зоне иначе как при полном включении всех средств безопастности исключающих наличие человека в зоне доступности роботом.
Догадайтесь сколько из этих требованийнарушил сотрудник "робототехнической компании"...
А да KUKA динозавр роботостроения, не то что всякие шустрые стартапы...
Интересно другое: что будет, когда в сети накопится достаточное (и постоянно увеличивающееся) количество образцов авторства того же ИИ?
Совсем грубо утрируя: при обучении "показывают" нейросети картинку с описанием, в котором есть слово "бадминтон". В той самой таблице на пересечении строки "бадминтон" и столбца "круглая штука" значение увеличивается с 7,43 до 8,02. И так миллионы раз с разными размеченными картинками.
В итоге при запросе "нарисуй бадминтон" сеть проходит по одноимённой строке, собирает столбцы с максимальными весами и отрисовывает их. Включая круглую штуку.
По факту там и таблица не двумерная, и там будет не просто "круглая штука", а более комплексные сущности, включая взаимное расположение деталей (круглая штука, на уровне руки, соединена с рукой палкой) - но идея именно такая. Не мозаика, а отрисовка в соответствии с очень глубоко параметризованным описанием.
А вообще веселые времена нас ждут.
Один ИИ будет создавать контент в сети в петабайтных количествах, другой этот контент комментировать, лайкать и репостить и нагонять просмотры, третий все это индексировать, анализировать и формировать новые модели для первого ИИ.
Фабрика ботов покажется милым развлечением на этом фоне.
Нейросеть даже как руку и пальцы этот фрагмент не идентифицирует, для неё это полоска бежевого цвета и несколько кривых полосок поменьше, которые как правило встречаются рядом.
В итоге нашёл художницу, которая сделала очень круто и я ещё и торговался вверх, потому что она запросила неприлично мало.
Вообще, как показывает практика, профессионалам часто можно предложить интересную задачу и они согласятся за сниженный прайс, потому что возможность отдохнуть от бесконечных фонов для игр "найди предмет", обложек говнофентези и прочего подобного.
Ося всё ещё лучше рисует.