D2
Администратор
- Регистрация
- 19 Фев 2025
- Сообщения
- 4,380
- Реакции
- 0
Компания Black Forest Labs, основанная выходцами из Stability AI (разработчик Stable Diffusion), без предварительных анонсов выпустила новую модель генеративного искусственного интеллекта Flux. Релиз взорвал сообщество генеративного ИИ: все разговоры теперь только о новой модели. И она того стоит! Давай разберемся, как ее использовать и на что она способна.
Модель Flux отличается новым текстовым декодером с 12 миллиардами параметров, что позволяет ей намного увереннее распознавать запросы и точнее следовать им. При обучении модели не было той жесткой цензуры, которая привела к практически полной неработоспособности Stable Diffusion 3 Medium; в результате позы людей у Flux выглядят более естественными. С количеством пальцев на руках дело стало лучше, но проблема побеждена не до конца; добавлена работа с текстом на изображениях — то, что заявлялось как принципиальное отличие Stable Diffusion 3.
Модель существует в трех вариантах:
Модель способна работать с текстом, то есть добавлять на картинки надписи в точности, как просили. Кстати, обрати внимание на очки — слабое место SDXL.
Flux неплохо понимает необычные концепции.
Способна воспроизводить уличные сценки (обрати внимание на руки; это исходная генерация без использования восстанавливающих моделей).
Выдает кадры из псевдоисторических голливудских фильмов (на руке с первой попытки — пять пальцев; незамутненное счастье).
И даже рисует иллюстрации для детских книг.

Для всего этого разнообразия не потребовалось ни «бросания костей» в виде многочисленных попыток генерации, ни поиска и скачивания соответствующих лор.
Хочешь попробовать новую модель на своем компьютере? Ни AUTOMATIC1111, ни WebUI Forge для этого не подойдут. На момент написания статьи единственный софт, поддерживающий Flux, — ComfyUI или он же с оболочкой SwarmUI.
Дальше мы рассмотрим продвинутый инструментарий, позволяющий не только получить доступ к большому числу тонких настроек нейросети, но и автоматизировать генерацию высококачественных изображений.
Усложнение условий генерации усложняет и диаграмму. Впрочем, у такого подхода есть и положительные стороны: полный доступ ко всем внутренностям движка и возможность как сохранять, так и скачивать готовые диаграммы‑воркфлоу, позволяющие буквально в несколько кликов повторить то, на создание чего у автора диаграммы ушли многие часы работы.
Если же тебе хочется чего‑то более привычного, то на помощь придет SwarmUI — оболочка для Comfy, интерфейс которой очень похож на A1111. SwarmUI — продукт очередного выходца из Stability AI (интересно, там вообще кто‑нибудь остался?). Его место среди прочих интерфейсов можно описать так:
Пока не спеши ничего запускать; для работы с Flux тебе придется Скачать
Что за Flux?
Flux — новейшая базовая модель (а точнее — семейство моделей) генеративного искусственного интеллекта для создания изображений по текстовым описаниям. Flux, созданный покинувшими компанию Stability AI разработчиками, уже предлагает все то, что должна была обеспечить архитектура Stable Diffusion 3, которая до сих пор в подвешенном состоянии.Модель Flux отличается новым текстовым декодером с 12 миллиардами параметров, что позволяет ей намного увереннее распознавать запросы и точнее следовать им. При обучении модели не было той жесткой цензуры, которая привела к практически полной неработоспособности Stable Diffusion 3 Medium; в результате позы людей у Flux выглядят более естественными. С количеством пальцев на руках дело стало лучше, но проблема побеждена не до конца; добавлена работа с текстом на изображениях — то, что заявлялось как принципиальное отличие Stable Diffusion 3.
Модель существует в трех вариантах:
- FLUX.1 [pro] — полная версия модели, доступная только через API. Да, разработчики тоже хотят кушать, а их инвесторы — получить прибыль;
- FLUX.1 [dev] — самая крупная модель с 12 миллиардами параметров, доступная для локальной установки. Модель открытая, весовые коэффициенты доступны для скачивания и дальнейшего обучения, но с оговорками: лицензия на эту модель некоммерческая; возможность коммерческого использования оговаривается отдельно;
- FLUX.1 [schnell] — дистиллированная турбо‑версия модели, позволяющая создавать изображения всего за четыре шага. Эта модель распространяется по лицензии Apache 2.0, но обучить ее производные, скорее всего, не получится в силу технических ограничений.
А кто разработчики?
О том, что Black Forest Labs состоит из выходцев из Stability AI, не написал только ленивый. Эта команда разработчиков стояла у истоков технологии латентной диффузии, впоследствии покинув Stability AI и основав собственную компанию. На Reddit есть немного дополнительной информации.Возможности Flux
Flux — гигантская по современным меркам модель, способная воспринимать огромное количество концепций и рисовать в широком диапазоне стилей. На словах это мало отличается от возможностей моделей SDXL, особенно с учетом многочисленных ремиксов и лор. На деле же результаты работы Flux поражают. И ведь это только первая версия базовой модели на основе новой архитектуры. Улучшения наверняка на очереди.Модель способна работать с текстом, то есть добавлять на картинки надписи в точности, как просили. Кстати, обрати внимание на очки — слабое место SDXL.

Flux неплохо понимает необычные концепции.

Способна воспроизводить уличные сценки (обрати внимание на руки; это исходная генерация без использования восстанавливающих моделей).

Выдает кадры из псевдоисторических голливудских фильмов (на руке с первой попытки — пять пальцев; незамутненное счастье).

И даже рисует иллюстрации для детских книг.


Для всего этого разнообразия не потребовалось ни «бросания костей» в виде многочисленных попыток генерации, ни поиска и скачивания соответствующих лор.
Хочешь попробовать новую модель на своем компьютере? Ни AUTOMATIC1111, ни WebUI Forge для этого не подойдут. На момент написания статьи единственный софт, поддерживающий Flux, — ComfyUI или он же с оболочкой SwarmUI.
Дальше мы рассмотрим продвинутый инструментарий, позволяющий не только получить доступ к большому числу тонких настроек нейросети, но и автоматизировать генерацию высококачественных изображений.
Comfy и SwarmUI
ComfyUI — одновременно и бэкенд, то есть движок, и фронтенд, то есть интерфейс, для генерации изображений по текстовым описаниям. Движок Comfy — один из лучших, а управление памятью, пожалуй, лучшее из имеющегося на сегодняшний день. В то же время интерфейс ComfyUI своеобразен, сложен в освоении и нравится не всем. Ниже — пример простейшей настройки генерации в Comfy с использованием модели SDXL и рефайнера.
Усложнение условий генерации усложняет и диаграмму. Впрочем, у такого подхода есть и положительные стороны: полный доступ ко всем внутренностям движка и возможность как сохранять, так и скачивать готовые диаграммы‑воркфлоу, позволяющие буквально в несколько кликов повторить то, на создание чего у автора диаграммы ушли многие часы работы.
Если же тебе хочется чего‑то более привычного, то на помощь придет SwarmUI — оболочка для Comfy, интерфейс которой очень похож на A1111. SwarmUI — продукт очередного выходца из Stability AI (интересно, там вообще кто‑нибудь остался?). Его место среди прочих интерфейсов можно описать так:
- Fooocus — простой продукт для начинающих;
- AUTOMATIC1111 — «классический» WebUI, апстрим для разнообразных форков;
- WebUI Forge — форк AUTOMATIC1111 с более высокой скоростью работы и оптимизированным механизмом работы с видеопамятью. На данный момент ведется активная разработка, репозиторий в статусе экспериментального; в продукте будут отрабатываться новые технологии — от интерфейса Gradio 4 до нового движка;
- WebUI reForge — активный форк WebUI Forge, в котором присутствуют как оптимизации Forge, так и новинки из AUTOMATIC1111 и ComfyUI;
- ComfyUI — мощный и отлично оптимизированный продукт с самой широкой совместимостью с различными технологиями диффузии. Интерфейс в стиле блок‑схем — не для всех;
- SwarmUI — оболочка для Comfy, напоминающая WebUI. «Вы находитесь здесь!»
Установка и начало работы
SwarmUI сейчас имеет статус бета‑версии и активно разрабатывается. Готового файла для скачивания пока нет; для установки SwarmUI в Windows тебе придется самостоятельно установить:- менеджер пакетов WinGet из Microsoft Store;
- Git для Windows;
- DotNet 8 SDK с сайта Microsoft.
Пока не спеши ничего запускать; для работы с Flux тебе придется Скачать
View hidden content is available for registered users!