Forwarded From Rozetked (Антон Курилов)

Как устроена модель генерации изображений по тексту Kandinsky 3.0? Отвечают разработчики 🏦

Новая версия технологии отличается удвоенным количеством параметров. Если в Kandinsky 2.2 было 4,8 млрд параметров, то в 3.0 — уже 11,9 млрд. В набор данных для обучения разработчики заложили больше примеров, иллюстрирующих русскую культуру.

Ещё удалось обновить текстовый энкодер, так что модель лучше понимает запросы пользователей. А выбранный декодер Sber-MoVQGAN показывает лучшие результаты в задаче восстановления изображений.

rozetked.me/news/31524

От