M-VADER
Модель для диффузии с мультимодальным контекстом
О M-VADER
M-VADER - это модель на основе искусственного интеллекта, разработанная Aleph Alpha совместно с Техническим университетом Дармштадта, которая создает изображения на основе нескольких источников. В отличие от других генеративных моделей, таких как OpenAIs DALL-E 2, Midjourney или Stable Diffusion, M-VADER способен генерировать новые изображения, комбинируя фотографию, эскиз или другой визуальный источник с текстовым описанием.
M-VADER использует модель диффузии (DM) для создания изображений на основе комбинации изображений, текста и других входных данных. Эта модель вдохновлена успешными алгоритмами генерации изображений с помощью DM, которые позволяют пользователям указывать выходное изображение с помощью текстового запроса. Модель встраивания S-MAGMA является важной составляющей M-VADER, которая является мультимодальным декодером с 13 миллиардами параметров, объединяющим компоненты модели видео-языка и смещения, которые были донастроены для семантического поиска.
Скриншоты M-VADER

Читать на английском