Сайт MLLM (Multimodal Large Language Models) PlaylistAI

M-VADER

Модель для диффузии с мультимодальным контекстом

О M-VADER

M-VADER - это модель на основе искусственного интеллекта, разработанная Aleph Alpha совместно с Техническим университетом Дармштадта, которая создает изображения на основе нескольких источников. В отличие от других генеративных моделей, таких как OpenAIs DALL-E 2, Midjourney или Stable Diffusion, M-VADER способен генерировать новые изображения, комбинируя фотографию, эскиз или другой визуальный источник с текстовым описанием.

M-VADER использует модель диффузии (DM) для создания изображений на основе комбинации изображений, текста и других входных данных. Эта модель вдохновлена успешными алгоритмами генерации изображений с помощью DM, которые позволяют пользователям указывать выходное изображение с помощью текстового запроса. Модель встраивания S-MAGMA является важной составляющей M-VADER, которая является мультимодальным декодером с 13 миллиардами параметров, объединяющим компоненты модели видео-языка и смещения, которые были донастроены для семантического поиска.

Скриншоты M-VADER

Читать на английском

Категория

Следующее приложение

M-VADER

Модель для диффузии с мультимодальным контекстом

О M-VADER

Скриншоты M-VADER