Компания xAI, основанная Илоном Маском, представила новейшую мультимодальную технологию, способную моментально преобразовывать текстовые или голосовые команды в изображения, а затем — в полноценные видеоролики со звуком. Об этом сообщает портал IXBT.

Новый инструмент стал доступен подписчикам Grok Heavy и является одной из ключевых возможностей искусственного интеллекта Grok.
Илон Маск заявил, что скорость генерации визуального контента в системе опережает все существующие аналоги: от момента подачи запроса до создания итогового видео с аудиосопровождением проходит менее 30 секунд. По его словам, это быстрее, чем многим другим ИИ-сервисам требуется только на создание одного изображения.
Процесс работы начинается с текстового или голосового ввода — система генерирует несколько изображений по заданной теме. Пользователь может уточнять запрос, задавая стилистику и дополнительные элементы. К примеру, при команде «нарисуй пингвина» искусственный интеллект предложит подборку изображений, которые можно дополнительно модифицировать, добавив цилиндр, монокль или иные детали.