28 августа 2025 года Microsoft объявила о выпуске двух собственных генеративных ИИ-моделей: MAI-Voice-1 для генерации речи и MAI-1-preview для обработки текста. Это первый шаг компании к созданию независимых ИИ-решений, снижающих её зависимость от внешних моделей, таких как GPT от OpenAI.
Характеристики моделей
MAI-Voice-1 — модель генерации речи, способная создавать высококачественное аудио с выразительной интонацией. Она интегрирована в Copilot Daily и Copilot Podcasts, обеспечивая генерацию минуты аудио менее чем за секунду на одном GPU. MAI-1-preview — текстовая модель на архитектуре Mixture-of-Experts, обученная на 15 000 GPU Nvidia H-100. Она тестируется в Copilot и на платформе LMArena для текстовых задач. Обе модели оптимизированы для эффективности и снижения затрат.
Преимущества
Эффективность: MAI-Voice-1 работает на одном GPU, что снижает затраты на инфраструктуру по сравнению с моделями, требующими десятков тысяч GPU, такими как Grok от xAI.
Интеграция: Модели уже внедряются в продукты Microsoft, включая Copilot, что ускоряет их применение в реальных сценариях.
Независимость: Создание собственных моделей снижает зависимость Microsoft от партнеров, таких как OpenAI, и укрепляет позиции на рынке ИИ.
Риски и ограничения
Конкуренция: Модели Microsoft пока уступают лидерам рынка, таким как GPT-4, по функциональности и масштабу.
Недостаток данных: Технические детали, включая размер моделей и точные показатели производительности, не раскрыты, что затрудняет независимую оценку.
Риски этики: Генерация речи и текста требует строгого контроля во избежание дезинформации или злоупотреблений, таких как создание дипфейков.
Значение для рынка
Выпуск MAI-Voice-1 и MAI-1-preview сигнализирует о стратегическом повороте Microsoft к созданию собственных ИИ-решений. Это укрепляет позиции компании в Azure и Copilot, позволяя конкурировать с OpenAI, Google и xAI. Планы по использованию новых чипов Nvidia GB200 и дальнейшее развитие моделей говорят о долгосрочной инвестиционной стратегии.