В мире высокопроизводительных вычислений произошло знаковое событие: исследовательская команда DeepReinforce представила систему CUDA L2, способную автоматически генерировать код для операций матричного умножения (GEMM) на графических процессорах. Разработанные системой высокооптимизированные ядра (HGEMM) демонстрируют беспрецедентную производительность, превосходя реализации, созданные специалистами NVIDIA (cuBLAS и cuBLASLt) в среднем на 10–30%. Этот результат, подтверждённый независимым тестированием, ставит под сомнение устоявшиеся парадигмы ручной оптимизации и открывает новую эру в разработке системного ПО для ИИ и научных вычислений.

От шаблонов — к генерации с нуля: новый принцип оптимизации

Традиционные библиотеки, такие как cuBLAS, представляют собой результат многолетней кропотливой работы инженеров-экспертов, создающих и тонко настраивающих ограниченный набор шаблонов кода. CUDA L2 применяет принципиально иной, генеративный подход. В его основе лежит симбиоз большой языковой модели (LLM) и цикла обучения с подкреплением (Reinforcement Learning, RL).
1.  Генерация: Модель LLM (в данном случае — доработанная DeepSeek 671B, обученная на обширном корпусе высококачественного кода CUDA из проектов вроде PyTorch и CUTLASS) создаёт ядро для умножения матриц *с нуля*, учитывая конкретные размерности задачи.
2.  Валидация и обратная связь: Сгенерированный код выполняется на реальном GPU-оборудовании. Система замеряет его производительность и корректность результата.
3.  Обучение: Полученные метрики (время выполнения) используются как функция вознаграждения для обучения модели методом RL, заставляя её находить всё более эффективные варианты.

Этот итеративный цикл позволяет системе исследовать пространство оптимизаций, недоступное человеческому инженеру, свободно варьируя глубинные параметры ядра: стратегию тайлинга (разбиения на блоки), структуру вложенных циклов, схему выравнивания данных (padding) и даже низкоуровневые паттерны доступа к памяти (swizzle patterns).

Практическая значимость и результаты тестирования

Ключевое преимущество CUDA L2 — масштабируемость. Система обучалась и оптимизировала код для тысяч различных конфигураций размеров матриц, а не для нескольких заранее заданных шаблонов. Это гарантирует стабильный прирост производительности в широком спектре реальных задач, а не только в синтетических бенчмарках.
- Оффлайн-режим: В тестах на изолированных операциях GEMM система демонстрирует превосходство в 17–22% над torch.matmul, cuBLAS и даже над расширенным автотюнинг-решением cuBLASLt AutoTuning, которое уступает примерно на 11%.
- Серверный сценарий (инференс): В условиях, имитирующих реальную нагрузку при обслуживании моделей, ускорение достигает 24–29%, что напрямую ведёт к снижению задержек и увеличению пропускной способности.
- Тренировка моделей: Поскольку операции HGEMM занимают доминирующую долю времени в обучении крупных нейросетей, внедрение CUDA L2 сулит существенное сокращение вычислительных затрат и времени цикла разработки ИИ.

Успех CUDA L2 знаменует переход к автономной, адаптивной и самообучающейся системе оптимизации вычислительных ядер. Это не просто инкрементальное улучшение, а качественный скачок, способный изменить ландшафт высокопроизводительных вычислений. Технология указывает на путь к полной автоматизации создания критически важного низкоуровневого ПО, что может значительно ускорить развитие и внедрение ресурсоёмких технологий, от фундаментальных научных симуляций до следующего поколения генеративного искусственного интеллекта.