DeepSeek-V4: когда инференс быстрее, а обучение — через верификацию
Опубликовано 26.04.2026
•
Engineering
Гонка AI-моделей перешла в стадию, когда архитектурные прорывы случаются реже, а инженерные — всё чаще. DeepSeek-V4, судя по блогу LMSYS, взяли не размером, а связкой: быстрый инференс на SGLang и верифицированное RL (reinforcement learning) через Miles. Для нас это не столько новость о новой модели, сколько сигнал: узким местом становится не quality модели, а стоимость её эксплуатации и уверенность в результате.
Главное отличие V4 от предшественников — двухфазный пайплайн. На первой фазе SGLang оптимизирует исполнение: динамическое батчирование, fused kernels, эффективное управление KV-кешем. На второй — Miles вместо обычного RLHF использует верификаторы: модель не просто учится на человеческих предпочтениях, а проверяет свои ответы формальными критериями. Это снижает галлюцинации без гигантских датасетов разметки.
Почему это важно для продакшна
На нашем опыте, большинство проблем с LLM в реальных проектах — не в том, что модель «недообучена», а в том, что её дорого держать в продакшне и сложно контролировать качество. DeepSeek-V4 атакует обе проблемы сразу. Если SGLang даёт реальный прирост throughput на том же железе (ускорение в 2–3 раза на typical workload), то верифицированное RL — это ответ на вопрос «как сделать, чтобы модель не врала, не имея армии асессоров».
Мы бы не ставили V4 в прод клиента прямо сейчас — модель слишком свежая, а документация по Miles пока скудная. Но сам вектор нам близок: вместо «накормить больше данных» — «добавить формальную проверку». Это особенно актуально для задач, где цена ошибки высока: финансовая отчётность, медицинские диагнозы, генерация юридических документов.
Где это может не сработать
Верификаторы хороши, когда критерий можно формализовать. Для творческих задач — написание писем, генерация рекламных текстов, идеи для контента — верификация не даст выигрыша, а может ухудшить разнообразие ответов. Miles, судя по описанию, заточен на задачи с чёткой структурой: код, математика, логические цепочки. Для «мягких» доменов RLHF с человеческим фидбеком остаётся эффективнее.
Ещё один риск — vendor lock-in. SGLang и Miles — открытые проекты, но их связка с DeepSeek-V4 оптимизирована именно под эту модель. Переход на другую модель с тем же пайплайном потребует адаптации верификаторов и тюнинга инференса. На практике это значит, что если вы выбрали V4, то менять её на Llama-5 или GPT-5 будет не «просто заменить модель», а переписать часть пайплайна.
DeepSeek-V4 — не революция, а эволюция в правильную сторону: меньше вычислительных затрат, больше детерминизма. Для команд, которые уже строят AI-продукты, это повод присмотреться к верифицированному RL как к инструменту снижения рисков. Для тех, кто только начинает, — ещё один аргумент не гнаться за размером модели, а проектировать пайплайн с учётом контроля качества.
