Главный сдвиг в локальных AI-моделях не в том, что «ещё одна модель вышла». Сдвиг в другом: модели уровня Gemma 3 уже достаточно сильны, чтобы часть рабочих сценариев переехала ближе к данным — на сервер компании, рабочую станцию или даже устройство пользователя.

Сначала поправка к хайпу

В исходном посте я писал эмоционально: «локальные модели догнали облако». Правильнее сказать аккуратнее: локальные модели не заменили лидирующие облачные системы во всём, но они резко сократили разрыв в задачах, где важны цена, приватность, задержка и контроль инфраструктуры.

Google описывает Gemma 3 как семейство открытых моделей 1B, 4B, 12B и 27B, построенных на технологиях Gemini 2.0. Важные характеристики: 128K контекст, мультимодальность для старших версий, поддержка 140+ языков, function calling и structured output.

“Gemma 3 offers a 128k-token context window…” — Google Blog

Простыми словами: 128K токенов — это уже не «чатик на пару сообщений». Это пространство для длинных документов, инструкций, истории задачи, фрагментов базы знаний и структурированного ответа.

Почему бизнесу вообще нужны локальные модели

Облачные модели удобны и часто сильнее. Но у них есть цена:

  • данные уходят во внешний контур;
  • стоимость растёт вместе с объёмом запросов;
  • доступ зависит от провайдера, региона и тарифов;
  • интеграции приходится проектировать с учётом безопасности;
  • задержка и лимиты иногда мешают агентным сценариям.

Локальная модель меняет контур. Она может работать на вашем сервере, внутри защищённой сети, на рабочей станции или устройстве. Это не всегда дешевле в первый день, но даёт контроль: где хранятся данные, кто имеет доступ, какие логи остаются, что можно дообучить или зафиксировать.

Что изменилось с Gemma 3

Google позиционирует Gemma 3 как модель, которую можно запускать на одном GPU или TPU. Это важная практическая граница: не серверная стойка как единственный входной билет, а понятный контур для экспериментов и пилотов.

“Gemma 3 is the most capable model that can run on a single GPU or TPU.” — Google DeepMind

Это не значит, что любая версия идеально летает на любом ноутбуке. Большая модель всё ещё требует памяти, грамотной квантизации и нормальной настройки инференса. Но порог входа стал ниже: локальный AI перестаёт быть игрушкой для энтузиастов и становится инфраструктурным вариантом для бизнеса.

Квантизация — почему это важно

Большие модели тяжёлые. Их веса занимают много памяти, поэтому «запустить локально» часто упирается не в желание, а в VRAM. Квантизация уменьшает точность хранения чисел в модели и снижает требования к памяти.

Google для Gemma 3 выпустил QAT-варианты — quantization-aware training. Это не просто «сжали как получилось», а обучали модель с учётом будущей низкой точности.

“This enables you to run powerful models like Gemma 3 27B locally on consumer-grade GPUs like the NVIDIA RTX 3090.” — Google Developers Blog

Перевод: сильные локальные модели становятся доступнее не потому, что железо внезапно стало бесконечным, а потому что модели и способы их упаковки стали эффективнее.

Мультимодальность меняет сценарии

Самое интересное — не только текст. Старшие версии Gemma 3 поддерживают работу с изображениями. В связке с OCR, документами, каталогами, скриншотами и внутренними базами это открывает сценарии, которые раньше требовали отдельного софта.

Интернет-магазин. Клиент пишет: «нужна куртка для похода в горы в ноябре». Модель смотрит каталог, характеристики, остатки и возвращает не тупой фильтр, а подбор с объяснением. Если клиент прислал фото бирки — система может распознать артикул и проверить наличие через инструмент.

Производство. Оператор фотографирует ошибку на панели станка. Ассистент распознаёт код, поднимает инструкцию, показывает шаги диагностики. Важные действия — только с подтверждением инженера.

Документы. Внутренний ассистент читает PDF, договоры, счета, таблицы, находит риски и готовит выжимку. Данные остаются в контуре компании.

Персональный агент. Почта, задачи, заметки, календарь, документы. Часть обработки можно делать локально, а в облако отправлять только то, что действительно требует модели сильнее.

Где локальная модель не нужна

Не надо превращать локальный AI в религию. Облако часто лучше, если:

  • нужен максимум качества рассуждений;
  • входы редкие и нет смысла содержать инфраструктуру;
  • требуется самый свежий веб-ресёрч;
  • команда не готова поддерживать сервер, мониторинг и обновления;
  • важнее скорость запуска, чем контроль данных.

Здоровый подход — гибрид. Локально обрабатываем чувствительное и повторяемое. В облако отдаём тяжёлое рассуждение, мультимодальные задачи высокого качества или редкие сложные запросы.

Как я бы тестировал локальную модель

Не по красивому рейтингу, а по своему набору задач:

  1. Взять 20–30 реальных документов или диалогов.
  2. Сформулировать ожидаемый результат и критерии качества.
  3. Прогнать локальную модель, облачную модель и дешёвую API-модель.
  4. Сравнить точность, скорость, стоимость, приватность и удобство интеграции.
  5. Посмотреть не среднюю красоту ответа, а количество ошибок, которые придётся ловить человеку.

Для агента важен не только «ум модели». Важны инструменты, память, права доступа, логи, подтверждения и возможность быстро исправить поведение.

Короткий вывод

Локальные модели уже достаточно сильны, чтобы закрывать часть бизнес-рутины рядом с данными: документы, поиск, каталоги, письма, внутренние ассистенты, черновая аналитика. Они не убили облако. Они дали бизнесу второй контур: не всё отправлять наружу, а выбирать, где должна жить конкретная задача.