11 декабря 2024 года в Астане Президенту РК Касым-Жомарту Токаеву торжественно представили KAZ-LLM — национальную большую языковую модель, объявленную важнейшим шагом к «цифровому суверенитету» страны. Разработку вёл Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете в партнёрстве с Beeline Казахстан, его ИТ-компанией QazCode и Astana Hub. Координатором проекта выступило Министерство цифрового развития, инноваций и аэрокосмической промышленности РК.
Спустя чуть больше года — 10 февраля 2026 года — Президент задал министру цифрового развития Жаслану Мадиеву неудобные вопросы прямо на расширенном заседании правительства.
«Вы сказали, что KazLLM запущена. Однако, насколько мне известно, спрос на данную программу пока низкий, поскольку имеется много недоработок. Население в основном обращается к ChatGPT и не хочет переходить на KazLLM. Что с ней происходит?» — спросил Токаев.
Реплика Президента «Кто это всё придумал, пусть тот и платит» прозвучала на том же заседании и стала фактически приговором проекту в его текущем виде.
Что такое KAZ-LLM технически
Здесь важно с самого начала избавиться от иллюзии «казахского ChatGPT, разработанного с нуля». KAZ-LLM — это дообучение (fine-tuning) открытой модели Meta Llama 3.1 на казахоязычных данных, а не построенная с чистого листа архитектура. На странице моделей в Hugging Face прямо указано: «LLama-3.1-KazLLM-1.0-70B — это большая языковая модель, кастомизированная ISSAI для улучшения качества ответов на казахском языке».
Созданы две основные версии — на 8 млрд и 70 млрд параметров — плюс четыре квантизированные (сжатые) версии. Всего на платформе Hugging Face доступно шесть моделей под лицензией CC-BY-NC 4.0, то есть только для некоммерческого использования.
Корпус для обучения — более 150 миллиардов токенов на четырёх языках: казахском, русском, английском и турецком. По заявлению ISSAI, 95% датасета собрано и подготовлено самой командой. Обучение велось 50 дней на восьми серверах NVIDIA DGX H100, предоставленных QazCode/Beeline.
Сколько денег потратили: главный спор
Финансирование проекта — самая запутанная часть истории, потому что разные стороны называют принципиально разные цифры.
Версия разработчика (ISSAI). На официальном сайте ISSAI и в пресс-релизе релиза модели сказано буквально следующее: «Проект ISSAI KAZ-LLM стал возможен благодаря финансовой поддержке фонда развития NU и NIS, Astana Hub и QazCode (Beeline)… Мы благодарны за их доверие к нашему проекту, который был осуществлён без привлечения государственного бюджета или средств налогоплательщиков».
Версия государства. 16 июля 2024 года, ещё до завершения проекта, министр науки и высшего образования Саясат Нурбек на заседании правительства под председательством Олжаса Бектенова сообщил: «По программе целевого финансирования данного проекта министерство объявило конкурс на общую сумму 3,9 миллиарда тенге». Для сбора данных был создан Консорциум, в который вошли:
- Институт информационных и вычислительных технологий
- Satbayev University
- Nazarbayev University
- ННПЦ «Тіл-Қазына» имени Ш. Шаяхметова
- Институт языкознания им. А. Байтурсынова
- КазНУ им. аль-Фараби
Факт-чек. Противоречие между двумя версиями объясняется проще, чем кажется на первый взгляд. 3,9 млрд тенге государственного конкурса были направлены в консорциум вузов на программу сбора данных для KazLLM, а не лично ISSAI на обучение модели. Технически ISSAI может говорить правду — институт получал финансирование от фонда NU/NIS, Astana Hub и QazCode. Но проект KazLLM в целом всё равно потреблял государственные средства — просто через другие звенья консорциума. Газета Time.kz и издание Kazface.kz справедливо ставят вопрос: «Где 3,9 миллиарда тенге?» — потому что публичного отчёта о том, что именно было сделано за эти деньги, до сих пор нет.
3,9 млрд тенге — это примерно 7,3 млн долларов США. Для сравнения: OpenAI, Anthropic, Google и Meta вкладывают в обучение своих флагманских моделей сотни миллионов долларов за итерацию. То есть в международном масштабе сумма скромная — но в казахстанских реалиях это серьёзные деньги, и они требуют прозрачного отчёта.
Сколько людей реально пользуется
Тут история превращается в нечто среднее между анекдотом и тревожным сигналом.
На заседании 10 февраля 2026 года министр Мадиев заявил, что KazLLM пользуются «более 600 тысяч человек». Президент Токаев сразу засомневался и поручил «проверить эти данные» — вместе с цифрой пользователей мессенджера Aitu, которую министр также назвал «более 700 тысяч, почти миллион».
Сомнения подтвердил независимый эксперт — председатель Ассоциации Qaz.AI Темирлан Зиятов, прямо заявивший в интервью Digital Business:
«У казахстанской языковой модели есть только академическая база, но нет интерфейса. Поэтому обычный пользователь физически не сможет вступить в диалог с KazLLM и отправить ему запросы».
Независимая проверка от Kazface.kz показала: Google Trends по запросу «KazLLM» за 90 дней выдаёт «Недостаточно данных». Если бы продуктом действительно пользовалось столько же людей, сколько живёт в Шымкенте, это неизбежно оставило бы поисковый след.
Самая правдоподобная цифра. Газета «Казахстанская правда» со ссылкой на министерство искусственного интеллекта приводит более скромную и реалистичную статистику: KazLLM в обеих версиях обеспечил суммарно более 138 тысяч запросов от академического и исследовательского сообщества. Это похоже на правду — модель действительно используется учёными и разработчиками через API и веса на Hugging Face. Что касается «600 тысяч пользователей», то это, судя по всему, совокупное число обращений через 40+ государственных систем (EgovAI и др.), куда модель встроена как бэкенд — то есть не люди, осознанно выбравшие KazLLM, а граждане, которым модель отвечала через государственные сервисы, часто даже не зная об этом.
Самый болезненный аргумент: студент за 5000 тенге
Пожалуй, самый разрушительный для проекта эпизод — публикация на портале Astana Hub, где казахстанский энтузиаст подробно описал, как он самостоятельно дообучил ту же базовую модель Llama 3.1 8B на казахских данных в Google Colab Pro. Общие затраты — около 5000 тенге (~10 USD). Итоговую модель он выложил на Hugging Face.
Конечно, сравнение не вполне корректное: версия энтузиаста — лишь грубый fine-tune без 70B-варианта, без 150 млрд токенов, без работы лингвистов, без квантизированных версий и без интеграции в госсистемы. Но сам факт того, что результат «достаточно близкого качества» достижим за десять долларов, ставит фундаментальный вопрос: где именно создаётся ценность за миллиарды и кто её получает?
А есть ли вообще «продукт»?
Ключевая претензия экспертов: спустя более года после торжественной презентации президенту, массового ИИ-чата на основе KAZ-LLM по-прежнему не существует. Есть веса моделей на Hugging Face. Есть API. Есть встройка в EgovAI и другие государственные системы. Но нет аналога chat.openai.com или claude.ai, где обычный казахстанец мог бы зайти и пообщаться.
Темирлан Зиятов формулирует диагноз вежливо, но точно:
«KazLLM сегодня выглядит как правильная идея, которая пока не стала сильным продуктом».
Где KazLLM в линейке: KazLLM → Presight G42 → AlemLLM
Стоит отметить, что государство уже фактически признало ограничения KazLLM и финансирует следующие поколения моделей:
- KazLLM (2024) — fine-tune Llama 3.1, 8B и 70B параметров, разработчик ISSAI/QazCode.
- Совместный проект с Presight G42 (ОАЭ) — вторая попытка, детали публично почти не раскрывались.
- AlemLLM (2025) — третье поколение, на базе YuAI Lightning от компании 01.AI доктора Кай-Фу Ли, заявлено 246 млрд параметров. По данным министерства, на февраль 2026 года получила более 480 тысяч запросов (420 тыс. от бизнеса, 60 тыс. от госсектора). Скачана 135 компаниями из 13 стран. Работает на государственном суперкомпьютере в закрытом контуре.
Иронично, что именно AlemLLM, а не KazLLM, в реальности выходит в массовое использование — а её основа разработана китайской компанией, а не казахстанскими исследователями.
Аргументы «за»: зачем это вообще было нужно
Несмотря на все претензии, у проекта есть рациональные обоснования.
1. Цифровой суверенитет и безопасность данных. Использование ChatGPT для госдокументов означает отправку конфиденциальной информации на серверы OpenAI в США. Для документов первостепенной важности, аналитики силовых структур и персональных данных граждан это неприемлемо. Локальная модель в закрытом контуре решает эту проблему.
2. Поддержка казахского языка. Большие международные модели (GPT, Gemini, Claude) до сих пор работают на казахском заметно хуже, чем на английском или русском. Без целенаправленной работы над казахоязычным корпусом этот «языковой разрыв» останется и через десять лет.
3. Развитие кадров. Команда ISSAI получила реальный опыт работы с фундаментальными моделями. Для страны без сильной ИИ-индустрии это действительно ценный результат, который дешевле «купить через проект», чем через десятилетия академического роста.
4. Открытость. Модель выложена на Hugging Face и доступна сообществу, в отличие, например, от закрытых российских аналогов.
Так разумно ли было тратить эти деньги?
Честный ответ: зависит от того, как считать.
Если считать KAZ-LLM продуктом для конечного пользователя, который должен конкурировать с ChatGPT — то 3,9 млрд тенге выглядят неоправданными. У проекта нет интерфейса, нет маркетинга, нет продуктовой команды уровня OpenAI, и догнать мировых лидеров на их поле физически невозможно: они тратят сотни миллионов долларов на одну итерацию.
Если считать KAZ-LLM научно-инфраструктурным проектом — фундаментом для будущих сервисов, обучения кадров и встраивания в госуслуги через EgovAI — то инвестиция выглядит спорной, но не безумной. 7,3 млн долларов в международном масштабе — это меньше, чем стоит одна неделя обучения GPT-5.
Если оценивать управление проектом — ситуация явно неблагополучная. Расхождение версий о финансировании, неправдоподобные цифры пользователей, отсутствие пользовательского продукта спустя год, публичная критика самого заказчика — всё это указывает на то, что проект подаётся обществу не так, как реализуется на деле.
Главная проблема — не сама модель и даже не деньги. Главная проблема — иллюзия успеха: когда презентация важнее продукта, а «почти сделали» превращается в «уже пользуются сотни тысяч». На таких отчётах цифровую экономику не построить.
Краткая справка о проекте
- Презентация президенту: 11 декабря 2024 г.
- Разработчик: ISSAI (Назарбаев Университет) + QazCode (Beeline) + Astana Hub
- Технологическая база: fine-tune Meta Llama 3.1
- Версии: 8B и 70B параметров + 4 квантизированные версии
- Объём корпуса: 150+ млрд токенов на 4 языках (каз/рус/англ/тур)
- Заявленный госконкурс (Минобрнауки, июль 2024): 3,9 млрд тенге (~7,3 млн USD) на консорциум вузов
- Позиция ISSAI: разработка велась «без госбюджета» (получали средства через NU/NIS, Astana Hub, QazCode)
- Лицензия: CC-BY-NC 4.0 (только некоммерческое использование)
- Размещение: 6 моделей на Hugging Face (issai/LLama-3.1-KazLLM-1.0-*)
- Реальные запросы (по данным министерства): ~138 тыс. от академического сообщества
- Заявленные «600 тысяч пользователей»: оспариваются экспертами и президентом
- Преемники: Presight G42 (совместная с ОАЭ), AlemLLM на базе 01.AI (Китай)
Материал основан на открытых источниках: ISSAI NU, Hugging Face, заседаниях правительства РК, публикациях Tengrinews, Digital Business, Time.kz, Kazface, Kursiv, Kazpravda, Profit.kz, экспертных комментариях Qaz.AI.