Модель ИИ «KAZ-LLM»: национальная гордость или 3,9 миллиарда тенге на ветер?

13.05.2026 · 62 просмотра

11 декабря 2024 года в Астане Президенту РК Касым-Жомарту Токаеву торжественно представили KAZ-LLM — национальную большую языковую модель, объявленную важнейшим шагом к «цифровому суверенитету» страны. Разработку вёл Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете в партнёрстве с Beeline Казахстан, его ИТ-компанией QazCode и Astana Hub. Координатором проекта выступило Министерство цифрового развития, инноваций и аэрокосмической промышленности РК.

Спустя чуть больше года — 10 февраля 2026 года — Президент задал министру цифрового развития Жаслану Мадиеву неудобные вопросы прямо на расширенном заседании правительства.

«Вы сказали, что KazLLM запущена. Однако, насколько мне известно, спрос на данную программу пока низкий, поскольку имеется много недоработок. Население в основном обращается к ChatGPT и не хочет переходить на KazLLM. Что с ней происходит?» — спросил Токаев.

Реплика Президента «Кто это всё придумал, пусть тот и платит» прозвучала на том же заседании и стала фактически приговором проекту в его текущем виде.

Что такое KAZ-LLM технически

Здесь важно с самого начала избавиться от иллюзии «казахского ChatGPT, разработанного с нуля». KAZ-LLM — это дообучение (fine-tuning) открытой модели Meta Llama 3.1 на казахоязычных данных, а не построенная с чистого листа архитектура. На странице моделей в Hugging Face прямо указано: «LLama-3.1-KazLLM-1.0-70B — это большая языковая модель, кастомизированная ISSAI для улучшения качества ответов на казахском языке».

Созданы две основные версии — на 8 млрд и 70 млрд параметров — плюс четыре квантизированные (сжатые) версии. Всего на платформе Hugging Face доступно шесть моделей под лицензией CC-BY-NC 4.0, то есть только для некоммерческого использования.

Корпус для обучения — более 150 миллиардов токенов на четырёх языках: казахском, русском, английском и турецком. По заявлению ISSAI, 95% датасета собрано и подготовлено самой командой. Обучение велось 50 дней на восьми серверах NVIDIA DGX H100, предоставленных QazCode/Beeline.

Сколько денег потратили: главный спор

Финансирование проекта — самая запутанная часть истории, потому что разные стороны называют принципиально разные цифры.

Версия разработчика (ISSAI). На официальном сайте ISSAI и в пресс-релизе релиза модели сказано буквально следующее: «Проект ISSAI KAZ-LLM стал возможен благодаря финансовой поддержке фонда развития NU и NIS, Astana Hub и QazCode (Beeline)… Мы благодарны за их доверие к нашему проекту, который был осуществлён без привлечения государственного бюджета или средств налогоплательщиков».

Версия государства. 16 июля 2024 года, ещё до завершения проекта, министр науки и высшего образования Саясат Нурбек на заседании правительства под председательством Олжаса Бектенова сообщил: «По программе целевого финансирования данного проекта министерство объявило конкурс на общую сумму 3,9 миллиарда тенге». Для сбора данных был создан Консорциум, в который вошли:

Институт информационных и вычислительных технологий
Satbayev University
Nazarbayev University
ННПЦ «Тіл-Қазына» имени Ш. Шаяхметова
Институт языкознания им. А. Байтурсынова
КазНУ им. аль-Фараби

Факт-чек. Противоречие между двумя версиями объясняется проще, чем кажется на первый взгляд. 3,9 млрд тенге государственного конкурса были направлены в консорциум вузов на программу сбора данных для KazLLM, а не лично ISSAI на обучение модели. Технически ISSAI может говорить правду — институт получал финансирование от фонда NU/NIS, Astana Hub и QazCode. Но проект KazLLM в целом всё равно потреблял государственные средства — просто через другие звенья консорциума. Газета Time.kz и издание Kazface.kz справедливо ставят вопрос: «Где 3,9 миллиарда тенге?» — потому что публичного отчёта о том, что именно было сделано за эти деньги, до сих пор нет.

3,9 млрд тенге — это примерно 7,3 млн долларов США. Для сравнения: OpenAI, Anthropic, Google и Meta вкладывают в обучение своих флагманских моделей сотни миллионов долларов за итерацию. То есть в международном масштабе сумма скромная — но в казахстанских реалиях это серьёзные деньги, и они требуют прозрачного отчёта.

Сколько людей реально пользуется

Тут история превращается в нечто среднее между анекдотом и тревожным сигналом.

На заседании 10 февраля 2026 года министр Мадиев заявил, что KazLLM пользуются «более 600 тысяч человек». Президент Токаев сразу засомневался и поручил «проверить эти данные» — вместе с цифрой пользователей мессенджера Aitu, которую министр также назвал «более 700 тысяч, почти миллион».

Сомнения подтвердил независимый эксперт — председатель Ассоциации Qaz.AI Темирлан Зиятов, прямо заявивший в интервью Digital Business:

«У казахстанской языковой модели есть только академическая база, но нет интерфейса. Поэтому обычный пользователь физически не сможет вступить в диалог с KazLLM и отправить ему запросы».

Независимая проверка от Kazface.kz показала: Google Trends по запросу «KazLLM» за 90 дней выдаёт «Недостаточно данных». Если бы продуктом действительно пользовалось столько же людей, сколько живёт в Шымкенте, это неизбежно оставило бы поисковый след.

Самая правдоподобная цифра. Газета «Казахстанская правда» со ссылкой на министерство искусственного интеллекта приводит более скромную и реалистичную статистику: KazLLM в обеих версиях обеспечил суммарно более 138 тысяч запросов от академического и исследовательского сообщества. Это похоже на правду — модель действительно используется учёными и разработчиками через API и веса на Hugging Face. Что касается «600 тысяч пользователей», то это, судя по всему, совокупное число обращений через 40+ государственных систем (EgovAI и др.), куда модель встроена как бэкенд — то есть не люди, осознанно выбравшие KazLLM, а граждане, которым модель отвечала через государственные сервисы, часто даже не зная об этом.

Самый болезненный аргумент: студент за 5000 тенге

Пожалуй, самый разрушительный для проекта эпизод — публикация на портале Astana Hub, где казахстанский энтузиаст подробно описал, как он самостоятельно дообучил ту же базовую модель Llama 3.1 8B на казахских данных в Google Colab Pro. Общие затраты — около 5000 тенге (~10 USD). Итоговую модель он выложил на Hugging Face.

Конечно, сравнение не вполне корректное: версия энтузиаста — лишь грубый fine-tune без 70B-варианта, без 150 млрд токенов, без работы лингвистов, без квантизированных версий и без интеграции в госсистемы. Но сам факт того, что результат «достаточно близкого качества» достижим за десять долларов, ставит фундаментальный вопрос: где именно создаётся ценность за миллиарды и кто её получает?

А есть ли вообще «продукт»?

Ключевая претензия экспертов: спустя более года после торжественной презентации президенту, массового ИИ-чата на основе KAZ-LLM по-прежнему не существует. Есть веса моделей на Hugging Face. Есть API. Есть встройка в EgovAI и другие государственные системы. Но нет аналога chat.openai.com или claude.ai, где обычный казахстанец мог бы зайти и пообщаться.

Темирлан Зиятов формулирует диагноз вежливо, но точно:

«KazLLM сегодня выглядит как правильная идея, которая пока не стала сильным продуктом».

Где KazLLM в линейке: KazLLM → Presight G42 → AlemLLM

Стоит отметить, что государство уже фактически признало ограничения KazLLM и финансирует следующие поколения моделей:

KazLLM (2024) — fine-tune Llama 3.1, 8B и 70B параметров, разработчик ISSAI/QazCode.
Совместный проект с Presight G42 (ОАЭ) — вторая попытка, детали публично почти не раскрывались.
AlemLLM (2025) — третье поколение, на базе YuAI Lightning от компании 01.AI доктора Кай-Фу Ли, заявлено 246 млрд параметров. По данным министерства, на февраль 2026 года получила более 480 тысяч запросов (420 тыс. от бизнеса, 60 тыс. от госсектора). Скачана 135 компаниями из 13 стран. Работает на государственном суперкомпьютере в закрытом контуре.

Иронично, что именно AlemLLM, а не KazLLM, в реальности выходит в массовое использование — а её основа разработана китайской компанией, а не казахстанскими исследователями.

Аргументы «за»: зачем это вообще было нужно

Несмотря на все претензии, у проекта есть рациональные обоснования.

1. Цифровой суверенитет и безопасность данных. Использование ChatGPT для госдокументов означает отправку конфиденциальной информации на серверы OpenAI в США. Для документов первостепенной важности, аналитики силовых структур и персональных данных граждан это неприемлемо. Локальная модель в закрытом контуре решает эту проблему.

2. Поддержка казахского языка. Большие международные модели (GPT, Gemini, Claude) до сих пор работают на казахском заметно хуже, чем на английском или русском. Без целенаправленной работы над казахоязычным корпусом этот «языковой разрыв» останется и через десять лет.

3. Развитие кадров. Команда ISSAI получила реальный опыт работы с фундаментальными моделями. Для страны без сильной ИИ-индустрии это действительно ценный результат, который дешевле «купить через проект», чем через десятилетия академического роста.

4. Открытость. Модель выложена на Hugging Face и доступна сообществу, в отличие, например, от закрытых российских аналогов.

Так разумно ли было тратить эти деньги?

Честный ответ: зависит от того, как считать.

Если считать KAZ-LLM продуктом для конечного пользователя, который должен конкурировать с ChatGPT — то 3,9 млрд тенге выглядят неоправданными. У проекта нет интерфейса, нет маркетинга, нет продуктовой команды уровня OpenAI, и догнать мировых лидеров на их поле физически невозможно: они тратят сотни миллионов долларов на одну итерацию.

Если считать KAZ-LLM научно-инфраструктурным проектом — фундаментом для будущих сервисов, обучения кадров и встраивания в госуслуги через EgovAI — то инвестиция выглядит спорной, но не безумной. 7,3 млн долларов в международном масштабе — это меньше, чем стоит одна неделя обучения GPT-5.

Если оценивать управление проектом — ситуация явно неблагополучная. Расхождение версий о финансировании, неправдоподобные цифры пользователей, отсутствие пользовательского продукта спустя год, публичная критика самого заказчика — всё это указывает на то, что проект подаётся обществу не так, как реализуется на деле.

Главная проблема — не сама модель и даже не деньги. Главная проблема — иллюзия успеха: когда презентация важнее продукта, а «почти сделали» превращается в «уже пользуются сотни тысяч». На таких отчётах цифровую экономику не построить.

Краткая справка о проекте

Презентация президенту: 11 декабря 2024 г.
Разработчик: ISSAI (Назарбаев Университет) + QazCode (Beeline) + Astana Hub
Технологическая база: fine-tune Meta Llama 3.1
Версии: 8B и 70B параметров + 4 квантизированные версии
Объём корпуса: 150+ млрд токенов на 4 языках (каз/рус/англ/тур)
Заявленный госконкурс (Минобрнауки, июль 2024): 3,9 млрд тенге (~7,3 млн USD) на консорциум вузов
Позиция ISSAI: разработка велась «без госбюджета» (получали средства через NU/NIS, Astana Hub, QazCode)
Лицензия: CC-BY-NC 4.0 (только некоммерческое использование)
Размещение: 6 моделей на Hugging Face (issai/LLama-3.1-KazLLM-1.0-*)
Реальные запросы (по данным министерства): ~138 тыс. от академического сообщества
Заявленные «600 тысяч пользователей»: оспариваются экспертами и президентом
Преемники: Presight G42 (совместная с ОАЭ), AlemLLM на базе 01.AI (Китай)

Материал основан на открытых источниках: ISSAI NU, Hugging Face, заседаниях правительства РК, публикациях Tengrinews, Digital Business, Time.kz, Kazface, Kursiv, Kazpravda, Profit.kz, экспертных комментариях Qaz.AI.

Другие новости

14.05.2026

Беглый «зять» Масимова: как Азамат Капенов превратил гражданства в щит от правосудия — и почему силовикам РК предстоит трудная борьба

Экс-зять Масимова Азамат Капенов в международном розыске за хищение 5,2 млрд тенге. Как четыре гражданства стали его щитом — и почему силовики не отступают.

#азия

13.05.2026

Россия испытала «Сармат» и пообещала поставить ракету на боевое дежурство

Россия испытала «Сармат» 12 мая и пообещала поставить ракету на боевое дежурство до конца 2026 года.

#мир

13.05.2026

Стрельба вспыхнула в сенате Филиппин из-за попытки задержать Рональда дела Росу

В сенате Филиппин прогремели выстрелы на фоне попытки задержать сенатора Рональда дела Росу по ордеру МУС.

#мир

13.05.2026

Япония отстранила Эдди Джонса на четыре матча за оскорбление судей

Япония наказала Эдди Джонса за оскорбление судей: шесть недель вне работы и пропуск четырех матчей, включая игру с Италией.

#мир

13.05.2026

У берегов Испании затонувшее судно РФ связали с деталями ядерных реакторов

У берегов Испании раскрыли новую версию крушения Ursa Major: судно могло везти детали для ядерных реакторов.

#мир

13.05.2026

Суд над Надием Макаимом в Индонезии усилил споры о давлении на реформаторов

Суд над сооснователем Gojek Надиемом Макаимом из-за школьных Chromebook стал в Индонезии спором о коррупции и давлении на реформаторов.

#азия

13.05.2026

Доллар на KASE вырос до 467,9 тенге, тенге за день заметно ослаб

Доллар на торгах KASE 13 мая вырос до 467,86 тенге, а объем сделок подскочил до 398,32 млн долларов.

#азия

13.05.2026

Удары дронов Израиля по трассе под Бейрутом убили восемь человек

Израильские дроны ударили по трассе к югу от Бейрута: погибли восемь человек, включая детей, на фоне новых переговоров по Ливану.

#мир

13.05.2026

Anduril привлекла $5 млрд и взлетела в оценке до $61 млрд

Anduril привлекла $5 млрд, удвоила оценку до $61 млрд и закрепилась среди самых дорогих частных оборонных компаний США.

#технологии

13.05.2026

Депутаты мажилиса просят снизить плату за подземную воду для аграриев

Мажилисмены предлагают снизить плату за забор подземных вод для аграриев, чтобы удешевить орошение и смягчить дефицит воды.

#азия

13.05.2026

Си Цзиньпин намерен добиться от Трампа уступок по Тайваню и тарифам

Си и Трамп встречаются в Пекине: на кону Тайвань, пошлины, оружие на миллиарды долларов и влияние войны вокруг Ирана.

#мир

13.05.2026

Дженсен Хуанг присоединился к поездке Трампа в Китай

Глава Nvidia Дженсен Хуанг присоединился к поездке Трампа в Китай, где США пытаются расширить доступ бизнеса к рынку КНР.

#технологии

13.05.2026

Казахстан откроет eGov и e-Otinish без интернета и ужесточит правила связи

В Казахстане хотят открыть eGov, e-Otinish и Aitu без интернета, а ввоз репитеров разрешить только операторам связи.

#азия

13.05.2026

Мексика и ЦРУ отвергли данные о тайных убийствах картелей США

Мексика и ЦРУ отвергли данные CNN о тайной кампании США по убийству членов картелей на мексиканской территории.

#мир

13.05.2026

Тысячи аргентинцев вышли на улицы из-за новых урезаний вузам

В Аргентине тысячи людей вышли на марш против урезания бюджета вузов. Протесты стали новым ударом по курсу Хавьера Милея.

#мир

13.05.2026

Трамп едет в Пекин с более скромной повесткой по Китаю

Трамп прибыл в Пекин с урезанной повесткой: вместо прорыва по Китаю Белый дом пытается удержать торговое перемирие и доступ к редкоземам.

#азия

13.05.2026

Инвесторы ждут от Трампа и Си одного: не тормозить бум ИИ

Перед саммитом в Пекине инвесторы ждут от Трампа и Си не громких споров, а одного — не мешать росту рынка ИИ и поставкам чипов.

#технологии

13.05.2026

Суд засекретил дело экс-главы ГКНБ Кыргызстана Ташиева

Дело экс-главы ГКНБ Камчыбека Ташиева передали в суд Бишкека и засекретили на фоне кризиса вокруг «письма 75».

#азия

12.05.2026

Вспышка хантавируса на MV Hondius не грозит новой пандемией

Что известно о вспышке хантавируса на MV Hondius и почему эксперты считают её непохожей на COVID-19.

#мир

12.05.2026

Сеул выясняет удар по танкеру южнокорейского оператора в Персидском заливе

Сеул проверяет удар по танкеру южнокорейского оператора в Персидском заливе на фоне новой угрозы судоходству и поставкам нефти.

#мир

Ереван	+24°C	+11°C
Баку	+24°C	+17°C
Минск	+9°C	+7°C
Астана	+15°C	+8°C
Бишкек	+21°C	+7°C
Кишинёв	+14°C	+10°C
Москва	+22°C	+11°C
Душанбе	+25°C	+10°C
Ашхабад	+33°C	+22°C
Ташкент	+28°C	+15°C
Киев	+13°C	+9°C