Павел Шпидель: Нейросеть Grok 3

Илон Маск запустил в публичный доступ новую LLM - Grok 3.

Это событие произошло 18 февраля ранним утром по МСК и это действительно событие, т.к. по предварительным тестам думающая Grok 3 Reasoning Beta достигает феноменальных показателей в бенчмарках, адаптированных под тестирование LLM.

Интегральный показатель производительности ГИИ (включает в себя бенчмарки MMLU-Pro, GPQA Diamond, Humanity's Last Exam, SciCode, AIME, MATH-500 и другие) вывел Grok 3 Reasoning Beta на уверенное 1 место среди публичных моделей с 67 баллами опережая o3-mini с 63 баллами, DeepSeekR1 с 60, но это для размышляющих/думающих моделей.

Результаты получены в агрегации тестов от artificialanalysis.ai, ранжирование у меня вызывает доверие, т.к. совпадает с моим субъективным опытом использования LLM, хотя я не проводил собственного безупречного изолированного сравнения в лабораторных условиях при непротиворечивой методологии анализа.

Обычные (не рассуждающие модели) также выводят в лидеры Grok-3 с 53 баллами, опережая формально лучшую из публичных «обычных» LLM – Gemini 2.0 PRO - 47, следом идет DeepSeek V3 – 46, Qwen 2.5 Max – 45, Claude 3.5 – 44 и крайне устаревшая ChatGPT-4o – 41.

Плотность конкуренции феноменальная, разрывы минимальные, все решает гибкость LLM, глубина настройки и умение решать специфические задачи.

Идеальных LLM не существует, у каждой есть сильные и слабые стороны, поэтому лучше использовать комбинацию LLMs под разные типы задач.

По формальным показателям, Grok-3 это лучшая из существующих LLM в сопоставимой категории, как среди думающих, так и среди «обычных», хотя не самая лучшая, т.к более сильная модель – это OpenAI o3, которая в ограниченной версии за 200 баксов в месяц, но ее сложно назвать публичной.

Grok 3 сейчас стоит около 30 баксов в месяц, лично я пока не тестировал. Этих LLM очень много, буквально обмазаться можно нейросетями, но посмотрю, как пойдет и возможно попробую, весьма перспективно смотрится.

Илон Маск начал позже всех, выпуская относительно слабые LLM (в сравнении с конкурентами), но сумел всех обогнать, подчеркивая экстраординарный темп инноваций в этой индустрии.

Grok 3 использует архитектуру Mixture-of-Experts (MoE), что позволяет стратегически активировать подмножества параметров для различных задач, что делает его эффективнее в обработке и анализе данных. Он включает в себя 314 миллиардов параметров, что делает его крупнейшей из доступных моделей, хотя не самую крупную, но качество модели не имеет линейную зависимость от количества параметров, очень много факторов влияет.

Для обучения Grok 3 использовался суперкомпьютер Colossus, оснащенный 200 тысячами графических процессоров Nvidia H100.

В Grok 3 были введены новые функции, такие как режимы Think и Big Brain для сложных задач, а также инструмент DeepSearch для анализа информации из интернета и из социальной сети X. Также были добавлены возможности генерации изображений и голосового режима.

Илон Маск подчеркнул, что Grok 3 ориентирован на "поиск истины", даже если она идет вразрез с политкорректностью, стремясь к политическому нейтралитету. Это конечно забавно звучит для LLM, чисто маркетинговый ход от шутника Маска.

Развертывание функционала будет идти на протяжении 2-3 месяцев.

Интересно, чем ответят конкуренты? Google уже ничем не ответит до середины лета, когда выкатит промежуточную Gemini 2.5, теперь ждем Llama 4, Claude 4 и возможно OpenAI GPT 4.5 Orion.

Конкуренция ошеломляющая. Гонка за лидерство в ИИ с запредельной скоростью по темпам инноваций.

Буквально один месяц и можно оказаться за бортом.

Telegram канал автора: https://t.me/s/spydell_finance/

В разделе «Обзор блогов» редакция представляет републикации наиболее интересных постов известных российских экономистов, публицистов, финансистов и экспертов, опубликованных на личных каналах и онлайн-ресурсах авторов. Ссылки на эти ресурсы указаны под обзором. Данные републикации не являются подготовленными специально для Finversia.

Ответственность за информацию, высказанные профессиональные и этические оценки, версии и прогнозы остается на авторах блогов.

Орфография и пунктуация авторов блогов сохранена. Перевод иноязычных блогов – авторы блога.

Заметили ошибку? Выделите её и нажмите CTRL+ENTER

все обзоры блогов »