Основные AI-модели

Декабрь 2024 – Февраль 2025

Обзор ключевых новинок от ведущих разработчиков: OpenAI, Google, Anthropic, xAI и др. — их возможности, характеристики и результаты тестов. Фокус на универсальных agentic AI с функциями Deep Search, Deep Research и Deep Think.

OpenAI GPT-4.5

OpenAI

GPT

GPT-4.5 (Orion)

Февраль 2025

🔍

Ключевые характеристики

Промежуточная модель нового поколения от OpenAI
Самая крупная в семействе GPT с расширенными мультимодальными возможностями
Продвинутый компьютерный взгляд для анализа изображений и видео
Встроенные агентные функции для самостоятельного вызова внешних инструментов
Переходный этап перед GPT-5 (запланирован на 2025 год)

🔬

Deep Research

Режим Deep Research (запущен 2 февраля 2025) – агент на базе модели o3, способный самостоятельно планировать поиск, читать источники и готовить подробные отчёты.

Автономно выполняет десятки поисковых и аналитических действий
Работает 5–30 минут над сложными запросами
Полное цитирование источников и прозрачный ход рассуждений

💡

o3-mini

Облегчённая версия reasoning-модели OpenAI (31 января 2025):

Бесплатно доступна всем пользователям ChatGPT (режим "Reason")
На 24% быстрее предшественника (o1-mini)
Улучшенные навыки в математике, программировании и науках

📊

Производительность

ChatGPT с Deep Research значительно превзошёл предыдущие модели на комплексном бенчмарке Humanity's Last Exam (HLE):

26.6%

HLE score

2×

Выше предшественников

Этот бенчмарк включает 3000+ вопросов по широкому спектру сложных областей.

Google Gemini 2.0

Google DeepMind

G

Gemini 2.0 (Flash & Pro)

Декабрь 2024

🔍

Ключевые характеристики

Мультимодальный ИИ: работает с текстом, изображениями, аудио и видео
Огромный контекст: до 1 миллиона токенов ввода (Flash)
Две основные версии: Flash (быстрая) и Pro/Advanced (для сложных задач)
Интегрирован в Google Search (SGE), Bard и другие продукты Google

🤖

Агентные функции

Deep Research: автоматическое построение плана, поиск информации и составление подробного ответа
Flash-Thinking: демонстрация цепочки мыслей модели в процессе решения задачи
Прототипы: Project Astra, Mariner, Jules — интегрированные агенты для различных задач

🚀

Уникальные преимущества

Возможность анализировать большие объемы данных целиком благодаря контексту в 1 млн токенов
Более продвинутые мультимодальные возможности в сравнении с GPT-4
Генерация простых изображений по описанию
Открытая модель Gemma (2B и 7B параметров) для исследования сообществом

📊

Производительность

Gemini 2.0 заявлен как модель уровня GPT-4 и выше:

Сравнение с GPT-4o:

Производительность кодирования

91%

Мировая эрудиция (MMLU-Pro)

Превосходит GPT-4o

Рейтинг Chatbot Arena (LMSYS)

Elo ~1203

Anthropic Claude 3.7 Sonnet

Anthropic

C

Claude 3.7 Sonnet

24 февраля 2025

🧠

Расширенное мышление

Первая в отрасли "гибридная" модель рассуждений с двумя режимами работы:

Стандартный режим: быстрые ответы в стиле Claude 3.5
Extended thinking mode: глубокое пошаговое обдумывание для повышения точности
Возможность задавать бюджеты "размышлений" (через API)
Открытый мыслительный процесс как человеческий ход рассуждений

💻

Claude Code

Кодовый агент, представленный вместе с моделью:

Работа через командную строку для сложных задач разработки
Поиск и чтение репозитория, редактирование файлов
Написание и запуск тестов, работа с Git
Справляется с задачами, требующими обычно 45+ минут ручной работы

📊

Производительность

Claude 3.7 Sonnet — одна из самых сильных моделей ИИ:

#1

SWE-bench

#1

TAU-bench

128K

Токенов контекста

SWE-bench: набор задач для оценки умения ИИ решать реальные проблемы программирования.

TAU-bench: тестирование AI-агентов в сложных многоэтапных задачах.

🔍

Отличительные особенности

Объединение быстрого и глубокого режимов мышления в одной модели
Признан лучшей моделью для генерации и понимания кода
Пишет production-ready код с минимальным количеством ошибок
Предыдущая модель (Claude 3 Opus) уже конкурировала с GPT-4 с рейтингом Elo 1253

xAI Grok 3

xAI (Илон Маск)

G3

Grok 3

17 февраля 2025

🔍

Ключевые характеристики

Ультра-крупный ИИ: ~2,7 трлн параметров, обучен на 12,8 трлн токенов
Контекстное окно ~128K токенов
Задержка ответа: ~67 мс
~1,5 петафлопс вычислительной мощности

🔬

Deep Search & Big Brain

Deep Search: интегрированный поисковый движок для доступа к актуальной информации
Самостоятельный анализ результатов поиска на лету
Big Brain: режим повышенного "мозгового ресурса" для сложных задач
Раскрытие мыслительного процесса шаг за шагом
Фокус на достоверность ответов ("truth-seeking AI")

📊

Производительность

xAI заявляет, что Grok 3 превосходит существующие аналоги:

92.7%

MMLU score

89.3%

GSM8K score

86.5%

HumanEval score

Эти результаты значительно превосходят показатели GPT-4 (~86% на MMLU).

🚀

Сравнение с конкурентами

На 15% точнее ChatGPT (GPT-4o1 Pro) в задачах понимания и генерирования текста
В 10 раз мощнее предшественника (Grok 2)
На 20% точнее предшественника по стандартным NLP-тестам
На 25% быстрее обрабатывает запросы по сравнению с OpenAI o1 Pro

DeepSeek R1

DeepSeek (Китай)

DS

DeepSeek R1 (V3)

20 января 2025

🔍

Ключевые характеристики

Открытый LLM (MIT License) из Китая
~685 млрд параметров (Mixture-of-Experts)
Обучен за ~$5,5 млн на китайских GPU H800
Бесплатный доступ через публичный чатбот и API
Открытые веса для локального запуска и модификации
Фокус на логическое мышление, математику и код

🧠

Инновационное обучение

Глубокое RL-обучение без человека:

Модель R1-Zero обучалась в основном через подкрепление
Минимум ручной донастройки
Самостоятельно выработала стратегии самокоррекции и рефлексии
Научилась уделять больше "времени на раздумья" над сложными задачами
Способна возвращаться к предыдущим шагам при обнаружении ошибки

📊

Производительность

Несмотря на меньший размер, DeepSeek R1 приблизился к топовым проприетарным ИИ:

2029

Elo на Codeforces

79.8%

Экзамен AIME 2024

98%

От возможностей OpenAI

Рейтинг Elo 2029 соответствует уровню сильного кандидата в мастера и выше ~96% человеческих участников.

💰

Экономическая эффективность

Стоимость запросов во много раз ниже конкурентов: ~$0,14 за миллион токенов (против $7,5 у OpenAI)
Демократизация доступа к передовым AI-возможностям
Реализация изначальной миссии OpenAI — открытое развитие передового ИИ
Открытость и эффективность, отмеченная экспертами Nvidia и Apple

Сравнение моделей

Зима 2024/25

Модель	Компания	Дата выпуска	Ключевые характеристики	Производительность	Доступность
GPT-4.5 (Orion)	OpenAI	Февраль 2025	Мультимодальный LLM нового поколения Улучшенная визуальная обработка Встроенные агент-функции Переходная к GPT-5	Превосходит GPT-4 (нет точных цифр) Deep Research: 26.6% на HLE	ChatGPT Pro (ограниченный превью)
Gemini 2.0	Google	Декабрь 2024	Мультимодальность (текст, изображения, аудио, видео) 1 млн токенов контекста Flash (быстрая) и Pro версии Deep Research, Flash-Thinking	91% в кодировании (vs 93% у GPT-4o) Превосходит GPT-4o на MMLU-Pro Elo ~1203 в рейтинге чат-ботов	Bard, Google Search, API (AI Studio)
Claude 3.7 Sonnet	Anthropic	24 февраля 2025	Гибридная модель с двумя режимами мышления Extended thinking mode 128K токенов контекста Claude Code для разработки	#1 на SWE-bench, TAU-bench Лидер в генерации кода Предшественник имел Elo 1253	API и claude.ai (базовая версия бесплатна)
Grok 3	xAI	17 февраля 2025	2,7 трлн параметров Deep Search для актуальной информации Big Brain режим для сложных задач 128K токенов контекста	MMLU: 92.7% GSM8K: 89.3% HumanEval: 86.5% На 15% точнее GPT-4o1 Pro	Бесплатно для подписчиков X (Twitter)
DeepSeek R1 (V3)	DeepSeek	20 января 2025	685 млрд параметров (MoE) Открытый исходный код (MIT) Самообучение через RL без людей Фокус на рассуждениях, математике и коде	Elo 2029 на Codeforces (лучше 96.3% людей) 79.8% на AIME 2024 98% функциональности GPT o1 при 1/50 стоимости	Публичный чатбот, API, открытые веса