Основные AI-модели

Декабрь 2024 – Февраль 2025

Обзор ключевых новинок от ведущих разработчиков: OpenAI, Google, Anthropic, xAI и др. — их возможности, характеристики и результаты тестов. Фокус на универсальных agentic AI с функциями Deep Search, Deep Research и Deep Think.

OpenAI GPT-4.5

OpenAI

GPT-4.5 (Orion)

Февраль 2025

🔍

Ключевые характеристики

  • Промежуточная модель нового поколения от OpenAI
  • Самая крупная в семействе GPT с расширенными мультимодальными возможностями
  • Продвинутый компьютерный взгляд для анализа изображений и видео
  • Встроенные агентные функции для самостоятельного вызова внешних инструментов
  • Переходный этап перед GPT-5 (запланирован на 2025 год)
🔬

Deep Research

Режим Deep Research (запущен 2 февраля 2025) – агент на базе модели o3, способный самостоятельно планировать поиск, читать источники и готовить подробные отчёты.

  • Автономно выполняет десятки поисковых и аналитических действий
  • Работает 5–30 минут над сложными запросами
  • Полное цитирование источников и прозрачный ход рассуждений
💡

o3-mini

Облегчённая версия reasoning-модели OpenAI (31 января 2025):

  • Бесплатно доступна всем пользователям ChatGPT (режим "Reason")
  • На 24% быстрее предшественника (o1-mini)
  • Улучшенные навыки в математике, программировании и науках
📊

Производительность

ChatGPT с Deep Research значительно превзошёл предыдущие модели на комплексном бенчмарке Humanity's Last Exam (HLE):

26.6%
HLE score
Выше предшественников

Этот бенчмарк включает 3000+ вопросов по широкому спектру сложных областей.

Google Gemini 2.0

Google DeepMind

Gemini 2.0 (Flash & Pro)

Декабрь 2024

🔍

Ключевые характеристики

  • Мультимодальный ИИ: работает с текстом, изображениями, аудио и видео
  • Огромный контекст: до 1 миллиона токенов ввода (Flash)
  • Две основные версии: Flash (быстрая) и Pro/Advanced (для сложных задач)
  • Интегрирован в Google Search (SGE), Bard и другие продукты Google
🤖

Агентные функции

  • Deep Research: автоматическое построение плана, поиск информации и составление подробного ответа
  • Flash-Thinking: демонстрация цепочки мыслей модели в процессе решения задачи
  • Прототипы: Project Astra, Mariner, Jules — интегрированные агенты для различных задач
🚀

Уникальные преимущества

  • Возможность анализировать большие объемы данных целиком благодаря контексту в 1 млн токенов
  • Более продвинутые мультимодальные возможности в сравнении с GPT-4
  • Генерация простых изображений по описанию
  • Открытая модель Gemma (2B и 7B параметров) для исследования сообществом
📊

Производительность

Gemini 2.0 заявлен как модель уровня GPT-4 и выше:

Сравнение с GPT-4o:

Производительность кодирования
91%
Мировая эрудиция (MMLU-Pro)
Превосходит GPT-4o
Рейтинг Chatbot Arena (LMSYS)
Elo ~1203

Anthropic Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet

24 февраля 2025

🧠

Расширенное мышление

Первая в отрасли "гибридная" модель рассуждений с двумя режимами работы:

  • Стандартный режим: быстрые ответы в стиле Claude 3.5
  • Extended thinking mode: глубокое пошаговое обдумывание для повышения точности
  • Возможность задавать бюджеты "размышлений" (через API)
  • Открытый мыслительный процесс как человеческий ход рассуждений
💻

Claude Code

Кодовый агент, представленный вместе с моделью:

  • Работа через командную строку для сложных задач разработки
  • Поиск и чтение репозитория, редактирование файлов
  • Написание и запуск тестов, работа с Git
  • Справляется с задачами, требующими обычно 45+ минут ручной работы
📊

Производительность

Claude 3.7 Sonnet — одна из самых сильных моделей ИИ:

#1
SWE-bench
#1
TAU-bench
128K
Токенов контекста

SWE-bench: набор задач для оценки умения ИИ решать реальные проблемы программирования.

TAU-bench: тестирование AI-агентов в сложных многоэтапных задачах.

🔍

Отличительные особенности

  • Объединение быстрого и глубокого режимов мышления в одной модели
  • Признан лучшей моделью для генерации и понимания кода
  • Пишет production-ready код с минимальным количеством ошибок
  • Предыдущая модель (Claude 3 Opus) уже конкурировала с GPT-4 с рейтингом Elo 1253

xAI Grok 3

xAI (Илон Маск)

Grok 3

17 февраля 2025

🔍

Ключевые характеристики

  • Ультра-крупный ИИ: ~2,7 трлн параметров, обучен на 12,8 трлн токенов
  • Контекстное окно ~128K токенов
  • Задержка ответа: ~67 мс
  • ~1,5 петафлопс вычислительной мощности
🔬

Deep Search & Big Brain

  • Deep Search: интегрированный поисковый движок для доступа к актуальной информации
  • Самостоятельный анализ результатов поиска на лету
  • Big Brain: режим повышенного "мозгового ресурса" для сложных задач
  • Раскрытие мыслительного процесса шаг за шагом
  • Фокус на достоверность ответов ("truth-seeking AI")
📊

Производительность

xAI заявляет, что Grok 3 превосходит существующие аналоги:

92.7%
MMLU score
89.3%
GSM8K score
86.5%
HumanEval score

Эти результаты значительно превосходят показатели GPT-4 (~86% на MMLU).

🚀

Сравнение с конкурентами

  • На 15% точнее ChatGPT (GPT-4o1 Pro) в задачах понимания и генерирования текста
  • В 10 раз мощнее предшественника (Grok 2)
  • На 20% точнее предшественника по стандартным NLP-тестам
  • На 25% быстрее обрабатывает запросы по сравнению с OpenAI o1 Pro

DeepSeek R1

DeepSeek (Китай)

DeepSeek R1 (V3)

20 января 2025

🔍

Ключевые характеристики

  • Открытый LLM (MIT License) из Китая
  • ~685 млрд параметров (Mixture-of-Experts)
  • Обучен за ~$5,5 млн на китайских GPU H800
  • Бесплатный доступ через публичный чатбот и API
  • Открытые веса для локального запуска и модификации
  • Фокус на логическое мышление, математику и код
🧠

Инновационное обучение

Глубокое RL-обучение без человека:

  • Модель R1-Zero обучалась в основном через подкрепление
  • Минимум ручной донастройки
  • Самостоятельно выработала стратегии самокоррекции и рефлексии
  • Научилась уделять больше "времени на раздумья" над сложными задачами
  • Способна возвращаться к предыдущим шагам при обнаружении ошибки
📊

Производительность

Несмотря на меньший размер, DeepSeek R1 приблизился к топовым проприетарным ИИ:

2029
Elo на Codeforces
79.8%
Экзамен AIME 2024
98%
От возможностей OpenAI

Рейтинг Elo 2029 соответствует уровню сильного кандидата в мастера и выше ~96% человеческих участников.

💰

Экономическая эффективность

  • Стоимость запросов во много раз ниже конкурентов: ~$0,14 за миллион токенов (против $7,5 у OpenAI)
  • Демократизация доступа к передовым AI-возможностям
  • Реализация изначальной миссии OpenAI — открытое развитие передового ИИ
  • Открытость и эффективность, отмеченная экспертами Nvidia и Apple

Сравнение моделей

Зима 2024/25
Модель Компания Дата выпуска Ключевые характеристики Производительность Доступность
GPT-4.5 (Orion)
OpenAI Февраль 2025
  • Мультимодальный LLM нового поколения
  • Улучшенная визуальная обработка
  • Встроенные агент-функции
  • Переходная к GPT-5
  • Превосходит GPT-4 (нет точных цифр)
  • Deep Research: 26.6% на HLE
ChatGPT Pro (ограниченный превью)
Gemini 2.0
Google Декабрь 2024
  • Мультимодальность (текст, изображения, аудио, видео)
  • 1 млн токенов контекста
  • Flash (быстрая) и Pro версии
  • Deep Research, Flash-Thinking
  • 91% в кодировании (vs 93% у GPT-4o)
  • Превосходит GPT-4o на MMLU-Pro
  • Elo ~1203 в рейтинге чат-ботов
Bard, Google Search, API (AI Studio)
Claude 3.7 Sonnet
Anthropic 24 февраля 2025
  • Гибридная модель с двумя режимами мышления
  • Extended thinking mode
  • 128K токенов контекста
  • Claude Code для разработки
  • #1 на SWE-bench, TAU-bench
  • Лидер в генерации кода
  • Предшественник имел Elo 1253
API и claude.ai (базовая версия бесплатна)
Grok 3
xAI 17 февраля 2025
  • 2,7 трлн параметров
  • Deep Search для актуальной информации
  • Big Brain режим для сложных задач
  • 128K токенов контекста
  • MMLU: 92.7%
  • GSM8K: 89.3%
  • HumanEval: 86.5%
  • На 15% точнее GPT-4o1 Pro
Бесплатно для подписчиков X (Twitter)
DeepSeek R1 (V3)
DeepSeek 20 января 2025
  • 685 млрд параметров (MoE)
  • Открытый исходный код (MIT)
  • Самообучение через RL без людей
  • Фокус на рассуждениях, математике и коде
  • Elo 2029 на Codeforces (лучше 96.3% людей)
  • 79.8% на AIME 2024
  • 98% функциональности GPT o1 при 1/50 стоимости
Публичный чатбот, API, открытые веса