Обзор ключевых новинок от ведущих разработчиков: OpenAI, Google, Anthropic, xAI и др. — их возможности, характеристики и результаты тестов. Фокус на универсальных agentic AI с функциями Deep Search, Deep Research и Deep Think.
Февраль 2025
Режим Deep Research (запущен 2 февраля 2025) – агент на базе модели o3, способный самостоятельно планировать поиск, читать источники и готовить подробные отчёты.
Облегчённая версия reasoning-модели OpenAI (31 января 2025):
ChatGPT с Deep Research значительно превзошёл предыдущие модели на комплексном бенчмарке Humanity's Last Exam (HLE):
Этот бенчмарк включает 3000+ вопросов по широкому спектру сложных областей.
Декабрь 2024
Gemini 2.0 заявлен как модель уровня GPT-4 и выше:
24 февраля 2025
Первая в отрасли "гибридная" модель рассуждений с двумя режимами работы:
Кодовый агент, представленный вместе с моделью:
Claude 3.7 Sonnet — одна из самых сильных моделей ИИ:
SWE-bench: набор задач для оценки умения ИИ решать реальные проблемы программирования.
TAU-bench: тестирование AI-агентов в сложных многоэтапных задачах.
17 февраля 2025
xAI заявляет, что Grok 3 превосходит существующие аналоги:
Эти результаты значительно превосходят показатели GPT-4 (~86% на MMLU).
20 января 2025
Глубокое RL-обучение без человека:
Несмотря на меньший размер, DeepSeek R1 приблизился к топовым проприетарным ИИ:
Рейтинг Elo 2029 соответствует уровню сильного кандидата в мастера и выше ~96% человеческих участников.
Модель | Компания | Дата выпуска | Ключевые характеристики | Производительность | Доступность |
---|---|---|---|---|---|
GPT-4.5 (Orion)
|
OpenAI | Февраль 2025 |
|
|
ChatGPT Pro (ограниченный превью) |
Gemini 2.0
|
Декабрь 2024 |
|
|
Bard, Google Search, API (AI Studio) | |
Claude 3.7 Sonnet
|
Anthropic | 24 февраля 2025 |
|
|
API и claude.ai (базовая версия бесплатна) |
Grok 3
|
xAI | 17 февраля 2025 |
|
|
Бесплатно для подписчиков X (Twitter) |
DeepSeek R1 (V3)
|
DeepSeek | 20 января 2025 |
|
|
Публичный чатбот, API, открытые веса |