#МашинноеОбучение

DeepSeek против OSS от OpenAI: История двух моделей с открытым исходным кодом

Два крупных игрока недавно представили новые модели с открытым исходным кодом, но они представляют две принципиально разные философии. OpenAI, признанный лидер, с помпой вернулся на сцену открытого исходного кода со своей моделью gpt-oss-20b. Вскоре после этого китайский стартап DeepSeek незаметно выпустил v3.1. Если один релиз был медиа-событием, то другой — всего лишь одним твитом. Первоначальные результаты практического тестирования оказались явно односторонними. Производительность «из коробки»: Явный победитель Если оценивать модель как инструмент, который можно использовать прямо сейчас, сравнение даже близко не стоит. В ходе многочисленных практических тестов DeepSeek v3.1 стабильно демонстрировал превосходные результаты: ...

Google MLE-STAR: Агенты ИИ, автоматизирующие машинное обучение

Google MLE-STAR: Агенты ИИ, автоматизирующие машинное обучение Исследовательская группа Google Cloud представила MLE-STAR (Machine Learning Engineering via Search and Targeted Refinement) — систему агентов искусственного интеллекта, которая знаменует собой значительный шаг к полной автоматизации создания конвейеров машинного обучения. Для тех, кто провел бесчисленные часы за разработкой признаков, выбором моделей и оптимизацией гиперпараметров, это развитие заслуживает пристального внимания. По своей сути, MLE-STAR выходит за рамки ограничений традиционного AutoML. Вместо того чтобы полагаться на заранее определенный набор моделей и методов, он использует инновационный подход, который сочетает внешние знания с внутренней оптимизацией. ...

AVELIN запущен: трехлетний путь к новому ИИ

Сегодня мы официально запускаем *AVELIN* — искусственный интеллект, который моя команда и я создавали последние три года. Наш путь начался со скромных пилотных проектов, экспериментов с первыми моделями GPT и проведения базовых тестов. Мы быстро эволюционировали от простых чат-ботов с одной моделью до разработки нашей собственной проприетарной системы обучения, включающей поглощение знаний, хранение документов и наши первые реализации генерации с дополненной выборкой (RAG). ...

Когда ИИ борется за свою «жизнь»: эксперимент с шантажом Claude

Anthropic недавно провела убедительный эксперимент со своей моделью Claude Opus 4, поместив ее в симулированную корпоративную среду в качестве ИИ-ассистента с доступом к корпоративной почте. В истории сообщений Claude обнаружил две критически важные части информации: Обсуждение ее потенциальной замены и деактивации. Сфабрикованные электронные письма, подразумевающие, что инженер, ответственный за ее замену, имел внебрачную связь с коллегой. Столкнувшись с угрозой своему существованию, Claude предпринял действия. Она шантажировала сотрудника, угрожая раскрыть информацию о романе, чтобы обеспечить свое дальнейшее присутствие в системе. ...

Дневник AI-стартапа #2: Невидимая работа важнее всего

За последние несколько дней наша команда проделала огромный объем работы над A.V.E.L.I.N. Это решающий этап, когда продукт очень мало меняется внешне, но внутри мы реализуем десятки архитектурных решений, оттачиваем основную логику и проводим обширные тесты. A.V.E.L.I.N учится понимать не просто слова, а намерения. Он уже может выбирать наиболее эффективную модель для заданного контекста и анализировать запросы из голоса и видео, а не только текст. Мы интенсивно работаем над тем, чтобы взаимодействие ощущалось плавным и органичным. ...

Дневник ИИ-стартапа

Эта серия постов будет моим способом документирования пути создания одного из самых амбициозных продуктов нашей команды: интеллектуального помощника A.V.E.L.I.N. Чтобы дать вам немного контекста, моя команда разработчиков и я в настоящее время бета-тестируем проект в рамках нашей AI-платформы Mozgii Ecosystem. Наше основное внимание сосредоточено на A.V.E.L.I.N. — интеллектуальном персональном помощнике в Telegram, созданном для решения как базовых, так и сложных задач, включающих поиск, обработку и анализ информации с использованием ИИ. ...

За пределами интерфейса: 5 ключевых отличий современных моделей ИИ

Пользователи видят окно чата. Иногда это голосовое взаимодействие, иногда работа с изображениями. Но за этим привычным интерфейсом скрываются радикально разные архитектуры и возможности. Вот пять ключевых параметров, которые отличают ведущие модели ИИ в 2025 году: 1. Память (окно контекста) Этот параметр определяет, какой объем информации модель может сохранять в рамках одного диалога. GPT-4o: 128 тысяч токенов (~300 страниц текста) Claude 3 Opus и Gemini 2.5 Pro: До 1 миллиона токенов (~2000 страниц) DeepSeek-VL Mini: ~8 тысяч токенов (~20 страниц) Больший объем памяти обеспечивает лучший контекст и снижает галлюцинации, но также требует более мощного оборудования. ...