DeepSeek против OSS от OpenAI: История двух моделей с открытым исходным кодом

Два крупных игрока недавно представили новые модели с открытым исходным кодом, но они представляют две принципиально разные философии. OpenAI, признанный лидер, с помпой вернулся на сцену открытого исходного кода со своей моделью gpt-oss-20b. Вскоре после этого китайский стартап DeepSeek незаметно выпустил v3.1. Если один релиз был медиа-событием, то другой — всего лишь одним твитом. Первоначальные результаты практического тестирования оказались явно односторонними. Производительность «из коробки»: Явный победитель Если оценивать модель как инструмент, который можно использовать прямо сейчас, сравнение даже близко не стоит. В ходе многочисленных практических тестов DeepSeek v3.1 стабильно демонстрировал превосходные результаты: ...

27 августа, 2025 · 3 минуты · 624 слова · Юрий Акинин

Новые модели NVIDIA с открытым исходным кодом устраняют языковой разрыв в ИИ

Подавляющее большинство разработок в области ИИ сосредоточено на нескольких языках, что создает значительный разрыв в возможностях для большей части мира. NVIDIA устраняет этот дисбаланс с помощью нового набора моделей и инструментов с открытым исходным кодом, предназначенных для расширения высококачественного речевого ИИ, с первоначальным акцентом на 25 европейских языках. Эта инициатива выходит за рамки простого выпуска моделей; она предоставляет базовые компоненты для создания локализованных, многоязычных ИИ-приложений. Цель состоит в том, чтобы дать разработчикам возможность создавать надежные инструменты, такие как многоязычные чат-боты, службы перевода в реальном времени и интеллектуальные боты для обслуживания клиентов для языков, часто игнорируемых основными технологиями, включая хорватский, эстонский и мальтийский. ...

16 августа, 2025 · 2 минуты · 376 слов · Юрий Акинин

Векторный поиск достигает своих пределов. Что дальше?

Векторные базы данных стали ключевым компонентом современного ИИ, особенно для реализации генерации с дополненной выборкой (RAG) через поиск по сходству. Однако по мере создания более сложных приложений становятся очевидными ограничения использования исключительно векторных представлений. С моей точки зрения, основная проблема заключается в том, что продвинутые системы ИИ должны понимать больше, чем просто семантическое сходство. Им необходимо более глубокое понимание данных, включающее структурированные атрибуты, текстовую точность и взаимосвязи внутри и между различными модальностями, такими как текст, изображения и видео. Опора только на базовый векторный поиск создает значительные слепые зоны. ...

13 августа, 2025 · 4 минуты · 656 слов · Юрий Акинин

Контекстное окно Claude Sonnet 4 на 1 миллион токенов: Практический взгляд для разработчиков

Anthropic только что объявила об увеличении контекстного окна Claude Sonnet 4 в 5 раз, доведя его до 1 миллиона токенов. Хотя большие числа в ИИ являются обычным явлением, этот шаг имеет ощутимые, практические последствия для тех из нас, кто создает сложные системы. С моей точки зрения, это не просто количественный скачок; это качественный скачок, который открывает новый класс проблем, которые мы можем решить. Переход от анализа файлов к пониманию на уровне системы Возможность загрузить всю кодовую базу — более 75 000 строк с исходными файлами, тестами и документацией — в один запрос является значительным изменением. Ранее анализ кода с помощью ИИ часто ограничивался отдельными файлами или небольшими модулями. Мы могли проверять ошибки или рефакторить конкретную функцию, но ИИ не хватало целостного представления. ...

13 августа, 2025 · 2 минуты · 424 слова · Юрий Акинин

Google MLE-STAR: Агенты ИИ, автоматизирующие машинное обучение

Google MLE-STAR: Агенты ИИ, автоматизирующие машинное обучение Исследовательская группа Google Cloud представила MLE-STAR (Machine Learning Engineering via Search and Targeted Refinement) — систему агентов искусственного интеллекта, которая знаменует собой значительный шаг к полной автоматизации создания конвейеров машинного обучения. Для тех, кто провел бесчисленные часы за разработкой признаков, выбором моделей и оптимизацией гиперпараметров, это развитие заслуживает пристального внимания. По своей сути, MLE-STAR выходит за рамки ограничений традиционного AutoML. Вместо того чтобы полагаться на заранее определенный набор моделей и методов, он использует инновационный подход, который сочетает внешние знания с внутренней оптимизацией. ...

4 августа, 2025 · 3 минуты · 439 слов · Юрий Акинин

Дневник AI-стартапа #2: Невидимая работа важнее всего

За последние несколько дней наша команда проделала огромный объем работы над A.V.E.L.I.N. Это решающий этап, когда продукт очень мало меняется внешне, но внутри мы реализуем десятки архитектурных решений, оттачиваем основную логику и проводим обширные тесты. A.V.E.L.I.N учится понимать не просто слова, а намерения. Он уже может выбирать наиболее эффективную модель для заданного контекста и анализировать запросы из голоса и видео, а не только текст. Мы интенсивно работаем над тем, чтобы взаимодействие ощущалось плавным и органичным. ...

12 мая, 2025 · 1 минута · 146 слов · Юрий Акинин

Почему обучение ИИ стоит миллионы: Взгляд на «Гигафабрику вычислений»

Мне часто задают вопрос, какой проект по обучению ИИ стоил миллионы долларов и два года моей жизни. Люди недоумевают: почему это так дорого? Мой обычный ответ заключается в том, что это не так уж и дорого — особенно учитывая, что у нас пока нет собственного оборудования. Обучение ИИ всегда было связано с массивными центрами обработки данных; такова реальность этой области. Когда вы не погружены в это, представить себе такой масштаб бывает трудно. ...

9 мая, 2025 · 2 минуты · 234 слова · Юрий Акинин