Подавляющее большинство разработок в области ИИ сосредоточено на нескольких языках, что создает значительный разрыв в возможностях для большей части мира. NVIDIA устраняет этот дисбаланс с помощью нового набора моделей и инструментов с открытым исходным кодом, предназначенных для расширения высококачественного речевого ИИ, с первоначальным акцентом на 25 европейских языках.
Эта инициатива выходит за рамки простого выпуска моделей; она предоставляет базовые компоненты для создания локализованных, многоязычных ИИ-приложений. Цель состоит в том, чтобы дать разработчикам возможность создавать надежные инструменты, такие как многоязычные чат-боты, службы перевода в реальном времени и интеллектуальные боты для обслуживания клиентов для языков, часто игнорируемых основными технологиями, включая хорватский, эстонский и мальтийский.
Трехкомпонентное решение для многоязычного речевого ИИ
Выпуск NVIDIA сосредоточен на трех основных компонентах, доступных на Hugging Face:
- Granary: Масштабная, тщательно подобранная библиотека, содержащая около миллиона часов человеческой речи. Этот набор данных служит основой для обучения задачам распознавания речи и перевода.
- Canary-1b-v2: Большая языковая модель, оптимизированная для высокоточных, сложных задач транскрипции и перевода.
- Parakeet-tdt-0.6b-v3: Меньшая, более эффективная модель, разработанная для приложений реального времени, где критически важна низкая задержка.
Автоматизация конвейера данных
Наиболее значительным техническим достижением может быть процесс, лежащий в основе набора данных Granary. Традиционно обучение ИИ требует огромных объемов тщательно размеченных данных — медленного и дорогостоящего ручного процесса. Команда NVIDIA в сотрудничестве с университетскими исследователями разработала автоматизированный конвейер с использованием своего инструментария NeMo.
Эта система преобразует необработанное, неразмеченное аудио в высококачественные, структурированные данные, пригодные для обучения ИИ. Эффективность этого подхода примечательна: исследование показывает, что данные Granary могут достигать целевых уровней точности при примерно вдвое меньшем объеме данных по сравнению с другими популярными наборами данных.
Практические последствия и производительность
Для разработчиков это означает снижение барьера для создания приложений профессионального уровня. Модели разработаны для практических сценариев использования:
- Сообщается, что Canary обеспечивает качество транскрипции и перевода, которое конкурирует с моделями в три раза большего размера, но со скоростью до десяти раз выше.
- Parakeet может обрабатывать 24-минутный аудиофайл за один проход, автоматически определяя произносимый язык.
Обе модели включают важные функции для производственных приложений, такие как автоматическая пунктуация, заглавные буквы и временные метки на уровне слов. Открывая исходный код не только моделей, но и высококачественного набора данных, NVIDIA позволяет разработчикам на небольших рынках создавать голосовой ИИ, который точно понимает местные языки. Это стратегический шаг к стимулированию новой волны инноваций путем предоставления инструментов для создания более инклюзивных и доступных технологий.