Вкратце
- Qwen 3.5 Omni от Alibaba привносит настоящий омнимодальный ИИ реального времени в передовую гонку.
- Нативная аудиовизуальная обработка превосходит сшитые мультимодальные конвейеры по скорости и согласованности.
- Клонирование голоса, семантическое прерывание и кодирование настроения сигнализируют о переходе к полностью интерактивным ИИ-агентам.
Alibaba только что представила своё самое амбициозное обновление ИИ.
Команда Qwen компании выпустила Qwen 3.5 Omni в воскресенье, новую версию своего "омнимодального" ИИ, который одновременно обрабатывает текст, изображения, аудио и видео, и отвечает в режиме реального времени на 36 языках, помещая свою модель на одно поле битвы с новейшими современными фундаментальными моделями ИИ, доступными в настоящее время.
"Omni" здесь не просто маркетинговое модное слово. Большинство моделей ИИ, с которыми вы взаимодействуете, в первую очередь системы текст-на-вход, текст-на-выход. Некоторые обрабатывают изображения, некоторые обрабатывают голос. Qwen 3.5 Omni обрабатывает их все нативно, одновременно, без необходимости преобразования всего в текст через сторонние инструменты.
Новая модель выпускается в трёх размерах—Plus, Flash и Light—все поддерживают небольшое (по сегодняшним стандартам) контекстное окно в 256 000 токенов. Она была обучена на более чем 100 миллионах часов аудиовизуальных данных—масштаб, который помещает её в другую весовую категорию по сравнению с большинством конкурентов.
Qwen 3.5 Omni является эволюцией Qwen 3 Omni Flash, предыдущей омнимодальной модели Alibaba, выпущенной в декабре 2025 года. Эта версия уже впечатлила своей способностью одновременно обрабатывать видео и аудио—она могла обрабатывать инструкции по редактированию изображений, объединяя несколько визуальных входов способами, которые конкуренты не могли—и передавала голосовые ответы с задержкой всего 234 миллисекунды.
Это также была первая модель, попытавшаяся создать альтернативу NotebookLM от Google. Она чего-то достигла, но качество не соответствовало предложению Google.
Qwen 3.5 Omni берёт всё это и добавляет более длинное контекстное окно, лучшее рассуждение, гораздо более широкую языковую библиотеку и набор функций взаимодействия в реальном времени, которых не было у предыдущего поколения.
Главное обновление—это то, что происходит, когда вы действительно разговариваете с ним. Qwen3.5-Omni теперь поддерживает семантическое прерывание: он может отличить, когда вы говорите "ага" в середине предложения от того, когда вы действительно хотите вмешаться, поэтому он не остановится в середине мысли каждый раз, когда кто-то кашляет на фоне, делая голосовое взаимодействие более плавным.
Новая технология под названием ARIA, сокращение от Adaptive Rate Interleave Alignment, также исправляет тонкую, но постоянную проблему: системы ИИ, которые искажают числа или необычные слова при чтении вслух. ARIA динамически синхронизирует текст и речь, чтобы сохранить вывод естественным и точным.
Затем есть клонирование голоса. Пользователи могут загрузить образец голоса и заставить модель принять этот голос в своих ответах, функция, которая ставит Qwen в прямую конкуренцию с ElevenLabs и другими специализированными голосовыми инструментами. Мы не смогли получить доступ к этой функции, потому что это функция, которая, по крайней мере сейчас, доступна только через API.
По многоязычным тестам стабильности голоса Qwen3.5 Omni-Plus превзошёл ElevenLabs, GPT-Audio и Minimax на 20 языках. Модель теперь также поддерживает веб-поиск в режиме реального времени, что означает, что она может отвечать на вопросы о последних новостях или данных рынка в реальном времени, не притворяясь, что уже знает.
Команда также выделяет то, что они называют "Аудиовизуальным кодированием настроения", модель может смотреть запись экрана или видео задачи кодирования и писать функциональный код, основываясь исключительно на том, что она видит и слышит, без необходимости текстовой подсказки. Это небольшой предварительный просмотр того, как ИИ-агенты могут в конечном итоге работать внутри вашего рабочего процесса, а не рядом с ним.
Чтобы понять, что "омнимодальный" на самом деле означает на практике, мы провели быстрый тест: мы передали и Qwen3.5-Omni, и ChatGPT 5.4 в режиме "размышления" один и тот же YouTube Short—клип президента Dastan (Dastan является материнской компанией Decrypt) и комментатора Farokh, обсуждающих последние новости. Qwen 3.5 Omni обработал видео нативно и вернул полный анализ примерно за одну минуту: кто говорил, что они обсуждали и содержательный комментарий по теме, основанный на его собственных знаниях предметной области.
ChatGPT 5.4, который не является омнимодальным, пришлось управляться с тем, что он получил. Он извлёк кадры из видео, пропустил их через модель зрения, использовал Whisper для транскрибирования аудио и применил инструмент OCR для чтения встроенных субтитров—три отдельных процесса, сшитых вместе, чтобы приблизиться к тому, что Qwen3.5-Omni делает за один проход. Результат занял девять минут, и это в идеальных условиях: хорошо освещённое видео с чистым аудио и встроенными субтитрами. Контент реального мира редко предлагает все три.
В наших быстрых тестах с множественными входами модель также обрабатывала подсказки на испанском, португальском и английском без проблем—переключая языки в середине разговора без потери контекста.
По стандартным тестам Qwen 3.5 Omni Plus превзошёл Gemini 3.1 Pro по общему пониманию аудио, рассуждениям и задачам перевода и сравнялся с ним по аудиовизуальному пониманию. Распознавание речи теперь охватывает 113 языков и диалектов—по сравнению с 19 в предыдущем поколении.
Это второй крупный выпуск ИИ от Alibaba за шесть недель. В феврале она запустила Qwen 3.5, текстово-визуальную модель, которая соответствовала или превосходила передовые модели по тестам рассуждений и кодирования—часть серии, которая также включала Qwen Deep Research и линейку инструментов, конкурирующих с OpenAI и Google. Qwen 3.5 Omni расширяет этот импульс на полную мультимодальную территорию в то время, когда каждая крупная лаборатория ИИ мчится, чтобы создать системы, которые обрабатывают полный спектр человеческого общения—не только слова на экране.
Модель доступна сейчас через API Alibaba Cloud и может быть протестирована непосредственно в Qwen Chat или через онлайн-демо Hugging Face.
Ежедневная рассылка брифингов
Начинайте каждый день с главных новостей прямо сейчас, плюс оригинальные материалы, подкаст, видео и многое другое.
Источник: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

