کیوِن 3.5 اومنی: مدل هوش مصنوعی علی‌بابا اکنون می‌تواند بشنود، تماشا کند و صدای شما را شبیه‌سازی کند

به طور خلاصه

Qwen 3.5 Omni علی‌بابا، هوش مصنوعی چندوجهی بلادرنگ واقعی را به مسابقه پیشرو می‌آورد.
پردازش بومی صوتی-تصویری از نظر سرعت و انسجام بر خطوط لوله چندوجهی به هم متصل شده پیشی می‌گیرد.
شبیه‌سازی صدا، وقفه معنایی و کدنویسی با حس، نشان‌دهنده تغییر به سمت AI Agent کاملاً تعاملی است.

علی‌بابا به تازگی جاه‌طلبانه‌ترین ارتقاء هوش مصنوعی خود را منتشر کرد.

تیم Qwen این شرکت، Qwen 3.5 Omni را روز یکشنبه منتشر کرد، نسخه جدیدی از هوش مصنوعی "چندوجهی" خود که به طور همزمان متن، تصاویر، صدا و ویدیو را پردازش می‌کند و در زمان واقعی در 36 زبان پاسخ می‌دهد و مدل خود را در همان میدان نبرد با جدیدترین مدل‌های بنیادی هوش مصنوعی پیشرفته موجود قرار می‌دهد.

"Omni" در اینجا فقط یک کلمه کلیدی بازاریابی نیست. بیشتر مدل‌های هوش مصنوعی که با آن‌ها تعامل دارید، عمدتاً سیستم‌های متن-ورودی، متن-خروجی هستند. برخی تصاویر را مدیریت می‌کنند، برخی صدا را. Qwen 3.5 Omni همه آن‌ها را به صورت بومی، در همان زمان، بدون نیاز به تبدیل همه چیز به متن از طریق ابزارهای شخص ثالث مدیریت می‌کند.

مدل جدید در سه اندازه ارائه می‌شود—Plus، Flash و Light—همگی از پنجره زمینه‌ای کوچک (بر اساس استانداردهای امروزی) 256000 توکن پشتیبانی می‌کنند. این مدل بر روی بیش از 100 میلیون ساعت داده‌های صوتی-تصویری آموزش دیده است—مقیاسی که آن را در کلاس وزنی متفاوت از اکثر رقبا قرار می‌دهد.

Qwen 3.5 Omni تکامل Qwen 3 Omni Flash، مدل چندوجهی قبلی علی‌بابا است که در دسامبر 2025 منتشر شد. آن نسخه قبلاً با توانایی خود در پردازش همزمان ویدیو و صدا تأثیرگذار بود—می‌توانست دستورالعمل‌های ویرایش تصویر را با ترکیب چندین ورودی بصری به روش‌هایی که رقبا نمی‌توانستند انجام دهد—و پاسخ‌های صوتی را با تاخیر کمتر از 234 میلی‌ثانیه پخش می‌کرد.

این اولین مدلی بود که جایگزینی برای NotebookLM گوگل را امتحان کرد. به چیزی دست یافت، اما کیفیت با پیشنهاد گوگل برابری نمی‌کرد.

Qwen 3.5 Omni همه این‌ها را می‌گیرد و یک پنجره زمینه‌ای طولانی‌تر، استدلال بهتر، کتابخانه زبانی بسیار گسترده‌تر و مجموعه‌ای از ویژگی‌های تعامل در زمان واقعی را اضافه می‌کند که نسل قبلی نداشت.

ارتقای اصلی این است که وقتی واقعاً با آن صحبت می‌کنید چه اتفاقی می‌افتد. Qwen3.5-Omni اکنون از وقفه معنایی پشتیبانی می‌کند: می‌تواند تفاوت بین گفتن "اوهوم" در وسط جمله و واقعاً می‌خواهید وسط حرف بپرید را تشخیص دهد، بنابراین هر بار که کسی در پس‌زمینه سرفه می‌کند، وسط فکر متوقف نمی‌شود و تعامل گفتاری را روان‌تر می‌کند.

یک تکنیک جدید به نام ARIA، مخفف Adaptive Rate Interleave Alignment، همچنین یک آزار ظریف اما مداوم را برطرف می‌کند: سیستم‌های هوش مصنوعی که هنگام خواندن با صدای بلند، اعداد یا کلمات غیرعادی را مخدوش می‌کنند. ARIA به صورت پویا متن و گفتار را همگام می‌کند تا خروجی طبیعی و دقیق باقی بماند.

سپس شبیه‌سازی صدا وجود دارد. کاربران می‌توانند یک نمونه صوتی آپلود کنند و مدل آن صدا را در پاسخ‌های خود اتخاذ کند، ویژگی که Qwen را مستقیماً در رقابت با ElevenLabs و سایر ابزارهای اختصاصی صوتی قرار می‌دهد. با این حال، ما نتوانستیم به این ویژگی دسترسی داشته باشیم، زیرا این ویژگی، حداقل در حال حاضر، فقط از طریق API در دسترس است.

در معیارهای ثبات صدای چندزبانه، Qwen3.5 Omni-Plus از ElevenLabs، GPT-Audio و Minimax در 20 زبان پیشی گرفت. این مدل اکنون از جستجوی وب در زمان واقعی نیز پشتیبانی می‌کند، به این معنی که می‌تواند به سؤالات مربوط به اخبار فوری یا داده‌های بازار زنده بدون وانمود کردن به اینکه قبلاً می‌داند پاسخ دهد.

این تیم همچنین چیزی را که آن‌ها "کدنویسی صوتی-تصویری با حس" می‌نامند برجسته می‌کند، مدل می‌تواند یک ضبط صفحه یا ویدیوی یک وظیفه کدنویسی را تماشا کند و کد کاربردی را صرفاً بر اساس آنچه می‌بیند و می‌شنود بنویسد، بدون نیاز به پرامپت متنی. این پیش‌نمایش کوچکی از نحوه عملکرد دستیارهای هوش مصنوعی در داخل جریان کاری شما به جای کنار آن است.

برای درک اینکه "چندوجهی" در عمل واقعاً به چه معناست، یک تست سریع انجام دادیم: ما به Qwen3.5-Omni و ChatGPT 5.4 در حالت "تفکر" همان YouTube Short را دادیم—کلیپی از رئیس Dastan (Dastan شرکت مادر Decrypt است) و مفسر Farokh در حال بحث درباره اخبار فوری. Qwen 3.5 Omni ویدیو را به صورت بومی پردازش کرد و یک تحلیل کامل را در حدود یک دقیقه بازگرداند: چه کسی صحبت می‌کرد، درباره چه چیزی بحث می‌کردند و یک نظر اساسی در مورد موضوع بر اساس دانش خود از حوزه موضوعی.

ChatGPT 5.4، که چندوجهی نیست، مجبور بود با آنچه دریافت کرده مدیریت کند. فریم‌ها را از ویدیو استخراج کرد، آن‌ها را از طریق یک مدل بینایی اجرا کرد، از Whisper برای رونویسی صدا استفاده کرد و یک ابزار OCR را برای خواندن زیرنویس‌های جاسازی‌شده به کار برد—سه فرآیند جداگانه که به هم متصل شده‌اند تا کاری را که Qwen3.5-Omni در یک پاس انجام می‌دهد تقریب بزنند. نتیجه نه دقیقه طول کشید، و این در شرایط ایده‌آل است: یک ویدیوی با نور خوب با صدای واضح و زیرنویس‌های ثابت. محتوای دنیای واقعی به ندرت هر سه را ارائه می‌دهد.

در آزمایش‌های سریع ما در چندین ورودی، این مدل همچنین پرامپت‌ها را به اسپانیایی، پرتغالی و انگلیسی بدون مشکل مدیریت کرد—تعویض زبان‌ها در وسط گفتگو بدون از دست دادن زمینه.

در معیارهای استاندارد، Qwen 3.5 Omni Plus از Gemini 3.1 Pro در درک صوتی عمومی، استدلال و وظایف ترجمه بهتر عمل کرد و در درک صوتی-تصویری با آن برابری کرد. تشخیص گفتار اکنون 113 زبان و گویش را پوشش می‌دهد—در مقایسه با 19 در نسل قبلی.

این دومین انتشار بزرگ هوش مصنوعی علی‌بابا در شش هفته است. در فوریه، Qwen 3.5 را راه‌اندازی کرد، یک مدل متن و بینایی که در معیارهای استدلال و کدنویسی با مدل‌های پیشرو برابری یا از آن‌ها پیشی گرفت—بخشی از یک سری که همچنین شامل Qwen Deep Research و خطی از ابزارها رقیب OpenAI و گوگل بود. Qwen 3.5 Omni این شتاب را به قلمرو کامل چندوجهی گسترش می‌دهد، در زمانی که هر آزمایشگاه بزرگ هوش مصنوعی در حال مسابقه برای ساخت سیستم‌هایی است که طیف کامل ارتباطات انسانی را مدیریت می‌کنند—نه فقط کلمات روی صفحه.

این مدل اکنون از طریق API Alibaba Cloud در دسترس است و می‌توان آن را مستقیماً در Qwen Chat یا از طریق دموی آنلاین Hugging Face آزمایش کرد.

خبرنامه گزارش روزانه

هر روز را با مهم‌ترین داستان‌های خبری در همین لحظه، به علاوه ویژگی‌های اصلی، یک پادکست، ویدیوها و موارد دیگر شروع کنید.

منبع: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

کیوِن 3.5 اومنی: مدل هوش مصنوعی علی‌بابا اکنون می‌تواند بشنود، تماشا کند و صدای شما را شبیه‌سازی کند

به طور خلاصه

خبرنامه گزارش روزانه

محتوای پیشنهادی

PhilWeb اعتبار خدمات بازی را کسب می‌کند

چگونه کریپتو با پتانسیل 150 برابری را بخریم در حالی که پپتو در هر مرحله سریعتر پر می‌شود

از رونق زاد و ولد تا سقوط: نرخ باروری فیلیپین در سال ۲۰۲۵ به پایین‌ترین سطح تاریخ سقوط کرد

اخبار محبوب

توقف جمهوری‌خواه به اتهام رانندگی در حالت مستی زمانی تغییر مسیر می‌دهد که اسلحه‌ای نزد مسافر مست پیدا می‌شود — که او نیز قانون‌گذار جمهوری‌خواه است: پلیس

تغییر چرخه انعطاف‌پذیر – HSBC

USD/JPY به زیر 160.00 سقوط می‌کند زیرا بانک ژاپن فوریت افزایش نرخ بهره را علم می‌کند

سناتورهای آمریکا لایحه جدیدی را برای گسترش استخراج بیت کوین و تثبیت ذخیره استراتژیک بیت کوین ارائه کردند – اخبار بیت کوین مقررات

ران نویونر هویت بیت کوین را زیر سوال می‌برد، تغییر روایت کریپتو

قیمت‌ های ارز دیجیتال