Alibaba Qianwen ra mắt mô hình lớn toàn phương thức Qwen3.5-Omni, nâng mạnh năng lực đa ngôn ngữ với nhận dạng giọng nói 113 ngôn ngữ/phương ngữ và tạo giọng nóAlibaba Qianwen ra mắt mô hình lớn toàn phương thức Qwen3.5-Omni, nâng mạnh năng lực đa ngôn ngữ với nhận dạng giọng nói 113 ngôn ngữ/phương ngữ và tạo giọng nó

Alibaba đưa mô hình đa phương thức Qwen 3.5-Omni lên online

2026/03/30 21:58
Leu 2 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Alibaba Qianwen ra mắt mô hình lớn toàn phương thức Qwen3.5-Omni, nâng mạnh năng lực đa ngôn ngữ với nhận dạng giọng nói 113 ngôn ngữ/phương ngữ và tạo giọng nói 36 ngôn ngữ/phương ngữ.

Qwen3.5-Omni là bản nâng cấp của Qwen3-Omni, tập trung vào xử lý văn bản, hình ảnh và âm thanh/video, đồng thời mở rộng khả năng ngữ cảnh dài và đầu vào đa phương tiện để phục vụ các tác vụ đa mô thức.

NỘI DUNG CHÍNH
  • Ra mắt Qwen3.5-Omni: mô hình lớn toàn phương thức của Alibaba Qianwen.
  • Hỗ trợ ngữ cảnh dài 256k và đầu vào audio/video thời lượng lớn.
  • Tăng cường đa ngôn ngữ: ASR 113, TTS 36 ngôn ngữ/phương ngữ.

Thông số nổi bật của Qwen3.5-Omni

Qwen3.5-Omni có các bản Instruct với kích thước Plus, Flash và Light; hỗ trợ ngữ cảnh dài 256k, nhận hơn 10 giờ đầu vào âm thanh và hơn 400 giây đầu vào audio/video 720P (1FPS).

Dòng Qwen3.5-Omni được tiền huấn luyện bản địa trên lượng dữ liệu lớn gồm văn bản, dữ liệu thị giác và hơn 100 triệu giờ dữ liệu âm thanh/video. Theo công bố, mô hình thể hiện năng lực cảm nhận và tạo sinh toàn phương thức.

Các giới hạn đầu vào được nhấn mạnh gồm: hơn 10 giờ audio và hơn 400 giây audio/video 720P (1FPS). Cấu hình này hướng tới các tác vụ yêu cầu tiếp nhận dữ liệu dài, đa định dạng, thay vì chỉ xử lý văn bản.

Nâng cấp so với Qwen3-Omni: đa ngôn ngữ

So với Qwen3-Omni, Qwen3.5-Omni cải thiện đáng kể khả năng đa ngôn ngữ, hỗ trợ nhận dạng giọng nói cho 113 ngôn ngữ và phương ngữ, và tạo giọng nói cho 36 ngôn ngữ và phương ngữ.

Việc mở rộng số lượng ngôn ngữ cho cả nhận dạng và tạo giọng nói cho thấy trọng tâm nâng cấp nằm ở giao tiếp giọng nói đa khu vực. Danh mục đa ngôn ngữ này đi kèm các khả năng đa mô thức khác như xử lý hình ảnh và audio/video trong cùng một hệ mô hình.

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.