Alibaba Qianwen ra mắt mô hình lớn toàn phương thức Qwen3.5-Omni, nâng mạnh năng lực đa ngôn ngữ với nhận dạng giọng nói 113 ngôn ngữ/phương ngữ và tạo giọng nói 36 ngôn ngữ/phương ngữ.
Qwen3.5-Omni là bản nâng cấp của Qwen3-Omni, tập trung vào xử lý văn bản, hình ảnh và âm thanh/video, đồng thời mở rộng khả năng ngữ cảnh dài và đầu vào đa phương tiện để phục vụ các tác vụ đa mô thức.
Qwen3.5-Omni có các bản Instruct với kích thước Plus, Flash và Light; hỗ trợ ngữ cảnh dài 256k, nhận hơn 10 giờ đầu vào âm thanh và hơn 400 giây đầu vào audio/video 720P (1FPS).
Dòng Qwen3.5-Omni được tiền huấn luyện bản địa trên lượng dữ liệu lớn gồm văn bản, dữ liệu thị giác và hơn 100 triệu giờ dữ liệu âm thanh/video. Theo công bố, mô hình thể hiện năng lực cảm nhận và tạo sinh toàn phương thức.
Các giới hạn đầu vào được nhấn mạnh gồm: hơn 10 giờ audio và hơn 400 giây audio/video 720P (1FPS). Cấu hình này hướng tới các tác vụ yêu cầu tiếp nhận dữ liệu dài, đa định dạng, thay vì chỉ xử lý văn bản.
So với Qwen3-Omni, Qwen3.5-Omni cải thiện đáng kể khả năng đa ngôn ngữ, hỗ trợ nhận dạng giọng nói cho 113 ngôn ngữ và phương ngữ, và tạo giọng nói cho 36 ngôn ngữ và phương ngữ.
Việc mở rộng số lượng ngôn ngữ cho cả nhận dạng và tạo giọng nói cho thấy trọng tâm nâng cấp nằm ở giao tiếp giọng nói đa khu vực. Danh mục đa ngôn ngữ này đi kèm các khả năng đa mô thức khác như xử lý hình ảnh và audio/video trong cùng một hệ mô hình.