纸飞机:和大模型语音聊天视频通线-Omni开源
3月27日,通义千问Qwen系列中的全新多模态大模型Qwen2.5-Omni宣布开源。
Qwen2.5-Omni作为通义系列模型中首个端到端全模态大模型,可以同时处理包括文本、图像、音频和视频等多种输入,并实时合成输出文本与自然语音。
这意味着,用户可以和Qwen进行语音聊天和视频通话,有网友对此表示强烈欣喜。
事实上,在一系列同等规模的单模态模型权威基准测试中,Qwen2.5-Omni在语音生成测评分数上达到了与人类持平的能力,这为该模型在语音和视频通话的可行性上提供了数据层面的支撑。
双核架构Thinker-Talker让Qwen2.5-Omni拥有了人类的大脑和发声器。Thinker负责处理和理解用户输入的内容,Talker则输出相应的语音标记。通过两者的配合完成了端到端的统一模型架构,将实时语义理解与语音生成形成协同。
TMRoPE则通过时间轴对齐实现视频与音频输入的精准同步,使得模型能够准确地捕捉到不同模态数据在时间维度上的对应关系,从而为生成连贯、准确的内容。
值得注意的是,Qwen2.5-Omni以7B的小尺寸让全模态大模型在产业上的广泛应用成为可能。用户在手机上,也能轻松部署和应用Qwen2.5-Omni模型。
老人买保健品吃了后身体不舒服,商家宣传“马斯克也在用”?记者给马斯克发私信求证
国货品牌84岁总裁发文,称被限制人身自由,遭儿子、儿媳抢公章夺权?公司回应
猜你喜欢
- 03-21纸飞机特朗普再谈白宫群聊泄密
- 05-10纸飞机“泄密门”主角Signal引热
- 05-11纸飞机微信史诗级更新!聊天支
- 03-14纸飞机【安全圈】首席执行官被
- 03-20纸飞机情侣聊天截图简直不堪入
- 05-11纸飞机20年前中国互联网的语音社
- 05-06纸飞机疑似石凯订婚宴视频与聊
- 05-06纸飞机加密聊天风波!金秀贤陷
- 05-12纸飞机微信引入语音和表情包引