快科技8月30日音信,阿里通义千问发布第二代视觉讲话模子Qwen2-VL。其中,旗舰模子Qwen2-VL-72B的API已上线阿里云百真金不怕火平台。
据了解,Qwen2-VL在多个泰斗测评中刷新了多模态模子的最好收成,在部分主义上以致超过了GPT-4o和Claude3.5-Sonnet等闭源模子。
2023年8月,通义千问开源第一代视觉讲话联结模子Qwen-VL,成为开源社区最受宽宥的多模态模子之一。
短短一年内,模子下载量冲突1000万次。当今,多模态模子在手机、车端等千般视觉识别场景的落地正在加快,蛊惑者和哄骗企业也格外存眷Qwen-VL的升级迭代。
比较上代模子,Qwen2-VL的基础性能全面进步。不错读懂不同差别率和不同长宽比的图片,在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试创下大众着手的弘扬。
此外,Qwen2-VL不错联结20分钟以上长视频,扶植基于视频的问答、对话和实验创作等哄骗。同期,具备庞大的视觉智能体能力,可自主操作手机和机器东说念主,借助复杂推理和方案的能力,Qwen2-VL不错集成得手机、机器东说念主等建造,笔据视觉环境和翰墨提醒进行自动操作。
该模子还能联结图像视频中的多讲话文本,包括华文、英文,大多量欧洲讲话,日语、韩语、阿拉伯语、越南语等。
通义千问团队从六个方面评估了模子能力,包括抽象的大学题目、数学能力、文档表格多讲话翰墨图像的联结、通用场景问答、视频联结、Agent 能力。
Qwen2-VL-72B 在大部分的主义上齐达到了最优,以致跳跃了 GPT-4o 和 Claude3.5-Sonnet 等闭源模子,在文档联结方面上风尤其赫然,仅在抽象的大学题目方面与GPT-4o 存在差距。
用户可通过阿里云百真金不怕火平台调用Qwen2-VL-72B的API:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api