阿里通义千问发布最强视觉联结模子! 可联结20分钟以上长视频

复合材料

专访澳大李家明：开发首个用于「微型多核核磁共振成像」定制芯片

Meta之后，Rokid也被并吞家全球眼镜巨头看上了

前两天的小米 15 发布会上，官方公布了 HyperOS 2

刚刚！拿下中国首富，颤动好意思国，狠东谈办法一鸣赢了

中天金融收歇重整，也许是收歇重整玩的最溜的案例之一

良品铺子事迹告急，上半年净利暴跌近九成

云南晦暗天气“在线” 北部和西部局地有强降水

湖北当阳关羽据说，神奇进度超乎你思象！

阿里通义千问发布最强视觉联结模子! 可联结20分钟以上长视频

发布日期：2024-08-31 12:49 点击次数：163

阿里通义千问发布最强视觉联结模子! 可联结20分钟以上长视频

快科技8月30日音信，阿里通义千问发布第二代视觉讲话模子Qwen2-VL。其中，旗舰模子Qwen2-VL-72B的API已上线阿里云百真金不怕火平台。

据了解，Qwen2-VL在多个泰斗测评中刷新了多模态模子的最好收成，在部分主义上以致超过了GPT-4o和Claude3.5-Sonnet等闭源模子。

2023年8月，通义千问开源第一代视觉讲话联结模子Qwen-VL，成为开源社区最受宽宥的多模态模子之一。

短短一年内，模子下载量冲突1000万次。当今，多模态模子在手机、车端等千般视觉识别场景的落地正在加快，蛊惑者和哄骗企业也格外存眷Qwen-VL的升级迭代。

比较上代模子，Qwen2-VL的基础性能全面进步。不错读懂不同差别率和不同长宽比的图片，在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试创下大众着手的弘扬。

此外，Qwen2-VL不错联结20分钟以上长视频，扶植基于视频的问答、对话和实验创作等哄骗。同期，具备庞大的视觉智能体能力，可自主操作手机和机器东说念主，借助复杂推理和方案的能力，Qwen2-VL不错集成得手机、机器东说念主等建造，笔据视觉环境和翰墨提醒进行自动操作。

该模子还能联结图像视频中的多讲话文本，包括华文、英文，大多量欧洲讲话，日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模子能力，包括抽象的大学题目、数学能力、文档表格多讲话翰墨图像的联结、通用场景问答、视频联结、Agent 能力。

Qwen2-VL-72B 在大部分的主义上齐达到了最优，以致跳跃了 GPT-4o 和 Claude3.5-Sonnet 等闭源模子，在文档联结方面上风尤其赫然，仅在抽象的大学题目方面与GPT-4o 存在差距。

用户可通过阿里云百真金不怕火平台调用Qwen2-VL-72B的API：https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api