苹果新 AI 模型长视频理解夺冠，小至 1B 版本也领先对手-科技先锋的专栏

苹果新 AI 模型长视频理解夺冠，小至 1B 版本也领先对手

2025-08-24 19:18:26栏目：默认栏目 IP属地：IP未知

8 月 23 日消息，科技媒体 9to5Mac 近日发布博文，报道称苹果研究团队开源 SlowFast-LLaVA-1.5 长视频多模态大语言模型，在 1B、3B、7B 参数规模下，均刷新 LongVideoBench、MLVU 等 SOTA 基准纪录。

苹果公司首先研究推出了 SlowFast-LLaVA 开源模型，最大的亮点是创新双流（two-stream）设置，其中「慢流」选取少量高分辨率帧捕捉场景细节，「快流」选取更多低分辨率帧追踪运动变化。

测试显示，该模型在长视频基准 LongVideoBench、MLVU 上均取得新纪录，而且 1B 版本也能领先竞争对手。同时，它在知识问答、数学推理、OCR 等图像相关任务上表现出色，实现视频与图像的通用理解能力。

该项目完全基于公开数据集训练，方便学术与产业复现，并已在 GitHub 与 Hugging Face 开源。（来源：IT 之家）