苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
2025-08-24 19:18:26
  • 0
  • 0
  • 0

8 月 23 日消息,科技媒体 9to5Mac 近日发布博文,报道称苹果研究团队开源 SlowFast-LLaVA-1.5 长视频多模态大语言模型,在 1B、3B、7B 参数规模下,均刷新 LongVideoBench、MLVU 等 SOTA 基准纪录。

苹果公司首先研究推出了 SlowFast-LLaVA 开源模型,最大的亮点是创新双流(two-stream)设置,其中「慢流」选取少量高分辨率帧捕捉场景细节,「快流」选取更多低分辨率帧追踪运动变化。

测试显示,该模型在长视频基准 LongVideoBench、MLVU 上均取得新纪录,而且 1B 版本也能领先竞争对手。同时,它在知识问答、数学推理、OCR 等图像相关任务上表现出色,实现视频与图像的通用理解能力。

该项目完全基于公开数据集训练,方便学术与产业复现,并已在 GitHub 与 Hugging Face 开源。(来源:IT 之家)

 
最新文章
相关阅读