英伟达推出 LocateAnything,主打 AI 高速、高精度检测对象
2026-05-31 10:00:44
  • 0
  • 0
  • 0

英伟达 5 月 29 日发布博文,宣布携手香港理工大学、南京大学等,推出 LocateAnything 模型,主打高速、高精度检测对象。

该模型可以从照片或截图中找出指定对象,并用检测框标出位置,重点服务机器人感知、电脑自动操作等需要快速定位的场景。

NVIDIA 在介绍中强调,机器人和 AI Agent(智能体)仅能「看见」还不够,还必须足够快地确认目标位置。LocateAnything 围绕检测框预测重新设计,让视觉语言检测更适合即时交互任务。

团队还构建 LocateAnything-Data,包含 12M 独立图像、138M 语言查询和 785M 边界框。数据覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位和点定位,显著扩展训练场景。(来源:IT 之家)

 
最新文章
相关阅读