苹果公司最近在GitHub上开源了一款名为FastVLM的视觉语言模型,提供了0.5B、1.5B和7B三个版本。这款模型基于苹果自研的MLX框架开发,并借助LLaVA代码库进行训练,专门针对Apple Silicon设备的本地AI运算进行了优化。技术文档显示,FastVLM在高分辨率图像处理方面表现出色,能够在保持精度的同时实现近实时响应,而且所需的计算资源比同类模型更少。 FastVLM的核心是一个名为FastViTHD的混合视觉编码器,该编码器专门为高分辨率图像的高效处理而设计。苹果团队表示,与同类模型相比,FastViTHD的处理速度提升了3.2倍,而体积仅为3.6分之一。在性能方面,FastVLM的最小版本比LLaVA-OneVision-0.5B模型的首词元响应速度提升了85倍,视觉编码器体积缩小了3.4倍。此外,搭配Qwen2-7B大语言模型的版本在性能上超越了近期研究成果Cambrian-1-8B,首词元响应速度提升了7.9倍。 苹果技术团队强调,FastVLM在延迟、模型大小和准确性之间实现了最优平衡。这一技术的应用场景可能包括苹果正在研发的智能眼镜等穿戴设备。有消息称,苹果计划在2027年推出对标meta Ray-Bans的AI眼镜,并可能同期发布搭载摄像头的AirPods设备。FastVLM的本地化处理能力将支持这些设备在不依赖云端的情况下实现实时视觉交互。此外,MLX框架允许开发者在苹果设备本地训练和运行模型,兼容主流AI开发语言,进一步表明苹果正在构建完整的端侧AI技术生态。
话题追踪

四川省近期出台了《四川省脑机接口及人机交互产业攻坚突破行动计划(2025-2030年)》,由经济和信息化厅等8个部门联合发布。该计划旨在推动脑机接口和人机交互技术领域的创新发展,重点支持人机协同外骨骼、触觉反馈手套、AR智能眼镜等产品的规模...
界面新闻 | 2025-05-14 10:27

前段时间,小雷写了一篇关于魅族Starv Air2的开箱体验,没想到感兴趣的读者还挺多,其中有一个评论就提到:“戴多久会感到不适?”。这个问题我替大家问了负责开箱的同事,他的回答是几个小时没问题,不过考虑到他日常就是“眼镜侠”,这个回答或许...
雷科技 | 2025-05-13 21:00

感谢IT之家网友 HH_KK、風見暉一 的线索投递! IT之家 5 月 9 日消息,彭博社马克・古尔曼今日报道称,苹果正在开发一款专为智能眼镜设计的新型芯片,目标在 2026 至 2027 年实...
IT之家 | 2025-05-12 10:56

财联社5月9日讯(编辑 夏军雄)据媒体援引消息人士报道,苹果公司正在为其未来设备开发新的专用芯片,这些设备包括首款智能眼镜、更强大的Mac电脑以及人工智能(AI)服务器。知情人士透露,苹果在为智能眼镜开发芯片方面已取得进展。这一动向显示,苹...
财联社 | 2025-05-10 08:36
本信息来自互联网,不代表清普智库立场,如若转载,请注明出处:http://www.51hwe.com/news/48718/