OpenAI、微软、Meta先后下场，海外AI终端之战在眼镜激烈展开

更新时间：2023-12-15 17:34:30作者：big100

全球AI竞争必将在明年进入新一轮高潮，各大科技巨头围绕智能眼镜展开的争夺战也将成为焦点。

随着多模态AI强势崛起，Meta、谷歌、微软、OpenAI 等公司正竞相将更强大的AI技术应用于智能眼镜和其他可穿戴设备。

据The Information最新报道，谷歌虽然已经终止了增强现实（AR）眼镜项目，但仍在为智能眼镜开发软件。上周，谷歌史上最强AI模型Gemini展示了其多模态功能，向打造一个“始终在线”的AI助手的目标迈出第一步，但这距离真正实现可能仍需要数年时间。

该媒体援引一位知情人士报道，OpenAI最近考虑将其物体识别软件GPT-4与Vision嵌入到Snapchat母公司Snap公司的Spectacles智能眼镜产品中。这可能会为其带来新的功能。

Meta将一款多模态AI语音助手嵌入了他们正在与奢侈品墨镜公司Ray-Ban合作开发的智能眼镜，该助手可以描述佩戴者看到的东西，为衬衫搭配裤子提出建议，并可以将西班牙语文本翻译成英语。

另外，近几个月亚马逊也在讨论一种新型AI设备，据悉该设备也具备类似的视觉能力。

谷歌：仍在开发智能眼镜软件

据报道，谷歌虽然早在年中就取消了智能眼镜的开发，但仍在为其开发软件，谷歌计划将软件授权给硬件制造商，类似于为三星等手机制造商开发安卓移动操作系统的方式。

谷歌上周发布视频展示了Gemini 的部分功能，比如自动识别用户表演的电影，对面前物品提出建议，以及学习新游戏的能力。

Gemini家族目前有Gemini Ultra，Gemini Pro和Gemini Nano三个成员，将向不同的客户群开放，但谷歌并未在视频中公开其所谓的高级版Gemini，视频中的用户交互也做了渲染。

尽管如此，该视频展示了谷歌打造一个“始终在线”的AI助手的愿景，它可以实时响应和理解用户正在做的事情和看到的东西。

知情人士向The Information透露，要实现这种“环境计算”仍需数年时间。作为第一步，谷歌正在重新设计Pixel手机的操作系统，嵌入小型的Gemini模型驱动Pixie AI助手，处理更加复杂和多模态的任务。据此前报道，Pixie能够根据用户拍的照片，推荐附近的商店买到相关商品。

谷歌的核心搜索技术就是预测和提供用户需要的信息，因此开发这样的AI设备非常符合谷歌的定位。谷歌十年前试水的眼镜就是一个失败案例，由于外形尴尬、实用性有限，用户并不买单。

后来，谷歌对摄像头设计进行了调整。并推动安卓手机厂商将手机摄像头打造成“第三只眼”，可以扫描环境并将图像发送到谷歌云端分析，为用户提供上下文信息，但这个想法最终缩水成图像搜索应用Google Lens。

OpenAI：与Snap强强联手

The Information援引一位知情人士报道，OpenAI最近考虑将其物体识别软件GPT-4与Vision嵌入到Snapchat母公司Snap公司的Spectacles智能眼镜产品中。这可能会为其带来新的功能。

早在今年3月份，OpenAI就展示了其AI软件根据手绘草图来构建网站的能力。或许是为了充分发挥大模型的强大功能，从那时起，OpenAI首席执行官Sam Altman就多次表示，对构建一种新的基于AI的消费类设备感兴趣。

值得注意的是，OpenAI本身没有设备团队，但可以与其他公司合作，比如Snap这样的设备制造商，或者AI芯片设计商。

另外，Altman还正在投资一家名叫“Humane”的AI设备制造商，这家公司制造带摄像头的可穿戴设备“AI brooch”，计划制造可以取代智能手机的AI设备。

微软：积极推进智能眼镜相关AI技术开发

微软正在积极推进可应用于智能眼镜和其他小型设备的AI技术的研发，这些技术或基于语音或图像识别，目的是赋能更多样化的智能硬件。

The Information认为，这些工作可能基于微软现有的 HoloLens AR头显来展开。

报道称，微软正在为 HoloLens嵌入一种AI软件，用户可以通过语音与 OpenAI技术驱动的聊天机器人讨论相机拍摄的物体。

苹果：已在硬件上做好准备

苹果在多模态AI技术上较竞争对手相对落后，但也在这一领域开展了一定工作。具体来说，

苹果已通过即将发售的Vision Pro头显，在硬件上做好应用多模态AI技术的准备。

苹果在AI算法方面落后于同行，直到今年才开始重点研究大型语言模型（LLM），此前相关研究仅停留在初步阶段。

The Information报道称，目前没有迹象表明Vision Pro会在近期具备复杂的物体识别等多模态功能。

但是，苹果这些年致力于增强Vision Pro 的计算机视觉能力，使其可以快速识别周遭环境，例如识别家具、判断环境是客厅、卧室还是厨房，苹果目前正在开发可以识别图像和视频的多模态模型。

Vision Pro的一个主要障碍是体积较大、笨重，也不太适合户外佩戴。今年早些时候，苹果据传暂停了AR眼镜的研发以专注推出头显产品。目前不清楚眼镜项目何时重新启动，但未来可能实现多模态功能。

Meta：与Ray-Bans优势互补

12月12日，Meta和奢侈品墨镜公司Ray-Bans合作的新产品——Meta Ray-Bans智能眼镜，开始推出多项AI功能：拍照、计算食物卡路里、识别植物、翻译等。从媒体和扎克伯格的试用来看，Meta Ray-Bans智能眼镜AI功能的表现似乎还不错。

早在今年9月接受媒体采访时，扎克伯格就透露过，Meta会在智能眼镜上推出多模态AI功能。所谓的多模态，即支持文本、图像、语音等多种形式的媒介输入的AI。

据报道，Meta未来还计划让眼镜能够检测人体的感官数据，进一步强化多模态能力。眼镜上搭载的高通AI芯片目前似乎表现良好，Meta未来还计划进一步对使用流程进行优化。

目前，Meta眼镜已经上架销售，售价为300美元，AI功能处于早期测试阶段，仅向部分用户开放。但值得指出的是，Meta也表示，会使用匿名数据来帮助改进眼镜的AI服务，可能会让许多关心隐私的用户感到不适。

亚马逊：计划推出多模态AI新设备

据直接了解该项目的人士向The Information透露，今年夏天，亚马逊Alexa团队计划推出一款能够运行多模态AI的新设备。

这位人士表示，该团队特别感兴趣的是，如何减少在设备上处理图像、视频和语音的AI计算和内存需求。

报道称，目前尚不清楚该项目是否获得资金支持，也不清楚该设备打算为客户解决什么问题，但它与亚马逊老产品 Echo 语音助理设备系列是分开的。

Alexa 团队多年来一直致力于新型设备的开发，其中包括一款名为 Echo Frames 的智能音频眼镜。然而，目前尚不清楚，亚马逊是否会在该眼镜的基础上开发具有视觉识别功能的设备，因为它不搭载屏幕显示器或摄像头。

本文来自华尔街见闻，欢迎下载APP查看更多