Meta：训练AR眼镜的智能助手，需要用第一人称视频-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

Meta：训练AR眼镜的智能助手，需要用第一人称视频: 原创 2021-11-18

Esther｜编辑

在大多数人印象中，AR眼镜的主要特征是提供虚实融合的视觉辅助效果。实际上，与同样基于虚拟技术的VR相比，AR不仅仅能够看到真实环境，它的应用场景和VR也不同，因为它可以通过一系列智慧的功能来辅助日常生活、工作和学习。

此前Facebook就曾提出，AR眼镜将采用支持场景感知的AI算法，推算使用者在场景中需要获取的信息，以及需要执行的下一步动作，接着使用者可以用EMG腕带来进行确认。的确，穿戴式AR眼镜与智能AI助手结合是必然的结果，市面上大多数非AR的智能眼镜已经配备语音助手，相比之下AR眼镜需要的不只是语音助手，它应该可以通过摄像头来提供智能的视觉辅助，就像是科幻电影描述的那样。

近年来，计算机视觉技术已经得到长足发展，相关算法可以识别不同类型的物体，或是用于手势识别、人脸识别等场景。不过，目前计算机视觉算法面临的最大难题是，它主要是基于第三人称视角的照片和视频训练的，因此AI相当于以旁观者的角度去识别周围环境和活动，如果将它应用于家用机器人或AR眼镜，则需要识别第一人称图像，这对基于第三人称数据训练的AI并不友好。

为了解决上述问题，Meta近期开源了市面上最大的第一人称视频数据集Ego4D，视频时长累计3205小时，号称是其他同类数据集规模的20多倍。据悉，该数据集是Meta与全球13所大学合作的成果，共耗时2年时间完成。另外，Ego4D数据基于室内和室外场景，来源也分布在世界多个国家，比如：自沙特阿拉伯、东京、洛杉矶和哥伦比亚等等。

为何收集第一人称视频

收集了这么多第一人称视角的视频，它和第三人称视频有什么区别呢？简单来讲，就像是在过山车上看景色，和从地面看过山车之间的区别。

人的大脑可以轻易将第一人称和第三人称视角联系起来，而现有的AI技术不支持这样灵活的分析能力，因此如果让计算机视觉算法理解过山车上的景色，它可能并不能看懂，因为训练算法的数据一般是地面上拍摄的第三人称视频。

AI科研人员Kristen Grauman表示：为了让AI像人一样与周围的环境交互，它需要具备第一人称感知能力，像人眼一样感知实时运动、交互和多感官视觉。

而和许多视频数据不同，Ego4D视频通过头戴摄像头来拍摄，因此可以模拟第一人称视角，而且它们是一系列动态的活动，而不只是一张一张图片。因此，Ego4D的出现有望为第一人称计算机视觉打开新的场景，用于穿戴式摄像头、家用机器人助手等设备，这些设备将通过第一人称摄像头来理解周围的环境。

Ego4D数据收集参与者的职业

牛津大学教授Andrew Zisserman表示：在未来几年，Ego4D数据集有望成为计算机视觉发展的驱动力，它会帮助计算机视觉算法以第一人称理解事件和活动，分析时间背景等。

为AR眼镜公开采集数据

值得注意的是，利用图像、语音数据来分析用户周边环境，可能会带来严重的隐私争议，尤其是Meta推出的Stories拍照眼镜，很可能会被看作是移动的监控。

Ego4D视频数据包含的活动内容

Meta明确指出，这些数据是由合作学校的855人录制的，他们并非Meta员工，使用的设备则是GoPro和拍照眼镜。

而为了获得大家的信任，Meta多次公开视频数据采集的详细信息和进度，在Meta公布的网站中，你可以直接查看Ego4D包含的视频数据，这些信息都是公开的。

Meta还透露：Ego4D录制的视频来自于未经编排的日常活动，包括施工、购物、玩游戏、烘焙、撸猫/狗、社交等等。通过面部打码等方法，去除可识别的身份等信息后，大学才将这些视频数据提供给Meta。视频内容涉及环境、人手动作，以及和一百种不同的物品交互。除此之外，FRL科研人员也利用Vuzix Blade AR眼镜，在预先设定的实验室场景中，收集了额外400小时的第一人称视频数据。

科技创新依赖新工具

Meta表示：旧的工具无法开发未来的科技创新。因此，AR眼镜的智能AI系统也需要全新的训练数据。据Meta设想，Ego4D训练的AI算法将具备以下功能：

1）情景记忆：时间和事件；
2）预测：接下来的行为；
3）识别手势和物体交互：正在做什么；
4）音频和视觉分析：谁说了什么、什么时间、中心思想是什么；
5）社交互动：谁和谁在互动，人群中谁在和我说话。

（作为AI训练的基准，这些功能或应用场景也是Ego4D的一部分，Meta希望通过开源数据集和训练基准，将技术研发开放给世界各地的科研人员，鼓励更多人用Ego4D数据来训练AI系统）

Meta科研人员指出，Ego4D将具备情景记忆，以及视觉和听觉记录功能。其中，情景记忆指的是可以记住发生在特定时间和地点的事件，能够回答“钥匙放在哪了”等问题。此外，AR眼镜将教你学习打鼓、做菜、找钥匙，或是用全息图像来显示过去的记忆。比如指导IKEA家具安装，或是提示做饭步骤，如果已经放盐，系统会提醒你避免重复加盐。

而为了实现上述场景，Meta需要训练足够智能的AI系统，像人一样以第一人称理解世界，与世界互动，这种形式也被科研领域称为自我为中心的感知。

目前，Ego4D AI系统还不能达到理想的效果，因此它只是一个科研项目，并不是正在开发中的产品。不过，很可能会在未来的AR眼镜中应用这样的技术。Meta AI科研人员Kristen Grauman表示：Ego4D等AI算法有望通过AR眼镜，解锁更多潜在场景，甚至将AR与VR融合。

当被问及隐私安全问题时，Meta表示：Ego4D预计将进一步引入隐私保护措施，例如：AR眼镜在增强音频之前，可以先征求用户许可，或者限制音频采集的范围，仅识别用户与其他人的对话，或用户附近的声音。

参考：

https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes

（ END）

每天五分钟，轻松了解前沿科技。
—— 青亭网

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本内容由数艺网主动采集收录，信息来源为 “青亭网” 公开网络发布内容。第三方如需转载本内容，必须完整标注原作者信息及 “来源：数艺网”，严禁擅自篡改、删减或未标注来源转载。并附上本页链接：若您的内容不希望被数艺网收录，或认为此举侵犯了您的合法权益，敬请通过微信 ID：d-arts-cn 联系数艺网。我们将致以诚挚歉意，并第一时间为您办理下架或删除处理。

数字媒体艺术新媒体艺术科技艺术作品分享科技前沿

16310