AI保姆靠谱吗？它将如何理解真实世界？

不知道大家有没有遇到过这样的事情，就是在要出门的时候，突然忘记了钥匙在哪儿了。或者当你需要某一件物品的时候，却突然找不到这件物品到底在哪儿了，可能在找这件物品的时候，就需要花费很久的时间，甚至还会影响到你的情绪。如果家里人在的话，你可以喊一声妈或者媳妇，让她们帮忙找一下。如果旁边没人的话，你可能也会想过，如果有一个叮当猫或者能记录自己生活的人工智能就好了。

而现在，这项技术出现了。

AI保姆靠谱吗？它将如何理解真实世界？

就在上个月，Facebook 的首席研究科学家 Kristen Grauman 曾说过这样的一段话：“在未来，我们将通过可穿戴设备可以在某些的时间段帮助我们大脑来提供信息和获取记忆，这些设备将在未来帮助到我们方方面面。”

可能大家不理解 Kristen Grauman 在说的是什么，实际上目前 Facebook 正在做一项研究，这项研究可以用来分析我们的活动，帮助我们找到一些忘记的物品，所以说，如果以后我们再忘记钥匙丢在哪儿的话， AR 眼镜就会告诉我们钥匙在哪儿。

AI保姆靠谱吗？它将如何理解真实世界？

这种技术刚好也跟前不久 Facebook 与雷朋合作推出的眼镜对应上了，不过当时推出的眼镜只有蓝牙和拍照功能，并没有 AR 基本功能，所以只能叫做拍照眼镜。目前 Facebook（现更名 Meta）已经与 13 所大学的实验室合作，总共招募了 750 人来做这项研究，目前他们在两年内总共拍摄超过 2200 小时的第一人称的视频。这些参与者大多居住于英国、意大利、印度、日本、沙特阿拉伯、新加坡、美国、卢旺达和哥伦比亚，拍摄的主要内容是一些日常活动的视频。他们使用了各种可穿戴设备，而拍摄的设备比较随意，包括 GoPro 相机、Vuzix Blade 智能眼镜和 ZShades 视频录制太阳镜。

AI保姆靠谱吗？它将如何理解真实世界？

此举的目的主要是为了训练人工智能系统去理解人们拍摄的照片和视频，当然这方面的主要工作室为了培训 AI 系统，让他们更好地去理解视频当中的内容，从而让 AI 能够帮助人们记住重要信息。

1）AI 是如何帮助人类理解世界的？

AI保姆靠谱吗？它将如何理解真实世界？

AR 识别与处理作为 Facebook 其中的项目之一，其本身理解非常的简单，就是构建一个系统的框架来对视频识别的内容进行数据的评估，并且为了帮助 AI 更好的去了解第一人称的视频，AI 人工智能还会从观众的第三人称视角拍摄的图像中学习。比如当你记录自己踢足球或坐过山车时，诸如动作模糊和不同角度的镜头等 AI 自我学习就会发挥作用。

并且在上个月的时间段里， Texas 大学和 Facebook AI 研究所做了一篇《Anticipative Video Transformer》的论文，里面就提出了一种让 AR 去理解真实世界的 AVT 摄像淮安预测架构。

简单来说，就是通过 AI 之前观察到的视频预测未来的行为。让 AI 训练模型来预测视频当中的下一个动作，同时学习其视频帧的特征。

AI保姆靠谱吗？它将如何理解真实世界？

论文当中提到，观察和预测人类行为将是 AI 未来发展所必须经过的一条路。其实现在很多技术都在应用 AI 来辅助人类，比如一辆自动驾驶汽车停在停车标志前，它需要预测行人是否会穿过马路，而这个决定的预判需要去对复杂的视觉信号进行建模，从而去判断这个行为的动作、行走速度和方向。这需要大量的计算。

另外，一台完整的 AR 设备还需要去观察用户的活动以及情绪，例如行走的速度和方向，比如当用户做菜或者装家具的时候，AI 需要预测用户的行为，并提供响应的帮助。但人类可以做的事情实在是太多了，如果真的想要全部让 AI 去做预判，一方面需要大量的计算量，另一方面也需要更多的基准来进行设置，而这一点更像是互联网初期的时候。

在《Anticipative Video Transformer》这篇论文里面提到的预测的难度是要远远大于识别和理解的，这就好比当你丢了一把钥匙，普通的 AI 会提醒你钥匙在哪儿，而预测行为不仅会告诉你钥匙在哪儿，还会告诉你如何用钥匙开门，以及如何做菜。

AI保姆靠谱吗？它将如何理解真实世界？

论文里主要介绍了一种替代的视频建模架构 Predictive Video Transformer（AVT）。它用预测架构来取代基于“聚合”的时间建模。与周期性模型类似，AVT 可以无限期预测未来，它利用了流行的 transformer 架构，每个输入帧只关注它前面的帧。从而训练模型来共同预测下一个动作，同时学习预测与真实未来特征及其中间动作标签相匹配的未来特征。

AVT 的 attention 还做了如何在两个先前观察到的帧传播的示例（上图）。目前 AVT 不仅能够处理特定的帧，而且能够在一个统一的框架中处理帧内的空间特征。

AI保姆靠谱吗？它将如何理解真实世界？

当 AI 进行视频训练时，模型会自发地学习与此对象相对应的空间特征。

2）未来人类科技保姆概念会成为现实吗？

其实目前有关 AI 的应用已经很多了，但大多都是针对于企业端的产品，比如三一将AR运用到了三一桩机灯塔工厂，美国空军正在用 AR 训练士兵等等，针对于消费级别的设备很少，但这也至少说明了一点，技术目前还是有的，只是时机还并没有成熟。

但未来人类科技保姆概念确实是有一定的说法的，比如上述技术一旦真正实现以后，或许人们真的就可以像很多科幻电影一样，把更多的精力用在真正的事情上面，从而让 AI 来处理这种琐事。

关于用 AI 来训练 AR 或许真的是未来科技发展的毕竟之路，苹果的 CEO 库克曾经表达过类似的观点，“AI 将会解决或代劳许多繁琐而重复的工作，从而大幅释放用户的时间，以便人们可以做更多自己喜欢的事情，我非常相信增强现实（AR），它可以增强并真正放大技术与人的价值，而不是围住或关闭现实世界。”。

3）AR 消费级眼镜的未来还有多远？

AI保姆靠谱吗？它将如何理解真实世界？

不管是雷朋和 Facebook 共同推出的眼镜，还是之前国内小米推出的小米智能眼镜探索版，或者是苹果明年将要上线的 AR 眼镜，无不都在证明着资本的流动正在超我们向往的方向上进行，但可惜的是，未来三年以内所有有关 AR 或者 AI 级别的眼镜都将成为概念级的，也就是说这些眼镜的出现只是为了证明技术的进步，实际上并不会像上文所提到的技术一样，可以让成为人类的“第二大脑”来起到帮助的作用。

并且一旦 AR 消费级眼镜出现以后，还会涉及到更多的问题，比如用户个人隐私和保密问题、数据储存问题、算力问题等等。如何更好的保护用户的隐私、以及如何证明企业可以做到不侵犯用户的隐私、数据储存在云端还是存储卡里，如何让存储卡可以储存更多的数据量、如何在肖肖的眼镜里面放置更多的计算单元，这些都会成为大大小小的问题，而且这里面的每一项拿出来都会让企业的研究人员忙上很久。

不过关于 AR 消费级眼镜我们仍然可以进行期待。AR 真正消费级的眼镜不是一家媒体侃侃而谈就可以做到的，他所需要的是整个行业不断的研究与发展，需要供应链不断努力不断进步才能够真正实现。