• 11月06日 星期三

新加坡国立大学计算机教授:元宇宙的数据管理

新加坡国立大学计算机教授:元宇宙的数据管理

2009年,一群计算机研究学者共同写了一篇文章,强调了共同空间环境下的一些数据库挑战[1]。在这样的环境中,物理空间和数字空间在一个 "宇宙 "中共存,应用程序可以操纵这两个空间内和之间的数据流。13年过去了,共同空间研究的进展一直(非常)缓慢。然而,这可能即将改变。首先,"共同空间 "的流行语现在是 "元宇宙"。元宇宙仍处于发展的早期阶段,仍在寻找自己的定位。第二,在可能支持元宇宙研究的技术方面取得了巨大进展——GPU和FPGA等硬件加速器可以为元宇宙的高性能处理提供所需的马力;新型可编程网络架构和5G网络上的物联网(6G即将到来)可以提供远程访问和两个空间之间的数据交换所需的更低延迟和更快下载速度;沉浸式技术(如增强现实和虚拟现实)的进展可以实现实时、沉浸式和互动的终端用户体验。第三,人工智能/ML可以通过智能化身/数字孪生、理解自然语言以促进人机互动以及从数据中学习和汲取洞察力来释放元宇宙的潜力。同时,区块链技术可以保证安全、可靠和受保护的交易。第四,包括Meta、微软和谷歌在内的科技行业都有大量的投资和利益。据估计,元宇宙是一个8000亿美元的市场机会[2]。

在元宇宙中,我们可以设计创新的应用,提供物理和虚拟空间都无法提供的体验和机会。一些应用的例子包括网上和实体购物者之间的合作关系、捕捉实体部队运动的强化数字模型、基于位置的游戏和社交网络。显然,元宇宙将包括在物理和数字空间之间流动的大量数据,以确保现实和虚拟世界的同步。鉴于这些应用是由数据驱动的,而且可能产生的数据规模巨大,我们相信数据库社区可以为推动这一领域的发展提供很多帮助。

一个用例:元宇宙中的市场

今天的购物者可能会到现场的商场购物,也可能会在网上购买产品。在未来以元宇宙为导向的市场中,一个实体商场可以被 "扩展 "为一个商场(虚拟),其中有许多比实体商场更多的商店。购物者(在线或现场)可以通过沉浸式技术享受更丰富的购物体验:他们可以立即被 "传送 "到不同的商店;他们可以浏览和处理带有增强产品信息的三维产品模型;他们可以很容易地找到销售类似产品的商店(如果他们在现场,则在同一实体商场内),并可能比较它们的价格/质量;他们的化身(在试穿尺寸中的迷你数字模型)可以很容易找到与他们完全匹配的衬衫/裙子,等等。虚拟商场需要与实体商场的实时信息保持同步,例如,实体商场正在进行的现场节目,正在进行的幸运抽奖,产品供应的更新等。此外,网络和实体购物者可以相互交流。 社交网络中的 "朋友"(直接或通过共同的朋友)如果碰巧在同一个商店/商场(例如,一个在物理空间,另一个在虚拟空间),可以进行交流并从折扣中获益(例如,对于 "买二送一 "的优惠,每个人都可以买一个,同时分担费用)或相互分享他们对产品的意见。

我们观察到,元宇宙从多个不同的数据源和传感设备中产生了大量的数据。此外,大量的数据可能要从一个空间流向另一个空间,尤其是从物理空间流向虚拟空间,以确保对环境的实时跟踪。元宇宙还将产生大量的事件,这些事件可能在物理和虚拟世界中触发进一步的行动/事件。最后,大量的用户将与元宇宙互动,他们的行动对应于元宇宙的数据/查询。每个用户设备基本上都为高度分布式环境贡献了一个分布式节点。此外,这样的市场为零售分析师提供了丰富的社会和行为数据,以及购物者的产品偏好。显然,我们的社区一直在处理广泛的相关研究问题——传感器网络、数据流、分布式数据库、更新密集型操作、搜索和数据检索。因此,我们的经验将使我们能够为这个新的多学科领域做出贡献,并规划未来的研究方向。在这里,我们将强调为元宇宙设计数据库引擎的一些挑战(以市场作为我们的运行实例);感兴趣的读者可以参考[1]以了解更多的挑战和问题(例如,异构数据源的数据融合、分布式架构、缓冲区管理、数据一致性和数据隐私)。

存储管理器

对于元宇宙,我们有不同格式的数据。在市场上,产品与结构化数据相关联(例如,商品名称、成本、可用数量等)。此外,产品可能带有图片/视频、文字描述和3D模型。虽然分开管理不同类型的数据是有意义的(即结构化数据可以使用关系型数据库管理系统来存储,而多媒体数据则由多媒体数据库来管理),但来自物理空间和虚拟空间的数据是否应该被不同地处理,却不太清楚。例如,现场购物者的位置是否应该与虚拟购物者不同地存储?实体商场/商店的产品与虚拟商店的产品如何处理?一方面,我们可以简单地对数据进行标记,以反映其所属的空间。这提供了一个统一的元宇宙视图,简化了数据管理和处理。

另一方面,将两个空间的数据分开组织可能是有益的,例如,在只需要单一空间的数据的情况下,性能可能会得到改善。还有可能的是,混合策略是首选。例如,结构化的数据可以存储在一起,而位置信息可以单独管理(这样,针对现场购物者的促销活动可以传播给他们,而不会向在线购物者发送垃圾邮件)。研究最近的存储设计,如行或列存储和自组织存储如何被利用于元宇宙应用也是很有趣的。我们可以预期不同的存储引擎会被用于不同的数据类型。

另一个密切相关的问题是如何最好地融合来自这些不同异质来源的数据。虽然这与传统异构数据库中的数据整合类似,但元宇宙管理需要对数据源进行更复杂的逻辑推断。最近关于多语言数据存储/管理的工作在这里提供了一个很好的起点[3]。

查询处理和优化

我们可以预期查询处理和优化在元宇宙中会变得更加复杂。首先,可能需要引入新的运算符。例如,正在考虑装修餐厅的Jane可能会走进一个家具展示厅(实体或在线)。她可能会喜欢所展示的餐厅家具套装(包括餐桌、椅子、吊灯、墙框和图片等)。然而,她也想了解一下,如果其中一些物品被调换,餐厅会是什么样子。此外,她不想超出自己的预算。她可以对展厅进行一次虚拟参观,并发出一个探索式的查询,在她的预算范围内返回新的陈列组合。她可以通过固定她想要的项目和不断探索其他项目来反复完善结果。在这里,需要设计一个对一组物体的偏好查询的变体。

新加坡国立大学计算机教授:元宇宙的数据管理

图1. 亚马逊已经提供了一个 "简单的 "虚拟展厅,允许用户根据自己的喜好进行 "混合搭配"。然而,该引擎是静态的,产品只能手动交换,即用户选择要交换和替换的物品。右图显示了从左图中替换的5件物品。 未来基于元宇宙的展厅将提供更好的购物者体验。

另一个例子是,由于性能的原因,查询处理/优化算法必须是情境感知的。必须要考虑几种意识。该算法可能需要有空间意识。例如,从物理空间的A点到B点的导航查询可能需要提供详细的地图和方向;对于虚拟用户来说,当购物者在虚拟环境中快速行走时,仅仅提供沿途的商店列表就足够了。

该算法必须是设备感知的。根据所使用的设备(如手机、个人电脑、3DVR头盔),可以生成一个适合该设备的可行的最佳计划。然而,另一个概念是能见度感知的概念。根据用户的视角,只有可见的物体才需要被访问。此外,离视点较远的物体可以用较粗的表示法来近似,而较近的物体可能需要更高的分辨率来提高用户的沉浸式体验。所有这些情境感知的场景都需要开发一些新形式的近似运算符。

从商场/商店业主的角度来看,除了传统的分析(在每个空间),试图提供关于商场访客、捕获率、接近流量、路径分析、销售转换等方面的洞察力,可能需要整合现场和在线访客的发现。这两种访客是否以同样的方式受到建议的影响?我们能否将一个空间的有效措施调整和应用到另一个空间? 我们怎样才能更有效地利用在线/现场购物者的实际位置?我们如何管理同时在现场和网上的用户?

索引

如前所述,元宇宙提供了广泛的数据多样性。为了管理这一点,我们可能需要新颖的索引方法来支持三维物体(表现为由数万个多边形组成的三维模型)的高效相似性搜索。这一点变得越来越重要,因为元宇宙不仅要管理复杂的三维数据对象,而且虚拟用户也要与这些对象进行交互和处理。

另一个没有得到很多关注的方面是虚拟环境的视觉保真度。特别是,一些背景对象可能被遮挡,而另一些对象可能不需要以高分辨率进行流式传输。一个需要探索的方向是设计能够支持粗粒度和细粒度分辨率层次的数据结构。一个例子是HDoV-树[4],它在叶子层捕获细粒度的对象,但在内部层以较粗的形式表示对象的集合。通过这种方式,它可以根据物体的可见度进行调整以提供视觉保真度和性能。

然而,这种结构是以每个层次的固定颗粒度静态获得的,需要很高的计算开销。在元宇宙中,我们可能需要一个更稳健和动态的结构。例如,可能会建立一个HDoV树,以高分辨率捕捉所有层次的模型,但动态地将模型转化为适当的分辨率,以便实时传输。此外,为了迎合信息的频繁更新,我们需要更灵活的方案,以便能够处理更新密集型应用和频繁变化的场景。

结论

技术的进步(以及新冠疫情的推动)已经改变了我们的生活方式。我们在物理空间中做的许多事情(如购物、教育等)也可以在数字世界中复制。我们相信,这两个空间的共存,不是作为独立的实体,而是作为一个综合的宇宙,将无缝地提高用户在元宇宙的沉浸式体验。元宇宙仍处于起步阶段。为了使其成功,来自不同学科的研究人员——多媒体、可视化、网络、硬件和数据库必须走到一起。这是一个数据库社区与其他研究社区合作解决这个多学科挑战的好机会。在讨论中,我们主要集中在设计一个数据库引擎来管理实时处理的数据。有了元宇宙,我们也可以穿越时空回到过去。我们可能会在一个历史遗迹中体验到过去发生的事件。也许,到2030年,我们将作为终端用户体验元宇宙的世界,并被带到 "未来"!

作者:Kian-Lee Tan是新加坡国立大学(NUS)计算机学院的Tan Sri Runme Shaw计算机科学高级教授。他于1994年在新加坡国立大学获得计算机科学博士学位。他的研究兴趣包括高级数据库系统的查询处理和优化、数据库性能和数据分析。Kian-Lee曾担任VLDB期刊的联合EIC(2009-2015),以及VLDB捐赠委员会(2013-2017)和PVLDB咨询委员会(2014-2017)成员。Kian-Lee还担任过VLDB'2010和ICDE'2011的TPC联合主席。Kian-Lee是2013年IEEE技术成就奖获得者,以表彰他对高级查询处理的贡献。

参考文献:

[1] B.C. Ooi, K.L. Tan, A. K. H. Tung: 感知物理,穿越虚拟,管理共同(现有)空间:一个数据库的视角。SIGMOD Rec. 38(3): 5-10 (2009). (请留意即将在arXiv发布的更新版本)。

[2] https://www.bloomberg.com/professional/blog/metaverse-may-be-800-billion-market-next-tech-platform/.

[3] D. Glake, F. Kiehn, M. Schmidt, F. Panse, N. Ritter: arXiv:2204.05779 (2022)。

[4] L. Shou, Z. Huang, K.L Tan: HDoV-tree: 结构、存储、速度。ICDE 2003: 557-568

上一篇新闻

身价疯涨,超越法学生!新加坡计算机专业毕业生5年起薪增长四成

下一篇新闻

在“智慧国计划”下,新加坡计算机工程专业或成下一个“香饽饽”

评论

订阅每日新闻

订阅每日新闻以免错过最新最热门的新加坡新闻。