专访星环科技朱珺辰：大数据和云原生技术融合，中国已经做到事实上的国际领先

导读：7日-10日，2021世界人工智能大会在上海举行，星环科技也将以大会战略合作伙伴的身份与会。在大数据时代，中国软件行业发展的怎么样了？在基础软件领域，我们又有哪些“硬气”的资本？日前，观察者网就此话题对星环科技联合创始人朱珺辰进行了专访。

【采访/观察者网周毅编辑/周远方】

“在大数据和云原生技术融合等方面，中国已经做到了事实上的国际领先，并能引领行业发展”，星环科技联合创始人朱珺辰表示，以星环科技提供的基础软件服务为基础，在金融、交通、政务、能源和安全等诸多领域，中国已经实现了国产软件的自创、自建、自用、自有。

这不仅摆脱了对国外公司的依赖，将核心软件掌握在自己手里；也验证了国内自研软件生态和自研硬件生态的结合道路，是切实可行的。

与此同时，朱珺辰先生也向观察者网指出了业内存在的部分客观现状和问题，例如人才紧缺、互联网企业对人才的“虹吸效应”过于强劲、大数据服务产能供给不足等。

星环科技是一家致力于开发大数据基础软件的“独角兽”企业，也是上海抗疫功臣“随申码”的底层数据库系统及高并发数据服务提供商。在2021世界人工智能大会上，星环科技以大会战略合作伙伴的身份亮相。

专访星环科技朱珺辰：大数据和云原生技术融合，中国已经做到事实上的国际领先

图源星环科技

在大数据时代，中国软件行业发展得怎么样了？在基础软件领域，我们又有哪些“硬气”的资本？观察者网专访整理如下。

观察者网：能不能简单介绍一下星环科技的技术水平和应用场景？在哪些领域我们达到了国际水平，实现了关键性的技术突破和技术创新？

朱珺辰：我们现在主要专注于基础软件领域。星环科技最早从大数据相关产品开始发力，后面逐渐覆盖到人工智能和数据库等领域。目前，我们拥有非常庞大的客户群体。

我们聚焦分析型数据库场景，并为其提供配套支持。在容器和云原生的融合等方面，我们已经达到了国际领先水平。星环科技是最早通过TPC-DS基准测试的，也是最早把大数据和AI服务，以容器云的方式、云原生的技术，打造成大数据云产品的。

观察者网：国内其实也涌现了大批同行业企业。他们的发展方向大致是怎样的？大家存在哪些不同？

朱珺辰：在大数据平台原创性上，大家还是存在着很大差距。

星环科技的大数据平台是基于分布式技术实现的。星环科技旗下数据库产品，基于分布式架构，得到了统一的规划设计和产品实现。但有很多同行，它们的数据库是在传统的MPP数据库架构基础之上，进行优化和演进。在这一点上，大家还是存在差距的。

以数据库为例，我们引入了多模数据库的架构，并通过容器技术，实现了统一的资源管理调度、统一的存储管理、统一的计算引擎，以及统一的SQL编译引擎。各种产品数据，诸如图计算、搜索、批处理和交互分析，都可以基于上面的模态而存在，从而促成技术实现。

整体而言，一方面，这条技术路径可以让我们的产品形成一个整体，以多模数据库的形态，去应对不同的业务场景；另外一方面，我们的项目研发也会更加高效。以模块的形式，很多环节可以复用，并不需要重复“造轮子”。由此来看，大家在技术架构和演进框架上，差别还是比较大的。

观察者网：国外竞品的发展情况如何？

朱珺辰：放眼国外，在大数据领域，诸如Cloudera这类国外公司，发展都比较早。不过它们相对而言更侧重开源的控制权。Cloudera今年开始修改它的收费策略，要求所有的版本都需要付费。像国外的这种“免费午餐”，今后越来越难“吃”到了。

在我们喊出“大数据和云原生技术融合”，并产生了一些相关业务价值之后，Cloudera也沿着这条路线展开了引进和开发。按照其说法，他们在2019年开始尝试有关技术，并于今年上半年取得了初步成果。因此在技术方向上，我认为星环科技发挥了引领作用。

国外公有云的发展相对来讲是比较迅速的，其接受程度也更高。一些国外公司的发展模态是基于公有云，构建其配套的数据分析产品和相关工具栈。这是国外竞品的基本情况。

观察者网：国内外的发展状态，用“差距”来形容更恰当，还是用“差异”来形容更确切？

朱珺辰：我觉得在大数据领域，“差距”是谈不上的，国内的技术在某些领域更为领先。

在具体的技术实现上，国内外会存在不同。但在发展路径上，国内外的差异一定程度上在慢慢缩小。就大的发展方向而言，大数据技术是市场以及客户需求在推动的，因此在认知方面，大家的差异会不断趋同。况且在大数据领域，中国确实起到了一定的引领作用。

观察者网：之前看到咱们的公开介绍资料，星环科技基本实现了软件技术的自主重构。围绕这一块，能不能讲解一下背后的技术和产业意义？

朱珺辰：星环科技选择并坚持了自主路线。不过，这并不是说我们从一开始就是“为了自主”，从而标新立异地去推进这份事业。在很早之前，我们就在软件技术领域有所积累和耕耘。从大环境上来说，彼时还没有中美之间所谓的贸易战，而国家信创（信息技术应用创新产业）也还没有到达今天的高度。

公司创立之初，遇到的问题是客户的需求不能被开源产品及其组件满足。当时我们也曾尝试着加入开源社区并做出贡献，但实际上，开源社区是被国外公司把控的，不是说我们想把技术往哪个方向引导，就能如愿的，这是其中一个方面。

第二个方面，相对来讲，中国早些年对软件价值的重视不足。在市场环境不理想和知识产权保护不足的大环境下，旧有模式其实是不合适的。

实践证明，在中国，企业难以通过之前的开发模式存活下来，并长远发展。

因此，我们当时考虑到两个方面：其一是开源路线本身，它不能满足客户和市场需求；其二是中国的市场和竞争状况，决定了我们不会采取“开源+社区”的方式。

从技术方面来看，我们很早之前就发现，Hadoop架构设计初衷，就是服务于海量数据的批处理计算。在交互分析和数仓等方面，它是没有办法同MPP架构相较量的。它不仅不能完全运作，在性能上也存在明显差距。

结合我们后来迈入银行业的感受。银行是要保障数据最终一致性的，所以银行在数据加工过程中的批量更新和删除等方面存在需求。但开源架构并不能提供有效支持。

在当时的环境下，基于开源模式无法满足客户需求等一系列原因，我们开始做自主研发，沿着业务应用，向底层技术探索。相比于选择“开源”，自研会更早地遇到问题、发现问题并解决问题。

中国市场的数据量远超美国，这是人口基数决定的。特别是银行业、金融业，它们的存量业务系统非常庞大。以我们的从业经历来说，一些正常规模的银行客户有上万张表，其批处理作业规模非常大。

美国总的人口规模决定了其数据量级低于中国，包括银行交易的流水、清单，以及交易平台衍生的其他记录。我们早期涉及的公安和运营商业务，它们的数据量也远超美国。

因此，在服务客户和市场推广过程中，我们会根据实际需要，进行相关的自主研发。

观察者网：在提供基础面支撑性服务的时候，星环科技有哪些发现？我们的国家近些年来有哪些可喜的变化？

朱珺辰：各方面都能看到积极的变化，同时大环境也在向好。比如国家对基础软件的重视，以及对相关数据处理价值的重视。从资本维度上说，利好政策还包括科创板的设立。这一系列举措，都对我们有比较大的帮助。

观察者网：刚才我们多次聊到了大数据。人工智能+大数据+云的结合，也是现在的趋势。它们三者是什么样的关系，三者结合的技术导向，会对行业提出哪些新要求？能不能联系到星环科技的实际业务谈一谈？

朱珺辰：结合业务实际，我们的理解是：大数据、人工智能和云，它们是一个相辅相成的关系，

很多时候，大数据促进了人工智能等技术的发展。因为不少技术进一步发展的前提是：数据要先聚集起来。以前数据都是分散地、孤立地存在于企业的各个业务系统之中的。现在数据集中了，那么资源就集中了。对于大型集团客户而言，各部门、各分支机构的数据分析需求长期存在，如今又面对数据和资源的大集中，自然而然地就延伸出对企业内部私有云、数据云的需求。

这个话题的另一个部分，是人工智能本身的发展。两个方面：

其一，在结构化数据领域，早在AlphaGo这个热点引爆之前，我们就已经在做相关研究。以前的很多工作，诸如统计和数据挖掘算法，它们其实都会受限于计算力。很多时候，它们是以抽样的方式，进行相关建模分析的。在这种情况下，整个模型的精度，以及相关建模的效果，其实是要打折扣的。

后来伴随着大数据分布式计算技术的发展，算力问题得到解决。依托此背景，面向传统机器学习，可以通过分布式技术，包括对算法进行分布式实现，从而达到基于全量数据训练的效果。从这个角度来说，整个模型的效果会大幅提升。

其二，对数据的处理。人工智能技术大大拓宽了数据处理的类别，以前更多是针对结构化数据，展开相关的建模分析；现在则可以通过人工智能技术，引入非结构化数据，包括图片、视频、文本，还有音频等。

在以前，很多非结构化的数据，甚至都不会被储存下来；如今的技术发展，已让它们可以被存下来、被处理，并发挥价值。

从这个角度上来看，有分布式算力，又有非结构化数据储存处理。自然而然的，市场就存在需求；对应的，技术会不断进化，以满足需求。

因此总的来说，云、人工智能和大数据技术的结合，是比较紧密的。

观察者网：那在技术落地这块呢？星环科技是如何推动大数据和应用生态的具体结合的？面向社会，星环科技准备如何推动大数据的普惠化工作？

朱珺辰：2013年，我们公司刚刚成立。在市场推进和业务拓展的时候，我们比较注重生态的构建。我们一直专注于底层基础软件的开发，这和其他一些大数据开发公司是不同的。它们重点关注业务应用和大数据服务，我们则尤其重视团结开发者和合作伙伴，并建立生态。

在各行各业，我们总共有几百个合作伙伴。我们还通过在线课堂、高校联合教学，培养了上万开发者。我们从公司成立之初就非常重视生态建设。对我们的合作伙伴而言，我们确实通过技术创新，帮助他们攻克了以前的老、大、难问题，并在产业内形成了良性循环。

谈及大数据普惠化，我觉得现在需求是很旺盛的。一方面，国家现在倡导企业做数字化转型；一方面，企业管理者也越来越重视大数据的价值。但我觉得，大数据普惠化目前受限于几个方面：

其一，虽然大家的意识、需求是很充足的，但就各个企业而言，大家目前所处的数据化、数字化生命周期并不一致。例如在金融行业，有些企业的信息化程度早已很高了；但在传统制造行业，数字化程度是远远不够的。

其二，产能问题。尽管现在有不少相关企业在从事大数据业务，但是在我看来，产能、供应依然不足。甚至在人才招聘方面，都存在不少困难。

不过也有一些可喜的变化。大到我们的国家，小至企业同行，大家都重视大数据领域。各方也在尝试制定相关标准，能够在产业和产业链上更好地、高效地进行分工，努力推动大数据产业的进一步发展。

专访星环科技朱珺辰：大数据和云原生技术融合，中国已经做到事实上的国际领先

7月8日，星环科技正式发布“魔方底座”，助力企业数字化、智能化转型

观察者网：刚才我们聊到了人才问题。能不能结合星环科技自身的感受，谈谈现在的人才环境？包括说我们现在的发展情况、国内外的一些不同等等。

朱珺辰：我们公司在发展过程中，一直坚持以培养自有人才为主的模式。结合中国高校现状，相对来讲，人才问题存在于这样几个方面：

第一个方面，受现有专业和培养方式限制，国内培养的更多是偏应用型人才。从事基础软件相关领域的人才，其数量本来就不是特别多。

第二个方面，基础研发领域也是被低估的，所以人才可能会向TO C的互联网企业聚拢，也加剧了基础研发领域人才的紧缺。

中国的TO C互联网公司前几年发展非常迅猛，在人才薪资和待遇方面，开出非常优渥的条件。这对我们整个行业的人才储备以及相关结构，造成了一定冲击。

互联网企业的技术，更多是为业务服务的。很多时候是这样一种状态：什么技术能应对它当前的问题，就采用这种技术。互联网企业招入了一批很强、很厉害的人才，但他们更多是在研究怎么把有关技术应用起来、维护起来，让公司业务发展不出问题。

所以，从我个人的角度上来看，某些公司把大量人才招进去，并没有发挥他们真正的、最大的潜力。

第三个方面，以数据库为例，中国高校的教研体系，大部分时候还是比较基础的。真正比较了解行业技术的学生，诸如跟随导师从事有深度的项目和科研的这样一批人，他们确实很优秀，但是数量上就更少了——甚至可以说非常少。

在我看来，相对于美国，中国在基础软件人才方面还是存在不足。星环科技很多时候，会在优秀的学校中招聘有潜力学生，纳入企业并展开相关培养。

观察者网：系统地培养和招聘人才，其实已经有搭建生态的意味在里面了。星环科技对生态圈的看法是什么样的？是否建立了一种以行业大生态圈+以星环为核心的“小生态圈”双循环、双驱动的结构？

朱珺辰：接着我们刚才聊的。就星环科技自有的生态圈而言，除了招聘学生并吸收进来，此外还有两个方面。其一，我们会和高校展开合作，比如联合授课、联合培养；其二，我们同高校中数据库等领域的教授和资深教师也建立了联系。他们会到我们公司中展开一些授课教学。这是在高校联动、人才培养维度上的生态建设。

这一思路延伸下来，便是对开发者群体的支持。基础软件离不开相关的开发者，我们面向客户，以至于我们的合作伙伴、社会上的开发人员，提供相关的培训、培养。对于那些基于我们平台进行开发的各行业合作伙伴，我们首先会帮助他们培养开发人员；其次在产品方面，我们也会帮助他们形成整套解决方案。合作伙伴向客户去做最终交付，我们则为他们提供内在的基础软件核心。

从客户端来看，我们注重于产品开发的生态建设。举例来说，有些客户在某一块业务上面，可能会存在几十个业务应用，上面聚集了10多个开发厂商。星环科技会投入相关资源，支撑他们使用我们的平台进行开发，并做得更好。我们会帮助客户，实现他们的业务价值。

在整个大生态方面，除了与星环平台上的的开发者深度合作，我们还同提供芯片和操作系统的厂商展开合作，比如华为、腾讯。无论是鲲鹏和麒麟等国产芯片，还是一些国产的操作系统，我们都会有相关适配。国内的一些数据库产品和工具软件（比如报表工具等），大家也是有互相认证和适配的。

观察者网：咱们刚才聊到了鲲鹏，现在公众对于鲲鹏和鲲鹏生态的框架还是蛮感兴趣的。能不能给我们介绍一下星环科技和鲲鹏的合作情况？鲲鹏生态在技术和产业环境上，提供了哪些便利和赋能？

朱珺辰：我们与鲲鹏的对接，很早之前就开始了。在国产、信创的背景下，围绕同鲲鹏的合作，包括其CPU、基于鲲鹏的泰山服务器等等，双方在很早之前就进行了调研、沟通，并开展了一系列的适配和对接。

TDH平台（星环科技大数据平台Transwarp Data Hub）基于鲲鹏BoostKit全栈优化后，在TPC-DS基准测试集中，1TB数据量时性能较传统方案提升约28%，5TB数据量时性能较传统方案提升约38%。同时，在其他主流测试中均有大幅提升：Esrally测试中多个search测试项性能平均提升30%，YCSB测试中在100%随机读性能提升22%，YahooStreaming Benchmark测试中过滤场景性能提升55%，跳动窗口性能提升25%。在星环和鲲鹏合作之后，我们已经有项目落地。例如上海徐汇的大数据中心，基础就是鲲鹏CPU，往上则是星环科技的数据云产品。

观察者网：在鲲鹏生态之中，结合咱们的工作经历，有哪些比较直观的感受？

朱珺辰：在我们与鲲鹏的合作过程中，徐汇大数据中心是第一次在政务环境上实现项目落地。在项目上线之初，不少人对于这套新适配和新产品，还是保持观望的。但实际上，整套系统真正应用下来以后，一直到现在都是非常稳定的。

这也证明，我们当下国产的整套基础软件+基础硬件架构，是经得起市场和用户需求考验的。

观察者网：从效果反馈来看，合作结果是让人满意的。当初为什么选择鲲鹏作为开发基础？

朱珺辰：当初合作时，我们希望跟华为联手，打造一个从基础硬件到基础软件的、有竞争力的、国产化的整体解决方案。双方也认为，各自都可能是自己所在行业内最好的一家公司。所以我们选择强强联合，希望将这样一个解决方案打造出来，能够供应国内客户和国内市场，并解决问题。

观察者网：那么市场环境呢？现在中国庞大的内需市场，包括我们一直提倡的“双循环”格局格局，会对我们整个星环的生态，以及昆鹏生态带来哪些利好或者支持？

朱珺辰：国家在新基建和信创方面，提供的市场空间是很大的。我们从事基础软件行业，不是说“为了替代（国外）而替代”，而是说我们希望能够从企业的实际需要出发，从信息技术的发展出发，用国产软件和硬件，去关注和满足市场上不断涌现的新需求。

观察者网：对于海外市场，有过相关思考或者规划吗？

朱珺辰：目前来看，星环科技还是以国内市场为主。我们也有海外市场布局，在新加坡等东南亚地区，我们在进行市场开拓。此外，还有一些客户及其项目在推进过程中，比如在中东地区，在伊拉克我们最近就有一个油田项目在跟进。

观察者网：在出海过程中，有什么感受？比如说环境的不同，额外的压力等等？

朱珺辰：这个问题我们的确碰到过。除了东南亚地区，我们更多时候是在北美地区展开市场工作。早期我们还在美国设立了办事处，并在加拿大设立了子公司。我们希望能够在北美市场有所突破，进而去影响欧洲市场。

但我们在之前的市场开拓过程中，发现了比较多的问题，而这些问题很多时候并不是技术方面的。起初，我们一直以为欧美市场是非常市场化、非常开放的，但实际上我们最后发现，国外对于基础软件领域，是非常倾向于进行国家和地方保护的。