• 11月06日 星期三

专访星环科技朱珺辰:大数据和云原生技术融合,中国已经做到事实上的国际领先

导读:7日-10日,2021世界人工智能大会在上海举行,星环科技也将以大会战略合作伙伴的身份与会。在大数据时代,中国软件行业发展的怎么样了?在基础软件领域,我们又有哪些“硬气”的资本?日前,观察者网就此话题对星环科技联合创始人朱珺辰进行了专访。

【采访/观察者网 周毅 编辑/周远方】

“在大数据和云原生技术融合等方面,中国已经做到了事实上的国际领先,并能引领行业发展”,星环科技联合创始人朱珺辰表示,以星环科技提供的基础软件服务为基础,在金融、交通、政务、能源和安全等诸多领域,中国已经实现了国产软件的自创、自建、自用、自有。

这不仅摆脱了对国外公司的依赖,将核心软件掌握在自己手里;也验证了国内自研软件生态和自研硬件生态的结合道路,是切实可行的。

与此同时,朱珺辰先生也向观察者网指出了业内存在的部分客观现状和问题,例如人才紧缺、互联网企业对人才的“虹吸效应”过于强劲、大数据服务产能供给不足等。

星环科技是一家致力于开发大数据基础软件的“独角兽”企业,也是上海抗疫功臣“随申码”的底层数据库系统及高并发数据服务提供商。在2021世界人工智能大会上,星环科技以大会战略合作伙伴的身份亮相。

专访星环科技朱珺辰:大数据和云原生技术融合,中国已经做到事实上的国际领先

图源星环科技

在大数据时代,中国软件行业发展得怎么样了?在基础软件领域,我们又有哪些“硬气”的资本?观察者网专访整理如下。

观察者网:能不能简单介绍一下星环科技的技术水平和应用场景?在哪些领域我们达到了国际水平,实现了关键性的技术突破和技术创新?

朱珺辰:我们现在主要专注于基础软件领域。星环科技最早从大数据相关产品开始发力,后面逐渐覆盖到人工智能和数据库等领域。目前,我们拥有非常庞大的客户群体。

我们聚焦分析型数据库场景,并为其提供配套支持。在容器和云原生的融合等方面,我们已经达到了国际领先水平。星环科技是最早通过TPC-DS基准测试的,也是最早把大数据和AI服务,以容器云的方式、云原生的技术,打造成大数据云产品的。

观察者网:国内其实也涌现了大批同行业企业。他们的发展方向大致是怎样的?大家存在哪些不同?

朱珺辰:在大数据平台原创性上,大家还是存在着很大差距。

星环科技的大数据平台是基于分布式技术实现的。星环科技旗下数据库产品,基于分布式架构,得到了统一的规划设计和产品实现。但有很多同行,它们的数据库是在传统的MPP数据库架构基础之上,进行优化和演进。在这一点上,大家还是存在差距的。

以数据库为例,我们引入了多模数据库的架构,并通过容器技术,实现了统一的资源管理调度、统一的存储管理、统一的计算引擎,以及统一的SQL编译引擎。各种产品数据,诸如图计算、搜索、批处理和交互分析,都可以基于上面的模态而存在,从而促成技术实现。

整体而言,一方面,这条技术路径可以让我们的产品形成一个整体,以多模数据库的形态,去应对不同的业务场景;另外一方面,我们的项目研发也会更加高效。以模块的形式,很多环节可以复用,并不需要重复“造轮子”。由此来看,大家在技术架构和演进框架上,差别还是比较大的。

观察者网:国外竞品的发展情况如何?

朱珺辰:放眼国外,在大数据领域,诸如Cloudera这类国外公司,发展都比较早 。不过它们相对而言更侧重开源的控制权。Cloudera今年开始修改它的收费策略,要求所有的版本都需要付费。像国外的这种“免费午餐”,今后越来越难“吃”到了。

在我们喊出“大数据和云原生技术融合”,并产生了一些相关业务价值之后,Cloudera也沿着这条路线展开了引进和开发。按照其说法,他们在2019年开始尝试有关技术,并于今年上半年取得了初步成果。因此在技术方向上,我认为星环科技发挥了引领作用。

国外公有云的发展相对来讲是比较迅速的,其接受程度也更高。一些国外公司的发展模态是基于公有云,构建其配套的数据分析产品和相关工具栈。这是国外竞品的基本情况。

观察者网:国内外的发展状态,用“差距”来形容更恰当,还是用“差异”来形容更确切?

朱珺辰:我觉得在大数据领域,“差距”是谈不上的,国内的技术在某些领域更为领先。

在具体的技术实现上,国内外会存在不同。但在发展路径上,国内外的差异一定程度上在慢慢缩小。就大的发展方向而言,大数据技术是市场以及客户需求在推动的,因此在认知方面,大家的差异会不断趋同。况且在大数据领域,中国确实起到了一定的引领作用。

观察者网:之前看到咱们的公开介绍资料,星环科技基本实现了软件技术的自主重构。围绕这一块,能不能讲解一下背后的技术和产业意义?

朱珺辰:星环科技选择并坚持了自主路线。不过,这并不是说我们从一开始就是“为了自主”,从而标新立异地去推进这份事业。在很早之前,我们就在软件技术领域有所积累和耕耘。从大环境上来说,彼时还没有中美之间所谓的贸易战,而国家信创(信息技术应用创新产业)也还没有到达今天的高度。

公司创立之初,遇到的问题是客户的需求不能被开源产品及其组件满足。当时我们也曾尝试着加入开源社区并做出贡献,但实际上,开源社区是被国外公司把控的,不是说我们想把技术往哪个方向引导,就能如愿的,这是其中一个方面。

第二个方面,相对来讲,中国早些年对软件价值的重视不足。在市场环境不理想和知识产权保护不足的大环境下,旧有模式其实是不合适的。

实践证明,在中国,企业难以通过之前的开发模式存活下来,并长远发展。

因此,我们当时考虑到两个方面:其一是开源路线本身,它不能满足客户和市场需求;其二是中国的市场和竞争状况,决定了我们不会采取“开源+社区”的方式。

从技术方面来看,我们很早之前就发现,Hadoop架构设计初衷,就是服务于海量数据的批处理计算。在交互分析和数仓等方面,它是没有办法同MPP架构相较量的。它不仅不能完全运作,在性能上也存在明显差距。

结合我们后来迈入银行业的感受。银行是要保障数据最终一致性的,所以银行在数据加工过程中的批量更新和删除等方面存在需求。但开源架构并不能提供有效支持。

在当时的环境下,基于开源模式无法满足客户需求等一系列原因,我们开始做自主研发,沿着业务应用,向底层技术探索。相比于选择“开源”,自研会更早地遇到问题、发现问题并解决问题。

中国市场的数据量远超美国,这是人口基数决定的。特别是银行业、金融业,它们的存量业务系统非常庞大。以我们的从业经历来说,一些正常规模的银行客户有上万张表,其批处理作业规模非常大。

美国总的人口规模决定了其数据量级低于中国,包括银行交易的流水、清单,以及交易平台衍生的其他记录。我们早期涉及的公安和运营商业务,它们的数据量也远超美国。

因此,在服务客户和市场推广过程中,我们会根据实际需要,进行相关的自主研发。

观察者网:在提供基础面支撑性服务的时候,星环科技有哪些发现?我们的国家近些年来有哪些可喜的变化?

朱珺辰:各方面都能看到积极的变化,同时大环境也在向好。比如国家对基础软件的重视,以及对相关数据处理价值的重视。从资本维度上说,利好政策还包括科创板的设立。这一系列举措,都对我们有比较大的帮助。

观察者网:刚才我们多次聊到了大数据。人工智能+大数据+云的结合,也是现在的趋势。它们三者是什么样的关系,三者结合的技术导向,会对行业提出哪些新要求?能不能联系到星环科技的实际业务谈一谈?

朱珺辰:结合业务实际,我们的理解是:大数据、人工智能和云,它们是一个相辅相成的关系,

很多时候,大数据促进了人工智能等技术的发展。因为不少技术进一步发展的前提是:数据要先聚集起来。以前数据都是分散地、孤立地存在于企业的各个业务系统之中的。现在数据集中了,那么资源就集中了。对于大型集团客户而言,各部门、各分支机构的数据分析需求长期存在,如今又面对数据和资源的大集中,自然而然地就延伸出对企业内部私有云、数据云的需求。

这个话题的另一个部分,是人工智能本身的发展。两个方面:

其一,在结构化数据领域,早在AlphaGo这个热点引爆之前,我们就已经在做相关研究。以前的很多工作,诸如统计和数据挖掘算法,它们其实都会受限于计算力。很多时候,它们是以抽样的方式,进行相关建模分析的。在这种情况下,整个模型的精度,以及相关建模的效果,其实是要打折扣的。

后来伴随着大数据分布式计算技术的发展,算力问题得到解决。依托此背景,面向传统机器学习,可以通过分布式技术,包括对算法进行分布式实现,从而达到基于全量数据训练的效果。从这个角度来说,整个模型的效果会大幅提升。

其二,对数据的处理。人工智能技术大大拓宽了数据处理的类别,以前更多是针对结构化数据,展开相关的建模分析;现在则可以通过人工智能技术,引入非结构化数据,包括图片、视频、文本,还有音频等。

在以前,很多非结构化的数据,甚至都不会被储存下来;如今的技术发展,已让它们可以被存下来、被处理,并发挥价值。

从这个角度上来看,有分布式算力,又有非结构化数据储存处理。自然而然的,市场就存在需求;对应的,技术会不断进化,以满足需求。

因此总的来说,云、人工智能和大数据技术的结合,是比较紧密的。

观察者网:那在技术落地这块呢?星环科技是如何推动大数据和应用生态的具体结合的?面向社会,星环科技准备如何推动大数据的普惠化工作?

朱珺辰:2013年,我们公司刚刚成立。在市场推进和业务拓展的时候,我们比较注重生态的构建。我们一直专注于底层基础软件的开发,这和其他一些大数据开发公司是不同的。它们重点关注业务应用和大数据服务,我们则尤其重视团结开发者和合作伙伴,并建立生态。

在各行各业,我们总共有几百个合作伙伴。我们还通过在线课堂、高校联合教学,培养了上万开发者。我们从公司成立之初就非常重视生态建设。对我们的合作伙伴而言,我们确实通过技术创新,帮助他们攻克了以前的老、大、难问题,并在产业内形成了良性循环。

谈及大数据普惠化,我觉得现在需求是很旺盛的。一方面,国家现在倡导企业做数字化转型;一方面,企业管理者也越来越重视大数据的价值。但我觉得,大数据普惠化目前受限于几个方面:

其一,虽然大家的意识、需求是很充足的,但就各个企业而言,大家目前所处的数据化、数字化生命周期并不一致。例如在金融行业,有些企业的信息化程度早已很高了;但在传统制造行业,数字化程度是远远不够的。

其二,产能问题。尽管现在有不少相关企业在从事大数据业务,但是在我看来,产能、供应依然不足。甚至在人才招聘方面,都存在不少困难。

不过也有一些可喜的变化。大到我们的国家,小至企业同行,大家都重视大数据领域。各方也在尝试制定相关标准,能够在产业和产业链上更好地、高效地进行分工,努力推动大数据产业的进一步发展。

专访星环科技朱珺辰:大数据和云原生技术融合,中国已经做到事实上的国际领先

7月8日,星环科技正式发布“魔方底座”,助力企业数字化、智能化转型

观察者网:刚才我们聊到了人才问题。能不能结合星环科技自身的感受,谈谈现在的人才环境?包括说我们现在的发展情况、国内外的一些不同等等。

朱珺辰:我们公司在发展过程中,一直坚持以培养自有人才为主的模式。结合中国高校现状,相对来讲,人才问题存在于这样几个方面:

第一个方面,受现有专业和培养方式限制,国内培养的更多是偏应用型人才。从事基础软件相关领域的人才,其数量本来就不是特别多。

第二个方面,基础研发领域也是被低估的,所以人才可能会向TO C的互联网企业聚拢,也加剧了基础研发领域人才的紧缺。

中国的TO C互联网公司前几年发展非常迅猛,在人才薪资和待遇方面,开出非常优渥的条件。这对我们整个行业的人才储备以及相关结构,造成了一定冲击。

互联网企业的技术,更多是为业务服务的。很多时候是这样一种状态:什么技术能应对它当前的问题,就采用这种技术。互联网企业招入了一批很强、很厉害的人才,但他们更多是在研究怎么把有关技术应用起来、维护起来,让公司业务发展不出问题。

所以,从我个人的角度上来看,某些公司把大量人才招进去,并没有发挥他们真正的、最大的潜力。

第三个方面,以数据库为例,中国高校的教研体系,大部分时候还是比较基础的。真正比较了解行业技术的学生,诸如跟随导师从事有深度的项目和科研的这样一批人,他们确实很优秀,但是数量上就更少了——甚至可以说非常少。

在我看来,相对于美国,中国在基础软件人才方面还是存在不足。星环科技很多时候,会在优秀的学校中招聘有潜力学生,纳入企业并展开相关培养。

观察者网:系统地培养和招聘人才,其实已经有搭建生态的意味在里面了。星环科技对生态圈的看法是什么样的?是否建立了一种以行业大生态圈+以星环为核心的“小生态圈”双循环、双驱动的结构?

朱珺辰:接着我们刚才聊的。就星环科技自有的生态圈而言,除了招聘学生并吸收进来,此外还有两个方面。其一,我们会和高校展开合作,比如联合授课、联合培养;其二,我们同高校中数据库等领域的教授和资深教师也建立了联系。他们会到我们公司中展开一些授课教学。这是在高校联动、人才培养维度上的生态建设。

这一思路延伸下来,便是对开发者群体的支持。基础软件离不开相关的开发者,我们面向客户,以至于我们的合作伙伴、社会上的开发人员,提供相关的培训、培养。对于那些基于我们平台进行开发的各行业合作伙伴,我们首先会帮助他们培养开发人员;其次在产品方面,我们也会帮助他们形成整套解决方案。合作伙伴向客户去做最终交付,我们则为他们提供内在的基础软件核心。

从客户端来看,我们注重于产品开发的生态建设。举例来说,有些客户在某一块业务上面,可能会存在几十个业务应用,上面聚集了10多个开发厂商。星环科技会投入相关资源,支撑他们使用我们的平台进行开发,并做得更好。我们会帮助客户,实现他们的业务价值。

在整个大生态方面,除了与星环平台上的的开发者深度合作,我们还同提供芯片和操作系统的厂商展开合作,比如华为、腾讯。无论是鲲鹏和麒麟等国产芯片,还是一些国产的操作系统,我们都会有相关适配。国内的一些数据库产品和工具软件(比如报表工具等),大家也是有互相认证和适配的。

观察者网:咱们刚才聊到了鲲鹏,现在公众对于鲲鹏和鲲鹏生态的框架还是蛮感兴趣的。能不能给我们介绍一下星环科技和鲲鹏的合作情况?鲲鹏生态在技术和产业环境上,提供了哪些便利和赋能?

朱珺辰:我们与鲲鹏的对接,很早之前就开始了。在国产、信创的背景下,围绕同鲲鹏的合作,包括其CPU、基于鲲鹏的泰山服务器等等,双方在很早之前就进行了调研、沟通,并开展了一系列的适配和对接。

TDH平台(星环科技大数据平台Transwarp Data Hub)基于鲲鹏BoostKit全栈优化后,在TPC-DS基准测试集中,1TB数据量时性能较传统方案提升约28%,5TB数据量时性能较传统方案提升约38%。同时,在其他主流测试中均有大幅提升:Esrally测试中多个search测试项性能平均提升30%,YCSB测试中在100%随机读性能提升22%,YahooStreaming Benchmark测试中过滤场景性能提升55%,跳动窗口性能提升25%。在星环和鲲鹏合作之后,我们已经有项目落地。例如上海徐汇的大数据中心,基础就是鲲鹏CPU,往上则是星环科技的数据云产品。

观察者网:在鲲鹏生态之中,结合咱们的工作经历,有哪些比较直观的感受?

朱珺辰:在我们与鲲鹏的合作过程中,徐汇大数据中心是第一次在政务环境上实现项目落地。在项目上线之初,不少人对于这套新适配和新产品,还是保持观望的。但实际上,整套系统真正应用下来以后,一直到现在都是非常稳定的。

这也证明,我们当下国产的整套基础软件+基础硬件架构,是经得起市场和用户需求考验的。

观察者网:从效果反馈来看,合作结果是让人满意的。当初为什么选择鲲鹏作为开发基础?

朱珺辰:当初合作时,我们希望跟华为联手,打造一个从基础硬件到基础软件的、有竞争力的、国产化的整体解决方案。双方也认为,各自都可能是自己所在行业内最好的一家公司。所以我们选择强强联合,希望将这样一个解决方案打造出来,能够供应国内客户和国内市场,并解决问题。

观察者网:那么市场环境呢?现在中国庞大的内需市场,包括我们一直提倡的“双循环”格局格局,会对我们整个星环的生态,以及昆鹏生态带来哪些利好或者支持?

朱珺辰:国家在新基建和信创方面,提供的市场空间是很大的。我们从事基础软件行业,不是说“为了替代(国外)而替代”,而是说我们希望能够从企业的实际需要出发,从信息技术的发展出发,用国产软件和硬件,去关注和满足市场上不断涌现的新需求。

观察者网:对于海外市场,有过相关思考或者规划吗?

朱珺辰:目前来看,星环科技还是以国内市场为主。我们也有海外市场布局,在新加坡等东南亚地区,我们在进行市场开拓。此外,还有一些客户及其项目在推进过程中,比如在中东地区,在伊拉克我们最近就有一个油田项目在跟进。

观察者网:在出海过程中,有什么感受?比如说环境的不同,额外的压力等等?

朱珺辰:这个问题我们的确碰到过。除了东南亚地区,我们更多时候是在北美地区展开市场工作。早期我们还在美国设立了办事处,并在加拿大设立了子公司。我们希望能够在北美市场有所突破,进而去影响欧洲市场。

但我们在之前的市场开拓过程中,发现了比较多的问题,而这些问题很多时候并不是技术方面的。起初,我们一直以为欧美市场是非常市场化、非常开放的,但实际上我们最后发现,国外对于基础软件领域,是非常倾向于进行国家和地方保护的。

这也是为什么我们国内,这几年不断地在提核心软件这个概念,在提“核心技术和核心软件要掌握在自己手里”的原因。

相对来讲,我们国内反而是比较“开放”的。

观察者网:最后能不能畅谈一下公司后面的想法和计划?比如在生态圈方面,下一步有哪些规划和侧重?

朱珺辰:我们希望可以形成一个分工、协作的氛围和相关生态,希望大家能够明确各自的主攻方向,把各自的分工界面和相关标准规范沟通清楚,让生态朝着更加良性的方向发展。我们同时也希望继续同华为鲲鹏生态展开合作。

一家企业很难从上到下,把所有东西都“干掉”。而一家企业贯穿全产业链,其实也不利于生态的发展。

本文系观察者网独家稿件,未经授权,不得转载。

上一篇新闻

世界首台常温量子计算机启用!无需绝对零度,主核竟然「镶钻」

下一篇新闻

8个项目,351.5亿元!厦门领跑全省!六区招商签约情况都来了

评论

订阅每日新闻

订阅每日新闻以免错过最新最热门的新加坡新闻。