采访嘉宾 | 方磊,九章云极 DataCanvas 创始人
作者 | 刘燕
2014 年,刚成立 1 年的数据智能基础软件供应商九章云极 DataCanvas 董事长方磊曾在一封发给投资人的邮件中谈到自己的创业设想。
这个设想的核心观点是,容器技术自 2012 年出现后,给分析行业带来了很大的改变,容器化的方式统一了分析流程的运行基础。而且,与容器结合后,机器学习、深度学习等不再只是在上层增光添彩的小工具,而成为了标准化的基础设施。
如今再回头去看,令方磊感到庆幸地是,创业这 9 年来,九章云极 DataCanvas 基本还是按照最初定下的方向走在前进的路上。我们选择了一个对的赛道,并一直坚持着。
创业初心:为数据科学家打造协作平台
萌芽于硅谷车库
从清华大学电子工程系毕业后,方磊赴美攻读硕士和博士。2009 年,方磊加入微软研究院孵化的项目云计算平台,主导开发了管理全球超过 20 万台服务器的数据中心管理监控系统。
2011 年,方磊加入微软必应搜索团队,主要负责设计并开发基于下一代大数据技术的索引处理架构,以及基于机器学习的搜索语义理解。
在工作之余,方磊经常利用周末时间拉上当时一起在美国读硕士时的同窗好友尚明栋,一起研究做车库项目,想各种 idea。
2013 年前后,美国的数据科学平台创业迎来爆发期,加之,公有云的技术环境形成,促使新一代数据和人工智能(Data AI)的公司不断孵化出来….Databricks、Snowflake 等一批后来崛起为头部的公司大都是从这个时候起步的。
嗅到这样的趋势后,方磊和尚明栋觉得,应该顺势而为,做点事情。方磊认为,数据科学平台热潮之下,在数据科学领域还存在新的创业机会。而且这也是自己的职业领域,是最擅长的方向。
二人一拍即合,决定在数据科学平台领域创业。
回国创业
与国外火热的创投势头不同。当时在国内,数据科学还不是流行的概念。那会儿火遍大街小巷的创业风向还是 O2O。九章云极 DataCanvas 算是国内最早一批做自动化数据科学平台的供应商。
好在开局顺利,回国不久,九章云极 DataCanvas 就拿到了第一笔天使轮融资。凭着这笔启动资金,方磊和尚明栋又招了 5-6 个研发人员,团队决定先把公司的第一款产品研发出来。
用方磊的话说,这是一款有着很简单的初心的产品,一个帮助数据科学家更好地协作的平台。
早先在微软担任数据工程师期间,方磊发现团队的八百多名工程师都在一个叫 Aether 的系统上协作,Aether 系统上有 1 万多个模块,十几万个项目。该平台资源调配灵活,整个团队在上面执行数据分析任务,不仅可以做到井然有序,而且非常高效。
像 Aether 这样的系统,当时还主要在大厂内部使用。受到启发,方磊决定打造出一个更广泛使用的数据科学平台,帮助更多企业的数据科学家和数据工程师更好地建模分析和协作办公。
从工程师到技术创业者
转眼到了 2015 年底,方磊和团队发现,他们埋头做了 2 年的产品,其实并没有真正的付费用户。
技术人创业经常遇到的一个很大的问题是,很难意识到市场到底要什么。我们那时更多还是从程序员的视角来做事。我们创始团队的背景都是比较优秀的程序员,一路走来都比较顺利,但对市场的估计不足。像我在微软这样的大企业做研发工作,离市场很远,对市场的感觉不够。我们前两年主要在写代码,其实应该先去调研市场,方磊回忆。
对技术出身的创业者来说,「从技术到产品」很容易实现,但要实现「从产品到商品」却很难,后者要跨越的 Gap 可能要远远大过前者。因为从产品到商品并不是简单的销售问题,其成功的关键取决于对市场需求的精准洞察。
方磊发现,在中国,要想把数据和算法变成生意,就要服务头部的大客户,因为大型企业有数据,而且有数据处理的需求。只有跟真实的需求对接,才能感受到市场需求带来的动能。
于是,团队决定,在产品开发完结后,就开始专攻私有客户,找到真正能「付费的人」。
方磊把目光瞄向了金融行业,先从银行切入。因为在当时,金融行业的信息化程度要远远高于其他行业。银行也是当时国内 IT 预算最高的企业之一。
某城商行是 DataCanvas 数据科学平台的早期客户。到今天,中国前一百家银行里,超过 50 家是我们的客户了,言谈间,方磊展露自信。
以前我们走了很多弯路,来为自己的某些认知买单。从数据科学工程师到技术创业者,最开始创业时,方磊更多地是感到兴奋,因为有太多的未知的东西等着他去学习和探索。
后来迈过一些坎后,他越来越认识到,AI 创业的核心应该是一个‘Business’,而不是一场‘Move’。
构建数据智能基础软件版图
从 AI 模型搭建到让模型真正用起来
这种Business的意识后来也在公司的产品战略和路线规划上鲜明地体现出来。
方磊向 InfoQ 表示,他规划产品路线的思路是,遵循技术的发展脉络,以及技术在产业中的落地过程。
经过 9 年迭代,DataCanvas 自动化数据科学平台不断扩展为一个大而全的家族,包括 DataCanvas APS 自动机器学习平台、DataCanvas RT 实时决策中心、DataCanvas DAT 自动机器学习工具包、DingoDB 实时交互式分析数据库等,提供企业级 AI 应用所需的平台软件产品及解决方案。
AI 模型的建立是企业在进行数据分析时面临的第一个痛点问题,建造 AI 模型很难,且技术门槛高。因此,降低门槛是首要解决的问题。从早期拖拉拽的形式,到后来开源自动机器学习平台建模,这些产品核心的出发点在于降低门槛。
九章云极的 DataCanvas APS 自动机器学习平台应用了容器、微服务、Devops 等云原生技术,内置统计分析、机器学习、深度学习算法等 100 多种算法模型,通过 APS 平台,企业可以更灵活便捷地开发和部署 AI 模型。
门槛降低了以后,利用大数据做出的很多模型如何使用?也就是如何解决人工智能的推理问题。在推理运行过程中会发现,以往 BI 只是展示,不存在运行的概念。而现在有了模型、有了建模平台、推理平台后,推理运行时,就会发现缺少一些东西,比如实时数据能力不足,无法实时地运行模型。
因此,为了更好地在业务场景中应用模型,九章云极 DataCanvas 推出了 DataCanvas RT 实时决策中心这款产品,该产品将多种数据流接入实时处理并分析,将 ETL、业务模型、机器学习、人工智能、可视化扩展到实时数据分析。
整体来说,九章云极 DataCanvas 的产品矩阵,沿着一条连贯的轴线在走 —— 把数据变成模型,让模型变简单,让模型真正用起来。
开源 DAT 和 DingoDB 数据库
去年 10 月,九章云极 DataCanvas 在开源方面推出了两个大动作:宣布将面向自主建模、自动建模的 DataCanvas DAT 自动机器学习工具包和面向高并发、能够做实时分析的 DingoDB 实时交互式分析数据库开源出来。
这两款产品主要解决了两个问题 : DAT 让 AutoML 变简单,将自动机器学习建模的能力下沉;DingoDB 则能让实时数据分析变得越来越快。
DAT 的所有项目都是以开源方式来开发的。(开源地址:https://github.com/DataCanvasIO)。DAT(DataCanvas AutoML Toolkit)是一个自动机器学习工具套件包,它包含了首个 AutoML 开源架构 Hypernets 和一系列功能强大的 AutoML 开源工具,从底层的通用自动机器学习框架到用于结构化及非结构化领域端到端的自动建模工具。
DAT 包含 DeepTables、Hypernets、HyperGBM、HyperTS、 Cooka、HyperBoard 、HyperCtl。DAT 性能突破了机器学习建模过程中存在的不均衡、概念漂移、泛化能力、大规模数据 4 大难点。
DingoDB (开源地址:https://github.com/dingodb/dingo)是新一代集分析与服务于一体的实时分析数据库 HSAP(Hybrid Serving & Analytical Processing),支持高频修改和查询、实时交互式分析、实时多维分析。通过 DingoDB,数据能实时的接入、实时存储,能够提供一种简洁化的方式,让用户能够快速进行分析,并对分析的结果能够得到及时的应答。
方磊对 InfoQ 表示,之所以选择开源这两个项目的核心技术,目标是进一步降低企业应用 AI 技术的门槛,希望让开发者和生态伙伴更好地在开源项目的技术基础上迭代自己的产品。软件是基础设施,相比应用软件,开源是基础软件的‘主战场’,开源有利于让更多人使用,有利于形成事实标准。而当基础设施标准化后,成本就会下降。
云中云战略
2021 年,伴随着创业进入第 8 个年头,九章云极 DataCanvas 进行了一次重大的战略升级,正式发布了云中云(An AI Cloud in the Clouds)战略。
云中云战略是指,将自主研发的数据智能基础软件及相关 AI 能力,嵌入到千行百业的行业云、区域云、企业云、联盟云等千朵云中,形成千云之中的 AI 云。
从为企业打造数据智能基础架构到打造千朵云生态里的数据智能基础架构,这一转变背后,体现了怎样的思考?
在云化的大背景下,如果今天还去卖软件可能就落伍了,因为现在大量硬件的算力由云提供商提供,是与他们竞争还是合作?如果合作,你的云是什么位置?如果在每个云里,你在 PaaS 层,那就是‘云中云’。还有一个问题是,进入到什么样的云中去?是公有云,私有云,还是混合云,又或者是行业云,地域云,企业云 … ?这些都是不同的云,在这里面找到什么样的位置,你就具有什么样的价值。
方磊试图用「终局」的思想给出一个答案。
在中国的云计算市场,云碎片化特征突出,千行百业都有自己的云。或许 5 年后,中国
会有一千多云。在这一千多云中,会有很多供应商入驻。假设九章云极 DataCanvas 入驻了千朵云中的 30%, 那么就成为云中云。而且,在这三百朵云里,入驻的产品间可以互联互通,大家共享一个模型市场或数据市场,这里面就有很多潜在的商机。成为云中云之后,九章云极 DataCanvas 的数据智能基础架构和 AI 能力就可以实现事半功倍地随云输出,满足不同云生态的需求。
为了做到云中云,首先我们要进入一千朵云中的若干朵云里去,其次我们还要把进入的这些云连接起来,这样才有网络效应。方磊表示,九章云极 DataCanvas 目前在进入云和深入云的阶段,正在和多家银行、运营商、云厂商等合作,推进云化工作。
数字化转型下半场将是数据智能的升级
在应用落地方面,九章云极 DataCanvas 自动化数据科学平台目前重点布局金融行业,服务银行、保险、基金、证券、资管等金融机构,公司约有 50% 以上的营收来自金融行业。
此外,公司业务还逐渐扩展到了通信、交通、制造业、航空、零售等十几个行业和政府机构,帮助这些行业应用机器学习平台解决实际业务问题。
这些行业也是当下火热的数字化转型浪潮的排头兵。方磊认为,现阶段,国内企业的数字化转型已经进入下半场,尤其是在金融等先进行业。
数字化转型上半场的核心标志是信息化(包括线上化)。信息化解决的是,将数据进行数字化处理录入电脑的过程,线上化解决的是业务通过线上、线下更无缝衔接的问题。但本质上,信息化解决的都是流程自动化的问题,它并不智能。
方磊认为,数字化转型的下半场将是智能化,是决策自动化。到了下半场,企业做数字化转型,将不仅仅依赖信息管理部门,而将更多依赖人工智能技术以及数据科学技术来建立自己的护城河。而决策智能实现的底座就是数据智能基础架构。
AI 落地会通过软件基础设施升级来实现
发力「数据智能基础软件」
方磊表示,以前开发一个流程软件,需要数据库、中间件、消息队列等技术,开发 AI 应用则需要算法平台作支撑。开发一个 AI 应用,模型如果是在线运行,就需要进行实时数据处理方能运行。此外,还需要对数据进行整理和标注,AI 应用的数据标注要做好 AI 的模型的安全等工作。方磊认为,随着数据的存储、处理、实时性等需求的不断攀升,整个数据基础设施与系统架构已经来到了迭代升级的机会窗口。
因此,九章云极 DataCanvas 一直侧重在 AI 基础软件的细分赛道 —— 数据智能基础软件上做布局,并将公司定位为数据智能基础软件供应商。目前九章云极 DataCanvas 主要在算法平台和实时数据上发力。
软件将成为新的基础设施
从自动化数据科学平台供应商到数据智能基础软件供应商,九章云极 DataCanvas 希望定义标准化数据智能基础架构的未来。
数据科学(平台)采用机器学习算法,在数据上构建模型来解决不同的业务问题。以前,企业使用数据的方式很简单,如统计、展示等。如果要用算法做自动化处理,把模型在企业每个业务里用起来,各行业都将会从以前的流程自动化的阶段转向决策驱动的自动化的阶段。
在这个过程中,产生了一些新的基础软件的需求。原来流程的基础软件,很多是传统的数据库、数据仓库,而新的基础软件可能是算法平台,是 AI 落地中需要用到的数据库等。九章云极 DataCanvas 提供的就是这些基础软件,用以支撑各行业开发自动化的 AI 应用。
我们这个时代所经历的基础设施升级将不仅仅是高铁等传统的基建,和包括数据中心建设、算力建设在内的新基建,软件也将会成为一种新的基础设施。在这个过程中,会有一些基础性的软件成为标准品牌。我们本质上是在这个领域里面去竞争,方磊预测, 未来,软件基础设施会经历一场重大升级,而一千朵行业云里面的软件基础设施升级会是数据智能领域的下一个历史性机遇。
基础架构的升级将驱动 AI 落地
AI 如何实现落地,是业内普遍关注的问题。很多 AI 头部公司在 AI 算法技术上已经取得了领先优势,但普遍在技术落地、商业化变现上面临较大的挑战。
落地难,盈利难、上市难,这几年 AI 公司所遭遇的一系列困境,不禁让人们反思,算法到底是不是 AI 创业公司的护城河?AI 的商业化落地之路到底能不能走通?
2016 年,阿尔法狗打败了人类最顶尖的围棋棋手,一时间令科技圈对人工智能所展现出的巨大力量感到震动,自此也掀起了第三次 AI 浪潮。与此同时,在新一波人工智能浪潮翻滚之下,AI 创业如火如荼。
AI 有不同的商业模式,简单来说,包括卖算法,卖软件,卖硬件,或者走系统集成路线等。
在早期,很多 AI 创业公司选择卖算法,很少有人走软件这条路。
方磊认为,这是因为,当时 AI 给了大家很多想象,AI 算法是性感的,可以解决很多具体的问题,比如减少坏账,检验残次品,AI 也可以参与到很多大型的集成项目中,例如安防。很多 AI 公司采取帮助企业解决具体问题来收费的商业模式。而如果定位成一件软件公司,很容易将格局讲小了。
而卖软件与卖算法这两种商业模式存在显著的差异。
方磊表示,卖软件的核心逻辑是希望人人都可以把它用起来,或者每个公司都有能力自己把它用起来,比如通过卖软件,让企业具备搭建 AI 模型的能力,帮助企业业务开发系统,而非解决最终的具体问题。
而卖算法的逻辑是,通过算法的优势来赚钱。但这一模式存在的问题是,如果未来出现了更先进的算法,且这一更先进的算法可以很快通过论文、开源等方式传遍世界。从这个角度看,算法可能存在阶段性的壁垒,但不存在持续性的壁垒。
方磊认为,相比算法,软件的壁垒更高。因为软件的积累所形成的护城河有时间效应,短时间内很难被复制和超越。例如,微软的 Excel,这一有着 40 年积累的软件,很难有人凭空再写出一个来。也正因此,核心软件容易存在被卡脖子的风险,而算法则没有被卡脖子这一说。
相较之下,九章云极 DataCanvas 一开始就选择走了一种通过软件赋能的路线。
这种商业模式在刚开始时,会走的比较慢。但一开始 AI 可能想象太高远了,很多公司并没有走这条路。事实上,我认为这样的一条路可能是 AI 商业化方面,至少是非常理性的一条路,也是最能落地、必然可以走通的一条路,方磊表示,因为,卖软件本身的商业模式是通的。软件是一个非常成熟的商业模式,历史上,通过卖基础软件,例如卖数据库和操作系统,每次软件技术革命都实现了落地。
而,基础软件,则将会成为 AI 落地中一条主流的道路。方磊解释道,因为 AI 的需求必须通过新的应用来实现,一定需要下面有可运行的基础软件。通过数据智能基础架构,企业可以自主地开发 AI 应用。而且,随着数据智能基础架构的不断完善和升级,AI 应用会更容易落地,落地效率也会更高。
采访嘉宾介绍:
方磊,博士,九章云极 DataCanvas 公司董事长,中国人工智能学会委员,中关村高聚工程人才。原微软必应(Bing)搜索部门数据科学家,并作为早期团队成员参与开发微软云计算平台:Windows Azure。拥有近二十年大数据分析管理经验,是人工智能、大数据等前沿技术掌舵者。在算法、分布式系统、设计验证等领域发表论文 19 余篇,引用超过 700 次。受邀作为核心参编专家参与多项金融科技蓝皮书、人工智能相关标准制定工作,并在人工智能、大数据、AI 基础设施等领域中多次受聘为智库专家、理事、常务理事等职务。