一家杭州企业,用13年解一道AI世界难题
空间智能的数据难题,或许能在这家企业身上看到机会。
作者| 皮爷
出品|产业家
2018年,一个名为InteriorNet的数据集在海外突然爆火。
爆火源于这是少有由可交互三维数据构成的数据集,也是全球最大室内场景认知深度学习数据集。为什么强调可交互三维数据。因为,在这个数据集之前,已经有不少知名数据集存在,比如李飞飞团队的ImageNet。但这些数据集多数为静态或不可交互数据。可交互三维数据的海量获取,在当时和今日都是一道世界难题。
彼时的硅谷科技企业们,正开始探索通过合成数据的方式去训练智能体,InteriorNet数据集的出现,令他们眼前一亮。不过令人惊讶的是,这个数据集竟出自一家中国企业——群核科技。
第一个递出橄榄枝的是某硅谷万亿级硬件巨头,他们发送的邮件甚至一度被群核科技的科学家认定为是诈骗邮件,毕竟谁能相信硅谷巨头会找到这样一家杭州的“小公司”呢。团队几经验证才发现这确实是一封来自大洋彼岸的合作邮件。而且此后几年中,硅谷巨头们及一批具身智能企业纷纷找到了群核,可交互三维数据这道题,似乎在这里找到了突破口。
说到这里,为什么破题的是这家公司?这得说回到创始人黄晓煌身上。
在美国伊利诺伊大学厄巴纳-香槟分校读博士时,黄晓煌的专业是用GPU来做高性能计算。当时的导师给他的课题是:当未来算力提升1000倍,要研究的方向是什么?当时的选项有两个,一是模拟人脑的运行,二是模拟物理世界的运行。黄晓煌选择的是后者,今天被热议的空间智能便是对物理世界的模拟。
在过去13年的时间里,群核科技一边坚持这条技术路线,一边“赚钱养活公司”,跑出了一个群核式的增长飞轮:基于GPU集群,构建一个物理世界模拟器,通过仿真渲染、生产制造等过程应用到各类三维空间的过程中,沉淀了空间认知能力和大量物理正确的三维数据,又把这些空间智能技术再反哺给酷家乐等产品中。
群核的飞轮里,资本寒潮或是技术热潮似乎影响都并不大,它只是在等一个时代的机会。
一 、硬科技创业的第一要义: 先活下来
一家硬科技公司,想要在中国创业土壤生存下去,是艰难的。尤其是诞生于模式创业盛行期的技术企业,在赛道不清晰且不足以说服资本市场的早期,他们不得不用技术之锤去尝试各种各样不同场景。
这一点,黄晓煌体验真切。
群核科技这家公司成立已有13个年头,但外界对它的定位却像盲人摸象,一群人认为它是彻头彻尾的家装公司,但另一群人认为它是一家科技公司。背后的原因是群核科技走的并不是一条典型的技术创业路径:从成立到到成长期都有一个清晰的模式驱动,群核是一家慢慢成长起来的公司,它有自己的技术坚持,也在创造市场需要的产品,重要的是在技术奇点到来之前,它没让自己倒下。
“在中国创业没办法太阳春白雪,要脚踏实地跟着时代走。”黄晓煌在最近一次分享中提到。
2011年,在NVIDIA负责CUDA开发的黄晓煌正式决定回国创业,创业方向是在博士期间一直钻研的课题方向:用高性能计算模拟物理世界。但在当时如何同时降低算力成本和提升速度是个难题,于是他有了一个基于云端搭建GPU服务器的想法,基于云端高性能计算,实现仿真渲染。与他一起创业的,还有参加过「友盟」创业团队的同窗好友陈航、朱皓。
但那时投资圈热门的概念是移动互联网、O2O,群核做的项目根本融不到钱。投资人根本不理解GPU 通用计算,更不要提物理仿真。“你们说可以做云端极速渲染,但这在美国都没有实现,你们凭什么在中国做?”当黄晓煌在硅谷融资时,无一例外都遭到了拒绝。
面对理想和现实的冲突,黄晓煌、陈航、朱皓开始思考,一个能长期走下去的创业故事或者说技术曲线应该是怎样的?在三个人的共同讨论下,先活下去成为中心思想。为了活下来,他们几经周折找到了一个“愿意为技术买单,也有付费能力”的场景——家装设计。首先从创业模型来看,这个市场有足够的容量。在2011年年底,包括自如等互联网租房平台相继成立,家装O2O的概念正盛,资本市场更容易“buy in”。从技术模型来看,家装行业的信息壁垒较高,其对应的信息化、智能化水平也相对较低,正好给了新技术一个机会。
基于这个场景,群核推出第一款产品酷家乐,在那个出一张渲染图要几小时的年代,酷家乐因为能做到10秒快速渲染被称为设计神器,并成为这个行业首选的设计软件。但资本和市场的催化下,2014-2016年那几年,家装市场涌现出不少设计软件。它们都在虎视眈眈盯着酷家乐的市场份额。
逐渐加剧的市场竞争迫使黄晓煌和创始团队思考将群核的技术优势往更难被复制的场景延伸:即工业4.0——打通从设计渲染到后端生产的全链路。 生产制造跟设计渲染有明显不同,设计环节要求高效和逼真,生产环节需要的是精准。从技术视角来看看,设计环节还只是停留在数字世界里的模拟,但生产环节需要融合物理仿真、数字孪生等专业技术,通过系统把每一件商品自动拆解成一个个零件的数据,并无缝精准对接到工厂的生产线上。
在这些家装渲染和工业4.0的摸索发展中,基于酷家乐这款产品的产业实践,群核科技悄悄沉淀出一个如今看来最为核心的宝贵资产——基于空间智能的可交互三维数据和空间认知理解能力。一个统计数据是,截至目前,群核科技拥有超过3.2亿3D模型,平均每月活跃访问者达7780万,在全球200多个国家地区落地。
商业化发展的同时,黄晓煌从来没忘记过那把做世界模拟的技术锤子,群核的梦想可不只是一个酷家乐。在群核还不到200人规模时,它就已经建立第一个Research Lab,这在国内还比较少见。一位早期的员工回忆,“那时候觉得这部门很神秘,跟其他业务之间没有太多互动,但每年都有在发一些重要论文,所以我们都说它是一个‘发论文的部门’”。一些业务部门的同事有时私下讨论:发论文,能干吗?这个问题,在本文开头得到了很好的回答。发论文,帮群核等到了那个“Big Moment”。
二 、一家典型的空间智能企业
中国创业公司,大多有个标签,比如中国版XXX之类,但是群核科技一直没有。不是不想找,而是无奈没找到,过去这么多年,因为它在家居场景获得巨大的成功,因此一直被误认为是一家“家装公司”。
对黄晓煌来说,他的技术愿景远不止于此,如何让机器拥有类人的空间认知理解能力,并以此探索出更多的空间交互能力,才是他一直以来的梦想。
机会总会留给坚持而有准备的人。这个机会伴随着“李飞飞“这个名字出现了。
今年温哥华的TED大会上,人工智能领军人李飞飞提出空间智能概念。李飞飞所研究的空间智能,包含几大方向:3D 世界生成、空间理解和推理,以及行动等。这与群核一直以来的技术方向和技术愿景不谋而合。
首先,3D 世界生成技术通过创建高度逼真且遵循物理规律的3D 虚拟空间,为研究空间智能提供了理想的试验场。
作为一款物理世界模拟器,群核围绕着GPU渲染能力逐渐形成了一个强大的3D渲染引擎——群核启真渲染引擎,支持用户在云端实时生成包含几何信息、物理参数、材质属性等信息的3D空间。
基于 AI 技术和渲染技术的结合,群核启真渲染引擎解决了传统渲染器无法描述很多物理特性的问题。比如,人物、动物等有机生命体的真实感一直是渲染难点。通过AI写实增强可有效对画面光影、色彩进行真实感增强。并且,启真渲染引擎通过AI算法和大量的数据训练,可以渲染物理世界 99% 的材质。未来,群核科技可以生成更多领域、更丰富的3D场景,让空间智能系统更直观地感知空间信息。
不仅仅是感知,更重要是让机器能掌握空间理解和推理能力。机器与人不同,人类的空间理解能力是与生俱来的,但机器人对空间的理解和推理能力则是通过计算和算法来实现的。比如在设计场景,过去AI在对设计图纸进行阅读时,缺少空间想象力,这是人所独有的。
群核科技发布的多模态CAD大模型将很好推动这项研究。群核多模态CAD大模型能够实现对空间更准确和结构化的表述,将物理世界产生的或存在的设计数据翻译成AI能听懂的语言,并让AI自动生成物理正确的空间方案后,群核的几何参数化引擎、BIM引擎再将方案转换为标准化的生产和施工信息,最终对接回物理世界的生产施工环节,进一步推动智能制造升级。
举个例子,在商业空间设计落地应用中,基于群核矩阵CAD引擎能力,用户只需导入CAD图纸,系统便能自动识别并生成参数化的空间方案,可精准呈现布局和家具尺寸和衔接落地施工。同时,通过AI识别,CAD图块可以直接转换为成物理正确的模型,支持与生产环节的对接。
输入CAD图纸
自动识别并生成参数化的空间方案
空间智能的关键一步是推动机器能在三维空间中做交互。故而,具身智能被看作是空间智能的重要应用方向,因为具身智能有支持行动能力的载体。然而,当前AI的交互能力还更多体现数字世界,如何让机器人进入物理世界做交互,让机器人如何实现像人类一样的通用操作能力?比如把人类叠被子、进工厂拧螺丝等。
这就需要建立物理世界与数字世界之间的映射。
三 、成为机器人的训练道场
要完成数字世界与物理世界之间的映射,需要给机器人提供用来训练的海量可交互三维数据。但这样的数据获取是一道世界难题,也是如今具身智能,以及整个AI大模型方向的困局。
“整个互联网上能训练的数据一共就没有多少T,现在已经快不够用了。”国内某头部大模型厂商创始人告诉产业家,“现在大家更多的是用检索增强来落地B端,C端还是需要基座模型的进化才能突破。”
更清晰的信号来自大洋彼岸。在刚刚连续直播12天的OpenAI对外信号中,尽管人们对于推理、项目管理、AI桌面等产品都保持惊叹,但还是不少人抱有遗憾的态度:OpenAI并没有公布GPT-5/4.5的任何信息。
一个真实的声音是,截至目前,GPT-5的最大难题是训练数据。
二维数据都难,更不用说是帮助机器更快走进物理世界的三维可交互数据了。
群核科技给这堵墙“打开”了一个口子。同样是在今年的酷+科技峰会上,群核科技推出新版本的群核空间智能平台SpatialVerse,基于海量三维模型和场景的空间数据资产,它能为AIGC、具身智能、AR/VR 等企业及科研单位提供多模态物理真实的空间数据资产,包括可交互模型等。
相较于如今正在趋向匮乏的数据,以及在真实场景中获取数据的路径,群核科技提供的是海量物理正确的可交互三维数据。相比真实的训练环境,仿真训练有极大优势,包括低成本、高效率、多样性和可泛化性。
举个例子,在物理世界里,时空是确定的。从A点走到B点,可能需要十几分钟,但是在数字世界就是几秒钟。另外,基于合成数据模型,物理世界的一个空间参数可以被延展成多个类似的场景进行训练,从而实现训练机器人的举一反三能力。
准确来说,群核空间智能数据平台是国内乃至世界唯一一家能实现对室内空间有物理正确认知的平台。而这种唯一性也更是填补了包括具身智能在内的诸多AI大模型的下一步发展的关键数据缺口。一个形象的比喻是,群核空间智能数据平台将是AI智能体的训练「道场」。
“合成数据这件事,没有工具集成与长时间的积累,是很难去做的。”黄晓煌表示。群核空间智能数据平台并非一日之功。除了在过去多年时间里,群核科技基于家装场景构建了大量物理正确的3D模型和数据参数之外,更重要是群核在科技上的持续投入。
长期来看,对技术的投入确实很大程度上增强群核的竞争力,以及拓宽它的可能性。群核空间智能平台的雏形便来自Research Lab的一篇论文探索。也就是文章开头提到的那篇引起学术界关注的论文。
而也是在这次论文之后,一众硅谷企业以及国内的具身智能企业纷纷向群核科技抛来合作橄榄枝,群核科技开始从中国认知走向世界认知。
四 、结语
AI聚光灯下,阿里、字节跳动、腾讯等大厂依然在“大象跳舞”,也有一众新兴企业在闪耀光环,比如包括智谱、月之暗面等一众大模型厂商,正在探索AI大模型的最佳落地场景和适合中国的技术方向。
还有一类硬科技企业,它们在持续研发投入和逐步满足市场需求的过程中,形成自己的核心壁垒,并在新技术趋势下迸发出巨大能量。群核科技便是这样一家企业,基于自身庞大的用户基础和应用场景,这家企业在底层引擎驱动下,上层的场景应用可以持续转化为对企业的真实增量和商业价值,迅速验证并跑通闭环。
值得一提的是,在群核科技内部,有一个名为“引擎思维”的理念,即在造新车子之前,群核的选择不是先造外面的“皮”,而是先构建里面的引擎,尽量把核心技术能力引擎化、标准化,不为了解决单一问题而去投入研发。
基于这些被抽离成底层支持的引擎,群核科技长出了像酷家乐这样的由空间智能技术赋能的产品,同时也将空间智能技术通过群核空间智能平台,反哺给具身智能等技术赛道的探索。
但构成这种理念的是对技术的笃定,对商业的尊重克制。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。