[思考] 

【转】剖析C3.ai的秘诀:披着AI的皮,干着大数据的活?

@胖虎哒哒
鉴于大家都很关注,分享一下我昨天查$C3.ai, Inc.(AI)$ 的资料的时候看的,一篇从技术层面锤这家公司不够人工智能的文章,有趣的是发表的网站正好就是ai创始人接受采访的网站,创始人说ai市场价值3万亿的言论正好出自这里。写文的作者Tiernan Ray是巴伦的技术编辑。以下原文翻译,机翻有误请怪谷歌。 原文标题:Dissecting C3.ai’s secret sauce: less about AI, more about fixing Hadoop【剖析C3.ai的秘诀:少讲AI,多讲大数据】来源网站:https://www.zdnet.com/,侵删。 从C3。ai在美国的专利号为10,824,634,于本月授予。图表显示了该公司所称的集成系统。虚线表示类型的封装,这些类型可以用来简化连接资源的应用程序的开发,例如数据集成单元、机器学习单元和MapReduce组件。 由软件行业传奇人物汤姆·西贝尔(Tom Siebel)创立的软件公司C3.ai于上周五申请公开上市。该公司将其人生目标描述为将人工智能应用于销售和营销。它实际上正在做的事情似乎更多地解决了诸如Hadoop之类的基础设施软件的弊端,以及由Cloudera和其他公司实现的商业实现。 ZDNet研究了C3.ai所谓的“秘密调味料”,这是一种人工智能套件,据称它可以加快CRM的开发。 事实证明,秘密的秘诀实际上更多是关于平台即服务,而不是AI本身,这很有趣,因为在C3招股说明书中提到机器学习(一种形式的AI)有55次,虽然平台只被提及一次,但在公司的自我描述中:“我们相信C3 AI Suite是唯一允许客户设计,开发,提供和运行企业AI应用程序的端到端平台即服务规模。” C3.ai发明了一组构建模块,用于构建一个系统来分析来自各种信号的数据,这些信号包括传统数据库,还包括互联网信号(例如社交媒体)以及(可能最重要的)传感器,包括各种传感器,工业公司可能会将其内置到要监视的设备中。 C3.ai构建的构建基块是开发人员可以以编程方式访问的工具,并且可以按订阅使用,还有一些额外的计量用途。 至少基于C3.ai发布的材料,实际的人工智能组件是相当常规的,没什么特别的。 秘密招股说明书在IPO招股说明书中引用的两项专利中都有描述,美国专利号为10,817,530和专利号为10,824,634,今年均获授权。两项专利都描述了“用于企业物联网应用程序开发平台的系统,方法和设备”或简称为“平台”。 在开发人员日记的这一集中,业余厨师兼专业开发人员Advocate的Pratik Patel解释了为什么您需要采用微服务来快速跟踪准备工作并进入应用程序开发的创意部分。 这两份文件都断言:“下一代物联网应用需要新的企业软件平台。” 由于这两种专利均已公开,因此它们特别是PaaS,用于汇总来自传感器的数据: 本文公开的IoT平台是用于下一代网络物理软件应用程序和业务流程的设计,开发,部署和操作的平台即服务(PaaS)。这些应用程序将高级数据聚合方法,数据持久性方法,数据分析和机器学习方法(嵌入到唯一的模型驱动的体系结构类型的系统实施例中)应用于基于PB级数据集的实时和近实时分析来推荐操作,众多企业和企业外部数据源以及数百万至数十亿个端点的遥测数据。 这些专利详细阐述了企业开源基础架构(例如Hadoop)的失败。如Gartner研究所示,这些专利指出了公司未能大规模采用Hadoop。C3.ai称,重新包装Hadoop的公司(例如Cloudera)“未能将其Hadoop组件集成到一个紧密的软件开发环境中”。 结果是“迄今为止,还没有成功的使用Apache Hadoop的大规模企业物联网应用程序部署”。继续说,包括Cassandra,CloudStack,HDFS,Continum,Cordova,Pivot,Spark,Storm和ZooKeeper在内的技术是应该组合在一起的组件,但尚未组合在一起。 “撇开众多市场的说法,仔细检查表明,很少有企业生产规模,弹性云,大数据和机器学习IoT应用的示例,如果有的话,可以使用这些类型的应用成功部署在任何垂直市场中组件。” 因此,C3.ai正在创建“一种新的技术堆栈”。 C3.ai C3.ai的范例示例在多维非线性分类器的图中显示。在这个示例中,这是相当标准的机器学习内容,它是使用一种称为梯度提升决策树的熟悉方法实现的。 基于专利的技术堆栈包括大量使用领域特定的语言,以将编程对象类型分配给传感器数据和其他资源。 关键是简化如何将大量数据源以及对其进行操作的分析程序组合在一起。使用类型和模型,开发人员可以避免通过API调用将程序的所有部分拼接在一起。 C3.ai说:“类型是系统可以理解的潜在复杂对象的定义。” 换句话说,这类似于将面向对象的类接口包装在许多基础结构组件周围,以便程序员可以以更简单的方式调用大数据。处理一种类型可能会引发一系列过程,这些过程从许多传感器端点(可能从诸如内容管理系统之类的数据存储)中获取数据,将它们组合起来,然后通过分析程序。 C3.ai声称,这种打字系统是由公司严格设计的,该公司已经设计了特定行业的业务逻辑模型。大概,那些特定于行业的模型会产生特定于域的语言用来解决C3.ai拥有的所有资源的类型。 所有这些工作使C3.ai通过一堆组件运行来自传感器的数据进行分析。所谓的“连续数据处理组件”基本上是MapReduce的包装器。该MapReduce程序可以将数据输入另一个组件(机器学习系统)中,以重复分析数据。这很方便,因为某些传感器数据可能需要通过机器学习程序的多次遍历进行迭代处理。 考虑到所有对基础设施的重视,专利中的AI变成了机器学习的平凡形式,也许并不奇怪。 这些专利将AI称为“机器学习组件”中发生的事情。它说,该组件使用了一些“最新”的机器学习库,包括“基于Apache Spark,R和Python系统构建的公共库。”它包括诸如IPython Notebook,流行的sci-kit学习库之类的东西,以及R中用于诸如梯度提升之类的标准机器学习方法的软件包。 C3.ai说,这些库得到了“许多标准机器学习算法的定制,高度优化和并行化实现的补充,例如广义线性模型,正交匹配追踪和潜在变量聚类模型”。 C3.ai的IPO招股说明书以图形方式表示了公司为分析整个IoT基础架构中的传感器数据而构建的平台即服务。 所有这些都是机器学习技术,已经存在了很多年。实际上,C3.ai提供的机器学习的范式听起来像是机器学习教科书中的某些东西。 该公司讨论了使用机器学习来通过查看电表中的数据来判断是否有人盗窃电。大概是大型公用事业客户需要帮助的那种应用程序。 问题是创建一个分类器,该分类器可以从仪表中获取几个不同的数据点,并为是否发生盗窃产生一个值。 描述听起来令人生畏, 检测电盗窃是一项艰巨的任务,它具有许多单独的功能,这些功能可能会增加或减少特定电表显示出用户窃取能量迹象的可能性[…]然后,每个电表都可以看作是躺在一个点上在“ n维”空间中[…] 但是,这与任何机器学习描述没有什么不同。在示例问题(电盗窃)中,解决方案是将梯度增强的标准技术应用于一组756个要素,以将数据分为正例或负例的超平面,即盗窃或不盗窃。 正如C3.ai所指出的那样,这种东西的真正艺术是大量使用它。该公司将这样一个分类器称为梯度增强回归树,它具有“由70棵树组成的加权组合,每棵树的最大深度为5个节点”。 换句话说,在应用AI的世界中,C3.ai正在处理大量数据。该公司在如何采用常规的机器学习模型(例如梯度提升)以及如何处理复杂性所需的注意事项方面获得了宝贵的经验。 尽管这可能并没有打破机器学习本身的基础发展领域的任何界限,但是这是不小的成就。 尽管如此,大规模应用AI有望成为一个非常活跃的市场。 Siebel在一周前接受ZDNet的Larry Dignan的采访时表示,根据咨询公司麦肯锡公司(McKinsey&Co.)的数据,包括营销和销售自动化在内的客户关系管理将是未来几年AI的最大市场之一。 Siebel说:“他们预测,对AI的最大影响将是对销售,市场营销和客户服务的影响,每年可带来3万亿美元的价值。”
【转】剖析C3.ai的秘诀:披着AI的皮,干着大数据的活?

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论