融资1.3亿美元，挖掘80%非结构化数据金矿！这家AI文档搜索公司为什么被看好？_老虎社区_美港股上老虎

融资1.3亿美元，挖掘80%非结构化数据金矿！这家AI文档搜索公司为什么被看好？

说起搜索，很多人都会先想到谷歌。

但你可能不知道，谷歌所掌握的大部分是结构化数据，这些数据仅占到全部数据量的20%。

数据资源真正的“大头”，是非结构化数据。比如，合同、记录以及跨文本、音频和图像的多媒体文件等等，这些都属于非结构化数据，他们占到了全部数据量的80%。

更让人想不到的是，谷歌所掌握的数据可能还要更少。

按Hebbia的说法，Google 只索引了全球 4% 的数据，而还有96%的非结构化私密数据没被索引和查询。

不管怎么说，可以明确的一点是，非结构化数据是一个尚未被完全开发的“金矿”。而Hebbia想做的，就是挖掘这座金矿。

目前，Hebbia产品和服务主要被应用在金融服务、法律领域，客户包括美国空军以及资产管理公司和法律服务公司。

根据Hebbia创始人Sivulka介绍，目前该公司的年度经常性收入 (ARR)为1300万美元，该收入在过去18个月中增长了15倍。

为什么Hebbia实现快速增长？在Hebbia成功的背后，又对我们理解AI应用落地带来什么启示？

/ 01 /

瞄准80%的数据“金矿”

与结构化数据不同，文档中既包含了复杂的视觉元素，如表格、图表等，又包含了自然语言的文字描述，且文字排列方式灵活自然，不受严格的结构限制。

人的推理能力可以轻松地处理这些错综复杂的信息，但计算机却做不到。

但这事随着大模型的出现被改变了。大模型出现后，AI对信息理解的能力有了巨大的提升。而Hebbia所做的事情，就是把非结构数据的价值释放出来。

公司的主要产品是Matrix，这是一款专为金融、法律、政府和制药行业设计的知识工作助手。Matrix能够处理各种格式的文档，包括PDF、PowerPoint、电子表格和成绩单等。

从基础功能上，Hebbia主要的能力包括智能搜索引擎、信息提取、文档分析等等。

其中，Hebbia的搜索引擎能够快速、高效地搜索大量文本数据，包括文档、电子邮件、研究论文等，并能够理解查询背后的意图，并提供更准确、相关的搜索结果。

同时，Hebbia的工具可以从大量文档中自动提取关键信息，如实体、关系、事件等，节省用户的时间和精力，并将非结构化文本转化为结构化数据，便于后续分析和处理。

除了信息获取，Hebbia可以对大量文档进行分类和组织，自动生成文档的简要摘要，帮助用户更好地管理信息。

举个例子，当客户向Hebbia询问航空公司在安全漏洞发生后对波音公司有何评价，Hebbia不会简单地总结一份文件，Hebbia的系统将构建一个逐步的过程来回答这个问题，总结和引用它从财报电话会议和其他来源提取的数据，形成一个数据网格。

Hebbia处理各种数据类型的能力吸引了众多知名客户，包括顶级资产管理公司、律师事务所、银行，甚至美国空军。

/ 02 /

Matrix做对了什么？

回顾Hebbia的成功，有这么三点值得我们注意：

首先，Hebbia认为，AI落地的核心不在模型，而在产品。

从一开始，Hebbia就清醒认识到，ChatGPT等聊天机器人的聊天形式只能解决简单问题，对解决复杂问题价值有限。尤其在高度依赖信息的特定领域，需要有特定的产品展示方式。所以，Matrix 重新设计了电子表格式界面，允许用户构建能够执行综合任务的 AI 代理。

不仅如此，Hebbia还很强调对复杂问题的拆解能力。

在很多企业场景里，任务的流程往往相当复杂，需要很多步骤才能完成。用户提出问题的那一刻，Matrix 将复杂任务分解为代理可以执行的单步骤。

这使得 Matrix 能够提供完整的答案、对所有文档进行详尽的分析，并执行端到端的流程。随着时间的推移，分解甚至会根据用户过去的操作和过程得到改进，而无需重新训练。

其次，Hebbia对目标群体定位清晰。Hebbia把更多注意力放在了有密集信息处理的工作人群上，比如说管理咨询分析或者律师等。他们工作有很大一部分是筛选演示文稿、仔细研究冗长的文档以及从大量电子表格中整理数据。

对于特定领域，Hebbia还会数据采集，筛选，指令的优化等层面，做针对性的细化。这样一来，相比通用搜索引擎，Hebbia对指令的理解以及对信息的处理，也更贴近于金融行业专业性的需求。

第三点是透明性。在总结内容的同时，Matrix会为用户展示了其得出结论的来源和各个步骤，完全透明。

究其原因，大模型运行是一个黑盒子，其内部运作机制是不可见的。但当用户做商业决策时，用户在不了解模型的思维过程时，无法对生成的内容产生信任。为了解决这个问题，Matrix通过一个与 AI 协作的界面，让用户可以看到AI如何做出决策，并实时协作这些过程。

总的来说，Hebbia的成功，不仅仅是大模型技术应用这么简单，其不仅针对企业场景特点在产品设计上进行了差异化调整，让其更好地匹配了用户需求。

/ 03 /

垂直软件最好的时代来了？

尽管Hebbia的年度经常性收入 (ARR) 只有1300万美元，但依然挡不住投资人下注的热情。之所以投资人如此看好Hebbia，Greylock的观点或许能够给我们一些启示。

在Greylock看来，垂直软件正在迎来最好的投资机会。一个很重要的原因是，大量非结构化数据正在被AI激活，数据资产的价值释放将带来大量的服务机会。

之前很长时间里，垂直软件只能服务于那些数据库中具有清晰结构化数据的公司，大量依赖非结构化数据（例如合同、记录以及跨文本、音频和图像的多媒体文件）的基础性行业被排除在外。

这其中具备巨大的商业机会。

就拿法律行业来说，仅在美国，法律市场就占据了超过3000亿美元，且付费意愿极高。根据Greylock调研，许多人表示愿意每年在具有变革性的人工智能软件上投资七位数。

现在越来越多法律公司开始将AI产品应用到业务里。去年，汤森路透就宣布，以6.5亿美元现金收购为法律人士提供人工智能助理的法律初创公司Casetext。同时表示，公司计划每年花费约1亿美元投资人工智能。

除了新的业务需求外，对数据资产的挖掘很容易形成极高的商业壁垒。

一方面，垂直场景的数据本身就具备很高的价值，依托这些数据，初创公司有机会建立差异化的垂直服务。

另一方面，在服务过程中，客户使用产品时会产生大量的数据，这些数据将加深初创公司对场景需求的理解，进而形成长期的壁垒。

Ilya一直有个观点，人工智能价值观需要与人类正确的价值观对齐。这话放在垂直领域同样适用。对于高度依赖数据的大模型来说，其能力固然很强，但只有真正对齐到垂直领域，才能带来更大的生产力提升和商业价值。

文／林白

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

融资1.3亿美元，挖掘80%非结构化数据金矿！这家AI文档搜索公司为什么被看好？

评论

热议股票