近期,红杉资本的 AI Ascent 2024 活动的上,红杉的 3 位合作伙伴Pat Grady、Sonya Huang 和 Konstantine Buhler 在活动期间分享了关于AI的一些独特的见解: AI 最大的机会之一,是用软件取代服务,因为 AI 具备了类人的交互能力; AI 所具备的创造力和推理能力,意味着软件第一次具备了类人的交互能力,这一点非常关键,因为它意味着商业模式的深刻变革; 云计算是用软件取代软件,而 AI 最大的机会之一,是用软件取代服务,因为 AI 具备了类人的交互能力; AI 在客服领域已经初步找到了 PMF; AI 有一条通向未来的明路,那就是应用会变得越来越好; 计算资源将从预训练转移到推理; 本质上,我们正在 AI 的基本元素之上,构建非常复杂的抽象层。 本次峰会深入分析显示,生成式AI的年收入已突破30亿美元大关,这一增速与SaaS市场历经十年累积的成就相媲美。红杉资本的合伙人团队对AI技术的未来前景持高度乐观态度,他们认为该技术将引领前所未有的价值创造潮流,并广泛渗透到各个行业和应用场景中。 01、Pat Grady: AI 最大的机会之一,是用软件取代服务,因为 AI 具备了类人的交互能力 在过去的 12 个月里,AI 技术经历了炒作周期的压缩形式,从期望的高峰到失望的低谷,再到现在的生产力高原期。这一过程中,团队认识到LLMs和AI为我们带来了三种独特能力:创造能力、推理能力以及类似人类的互动能力。 AI 技术的三种独特能力: 创造能力:生成式AI可以创造图片、文本、视频、音频等,这是传统软件无法实现的。 推理能力:无论是单步或多步骤推理,AI 的这一能力都超过了以往的软件范畴。 类似人类的互动能力:由于AI的创造和推理能力,软件能够首次以类似人类的方式互动,对商业模式产生深远影响。 资料来源:红杉AI大会官方内容 有
事件 5月14日,OpenAI发布GPT-4o模型,o源自词根omni,代表着全能,也揭示OpenAI在多模态的发展中更进一步。根据官网和已发布的信息,GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。其中文本和图像的功能从今天开始已经可以在ChatGPT中使用,万众瞩目的语音功能在未来几周才会面向Plus用户开放使用。 除了语音功能外,ChatGPT同时更新了一些新的小功能插件,本文将给大家展示全新的GPT-4o到底有什么魅力让大家惊叹不已,赞叹连连。 全新的语音聊天助手 在 GPT-4o 之前, ChatGPT 已经可以进行语言聊天交流。其中,GPT-3.5的平均延迟为 2.8 秒,而GPT-4为5.4 秒。语音聊天助手由三个独立模型组成:第一个模型将音频转录为文本,第二个模型由GPT-3.5 或 GPT-4 接收文本并输出文本,第三个模型将该文本转换回音频。 但在这个过程GPT-4 会丢失大量信息——它无法直接辨别不同的音调、不同的讲话者以及背景噪音,也无法发出笑声、歌声或表达情感。 GPT-4o在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。GPT-4o 是OpenAI第一个结合了所有这些模式的模型,所以OpenAI宣称,GPT-4o仍然只是在探索该模型可以做什么及其局限性的尝试(we are still just scratching the surface of exploring what the model can do and its limitations)。[i] 探索GPT-4o全新的功能 GPT-4o在其官网上展示了一些带探索的全新功能,话不多说,直接开始展示: 资料来源:OpenAI官网 这个功能叫做机器人作家的博客,你输入自己想讲述的内容,会看到屏幕上机器的