AI行业要闻汇总：连环王炸，未来可期_老虎社区_美港股上老虎

AI行业要闻汇总：连环王炸，未来可期

AI军备竞赛进入白热化阶段，让人目不暇接。本文给大家简要介绍一下近期AI行业的进展，做出简单展望。（注：本文含有AI总结和说明，使用了GPT-O1，Gemini2.0，Llama3.3，豆包，kimi等。）

第一个要说的当然是openAI。openAI举行了为期12天的发布会，王炸非常之多。笔者试总结其发布成果，不过由于写稿时候仍在举行发布会，可能遗漏其最新发布成果。

首先是GPT-o1，根据GPT-o1的总结要点如下：

性能提升：

在数学、代码和博士级科学问题上获得了大幅度提升，能够解决超复杂难题。

推理速度更快，比之前的preview版本快了60%。

在推理时犯重大错误的频率比o1-preview少了34%。

多模态推理能力：

支持多模态输入，具备视觉推理能力，能够处理图片上传功能。

安全性和鲁棒性：

在安全性测试中，o1满血版与o1-preview相比接近，但在对有害内容的检测和拒绝能力上更强。

在越狱测试中展现出更强的鲁棒性。

在故意隐瞒信息操纵数据的测试中，o1的比例从o1-preview的26%降低到了19%。

自主性：

模型自主性有所提升，体现在自我外泄、自我改进和资源获取等方面。

价格：

ChatGPT Pro的订阅费用为每月200美元，被认为是“世界最贵的大模型”。

此后其还发布了改进后的sora，

要点如下：

视频生成能力：Sora可以根据文本提示生成全新的视频，使图像栩栩如生，并且能够扩展、重新混合编辑视频或融合已有的视频。

模型组合：Sora结合了扩散模型（DALL-E3）和转换器架构（ChatGPT），能够处理视频（即图像帧的时间序列）。

模拟能力：Sora能够逼真地模拟物理世界，具备“新兴的模拟能力”，在单个视频中创建多个镜头，体现人物和视觉风格。

视频编辑功能：Sora具备替换、删除或新增元素、重新剪辑、扩展及合并视频等功能。

套餐订阅服务：

ChatGPT Plus：每月收费20美元，用户可以生成分辨率高达720p、时长最长5秒的视频。

ChatGPT Pro：每月收费200美元，用户可以无限量生成分辨率高达1080p、时长最长20秒的视频，并且可以同时生成五个视频，视频可以无水印下载。

编辑和创作工具：

Remix（重新混合）：替换、删除或重新构想视频中的元素。

Re-cut（重新剪辑）：找到并隔离视频中最佳的帧，向任一方向延伸这一帧，完成场景。

Storyboard（故事板）：在个人时间线上组织和编辑视频的独特序列。

Loop（循环剪辑）：创建画面无缝重复的视频。

Blend（混合）：将两个视频无缝合并为一个剪辑视频。

Style presets（风格预设）：创建和分享捕捉个人想象力的风格。

openAI语音模式Advanced Voice介绍如下：

视频对话能力：

用户可以通过ChatGPT应用程序启动视频对话，这使得交互更加直观和互动。

屏幕共享功能：

用户可以在对话中共享他们的屏幕，这为远程协作和指导提供了便利。

多模态交互：

该功能由OpenAI的多模态模型GPT-4o支持，意味着AI可以处理和理解视频流，提供更丰富的交互体验。

实时反馈和建议：

在演示中，研究员展示了如何让GPT观察现场人员并作出反应，例如评价打扮最像圣诞老人的人，这显示了AI在理解和响应视觉信息方面的能力。

信息处理：

GPT可以接收短信内容及图片，并提供回复建议，这增强了AI在处理多类型信息上的能力。

学习和校对：

用户可以利用视频功能向GPT展示如何使用某些工具，并请求反馈和建议，这使得GPT成为一个学习和校对的助手。

用户访问权限：

ChatGPT Plus和Pro套餐的订阅用户以及所有Team用户将能够访问这些新功能。

节日特供声音：

为了增加节日气氛，OpenAI在Advanced Voice中新增了圣诞老人的声音选项，用户可以在节日期间使用。

昨日，其还发布了搜索功能，要点如下：

实时搜索，OpenAI对搜索的算法进行了深度优化，可在用户提出问题后获取实时内容（分钟级别），包括股票、新闻等。

高级语音，在高级语音模式下，用户可以与ChatGPT进行更自然的多轮搜索对话，更像是一位语音搜索管家；移动端优化，用户可以在安卓、iOS、平板等移动端更好地使用搜索功能，效率提升40%以上。

地图集成，现在ChatGPT集成了全新的地图功能，用户可以直接在搜索结果中查看周边地理位置信息，进行路线规划和地点探索。这个功能估计是要朝着商业模式发展，以后会与餐厅、商城一类的进行商务合作。

当然，其他巨头也不甘示弱，谷歌推出了Gemini2.0和文生视频功能，还发布了新的TPU，用Gemini总结要点如下：

Gemini 2.0 Flash：

谷歌推出了下一代重要人工智能模型Gemini 2.0 Flash，这是2.0家族的第一个模型。

支持原生多模态输入输出和Agent，速度是1.5 Pro的两倍，性能指标超过1.5 Pro。

能够原生生成图像和音频，同时支持文本生成。

可以使用第三方应用程序和服务，访问谷歌搜索、执行代码等功能。

实验版本将通过Gemini API和谷歌的AI开发平台提供，音频和图像生成功能仅对早期接入合作伙伴开放。

Project Mariner：

谷歌发布了首个能够在网页上执行操作的AI代理Project Mariner，由Gemini驱动。

能够接管用户的Chrome浏览器，移动光标，点击按钮，填写表单，像人类一样使用和浏览网站。

Multimodal Live API：

谷歌推出了一个API，名为Multimodal Live API，帮助开发者构建具有实时音频和视频流功能的应用程序。

支持工具集成以完成任务，并能够处理自然对话模式。

AI代理：

Deep Research：帮助用户研究复杂研究，创建多步骤研究计划。

Jules：帮助开发者完成代码任务，集成到GitHub工作流中。

游戏AI代理：帮助用户熟悉游戏，基于DeepMind在游戏AI方面的经验。

AI生成摘要“AI Overviews”：

基于Gemini 2.0模型的AI生成摘要功能，将处理更复杂的话题和多模态、多步骤的搜索内容。包括高级数学问题和编程问题。

Trillium芯片：

谷歌发布了第六代人工智能加速器芯片Trillium，性能是上一代的四倍，同时大幅降低能耗。

谷歌已将超过10万颗Trillium芯片连接在一个网络结构中，形成了全球最强大的AI超级计算机之一。

Meta也发布了最新的开源大模型Llama3.3，要点如下：

模型参数与性能：

Llama 3.3是一个70亿参数的生成式AI模型。

Meta CEO扎克伯格表示，Llama 3.3的性能可以比肩Meta最大的Llama模型——拥有4050亿参数的Llama 3.1，但成本更低。

技术进步：

Llama 3.3利用了包括在线偏好优化在内的最新后训练技术，显著降低了成本并提高了核心性能。

Meta生成式AI副总裁Ahmad Al-Dahle表示，这些技术进展使得Llama 3.3更容易被整个开源社区所接受。

基准测试表现：

Llama 3.3在一系列行业基准测试中表现优于谷歌的Gemini 1.5 Pro、OpenAI的GPT-4o和亚马逊的Nova Pro。

这些测试包括针对大模型语言理解能力的测试MMLU。

开源与下载：

Llama 3.3目前已经可以在Llama官网和AI开发平台Hugging Face等网上来源下载。

Meta试图以可供大范围商业应用的开源模型主导AI模型市场，新模型是Meta为此目标的最新努力。

Meta的数据显示，Llama的下载量已超过6.5亿次。

扎克伯格称，Meta的AI助手Meta AI完全由Llama模型提供支持，目前每月拥有将近6亿活跃用户。

此外，被曝出在大模型进度上缓慢的亚马逊推出了nova AI模型，介绍如下：

模型系列：

Amazon Nova Micro：纯文本模型，提供最低延迟的响应，非常适用于需要快速响应的应用场景，如文本摘要、翻译、内容分类等。

Amazon Nova Lite：低成本的多模态模型，能够快速处理图像、视频和文本输入，适合高交互性和高并发的应用场景。

Amazon Nova Pro：高度能力的多模态模型，提供准确性、速度和成本的最佳平衡，适用于视频总结、问答、软件开发等任务。

Amazon Nova Premier：亚马逊最强大多模态模型，用于复杂推理任务。

Amazon Nova Canvas：图像生成模型，能够根据文本或图像提示生成高质量的专业级图像，并支持编辑和自定义内容。

Amazon Nova Reel：视频生成模型，用户可以通过文本和图像提示快速创建高质量的视频，支持自然语言提示控制视频风格和节奏。

Nova系列模型支持超过200种语言，并针对多种语言进行了优化。模型支持长达128K至300K的输入令牌，即可以处理长达30分钟的视频内容。所有Nova模型都具备快速响应和高性价比，至少比Amazon Bedrock中同类最佳性能模型便宜75%。

Nova Canvas和Nova Reel模型提供了高质量的输出、直观的API平台以及先进的自定义功能，帮助广告商和卖家激发创造力和创新。Nova Pro展示了强大的视频理解能力，能够详细描述视频内容，包括场景、队服、球员动作以及比赛结果。

亚马逊计划在2025年推出语音到语音模型和多模态到多模态模型，进一步扩展Nova系列的能力。此外，Nova模型内置了安全措施和保护机制，并推出了AWS AI服务卡，提供使用案例、局限性和负责任AI实践的透明信息。

此外，近期国内外还有许许多多AI大模型和应用上的进展，囿于篇幅笔者在这里暂时搁笔，后续会继续和大家追踪AI行业的最新进展，一起经历这次工业革命。

（笔者持有大型科技股股票。）

（风险提示：AI应用不及预期，投资过度，监管风险等。）

风险提示及免责声明

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

AI行业要闻汇总：连环王炸，未来可期

精彩评论