AI军备竞赛进入白热化阶段,让人目不暇接。本文给大家简要介绍一下近期AI行业的进展,做出简单展望。(注:本文含有AI总结和说明,使用了GPT-O1,Gemini2.0,Llama3.3,豆包,kimi等。)
第一个要说的当然是openAI。openAI举行了为期12天的发布会,王炸非常之多。笔者试总结其发布成果,不过由于写稿时候仍在举行发布会,可能遗漏其最新发布成果。
首先是GPT-o1,根据GPT-o1的总结要点如下:
性能提升:
在数学、代码和博士级科学问题上获得了大幅度提升,能够解决超复杂难题。
推理速度更快,比之前的preview版本快了60%。
在推理时犯重大错误的频率比o1-preview少了34%。
多模态推理能力:
支持多模态输入,具备视觉推理能力,能够处理图片上传功能。
安全性和鲁棒性:
在安全性测试中,o1满血版与o1-preview相比接近,但在对有害内容的检测和拒绝能力上更强。
在越狱测试中展现出更强的鲁棒性。
在故意隐瞒信息操纵数据的测试中,o1的比例从o1-preview的26%降低到了19%。
自主性:
模型自主性有所提升,体现在自我外泄、自我改进和资源获取等方面。
价格:
ChatGPT Pro的订阅费用为每月200美元,被认为是“世界最贵的大模型”。
此后其还发布了改进后的sora,
要点如下:
视频生成能力:Sora可以根据文本提示生成全新的视频,使图像栩栩如生,并且能够扩展、重新混合编辑视频或融合已有的视频。
模型组合:Sora结合了扩散模型(DALL-E3)和转换器架构(ChatGPT),能够处理视频(即图像帧的时间序列)。
模拟能力:Sora能够逼真地模拟物理世界,具备“新兴的模拟能力”,在单个视频中创建多个镜头,体现人物和视觉风格。
视频编辑功能:Sora具备替换、删除或新增元素、重新剪辑、扩展及合并视频等功能。
套餐订阅服务:
ChatGPT Plus:每月收费20美元,用户可以生成分辨率高达720p、时长最长5秒的视频。
ChatGPT Pro:每月收费200美元,用户可以无限量生成分辨率高达1080p、时长最长20秒的视频,并且可以同时生成五个视频,视频可以无水印下载。
编辑和创作工具:
Remix(重新混合):替换、删除或重新构想视频中的元素。
Re-cut(重新剪辑):找到并隔离视频中最佳的帧,向任一方向延伸这一帧,完成场景。
Storyboard(故事板):在个人时间线上组织和编辑视频的独特序列。
Loop(循环剪辑):创建画面无缝重复的视频。
Blend(混合):将两个视频无缝合并为一个剪辑视频。
Style presets(风格预设):创建和分享捕捉个人想象力的风格。
openAI语音模式Advanced Voice介绍如下:
视频对话能力:
用户可以通过ChatGPT应用程序启动视频对话,这使得交互更加直观和互动。
屏幕共享功能:
用户可以在对话中共享他们的屏幕,这为远程协作和指导提供了便利。
多模态交互:
该功能由OpenAI的多模态模型GPT-4o支持,意味着AI可以处理和理解视频流,提供更丰富的交互体验。
实时反馈和建议:
在演示中,研究员展示了如何让GPT观察现场人员并作出反应,例如评价打扮最像圣诞老人的人,这显示了AI在理解和响应视觉信息方面的能力。
信息处理:
GPT可以接收短信内容及图片,并提供回复建议,这增强了AI在处理多类型信息上的能力。
学习和校对:
用户可以利用视频功能向GPT展示如何使用某些工具,并请求反馈和建议,这使得GPT成为一个学习和校对的助手。
用户访问权限:
ChatGPT Plus和Pro套餐的订阅用户以及所有Team用户将能够访问这些新功能。
节日特供声音:
为了增加节日气氛,OpenAI在Advanced Voice中新增了圣诞老人的声音选项,用户可以在节日期间使用。
昨日,其还发布了搜索功能,要点如下:
-
实时搜索,OpenAI对搜索的算法进行了深度优化,可在用户提出问题后获取实时内容(分钟级别),包括股票、新闻等。
-
高级语音,在高级语音模式下,用户可以与ChatGPT进行更自然的多轮搜索对话,更像是一位语音搜索管家;移动端优化,用户可以在安卓、iOS、平板等移动端更好地使用搜索功能,效率提升40%以上。
-
地图集成,现在ChatGPT集成了全新的地图功能,用户可以直接在搜索结果中查看周边地理位置信息,进行路线规划和地点探索。这个功能估计是要朝着商业模式发展,以后会与餐厅、商城一类的进行商务合作。
当然,其他巨头也不甘示弱,谷歌推出了Gemini2.0和文生视频功能,还发布了新的TPU,用Gemini总结要点如下:
Gemini 2.0 Flash:
谷歌推出了下一代重要人工智能模型Gemini 2.0 Flash,这是2.0家族的第一个模型。
支持原生多模态输入输出和Agent,速度是1.5 Pro的两倍,性能指标超过1.5 Pro。
能够原生生成图像和音频,同时支持文本生成。
可以使用第三方应用程序和服务,访问谷歌搜索、执行代码等功能。
实验版本将通过Gemini API和谷歌的AI开发平台提供,音频和图像生成功能仅对早期接入合作伙伴开放。
Project Mariner:
谷歌发布了首个能够在网页上执行操作的AI代理Project Mariner,由Gemini驱动。
能够接管用户的Chrome浏览器,移动光标,点击按钮,填写表单,像人类一样使用和浏览网站。
Multimodal Live API:
谷歌推出了一个API,名为Multimodal Live API,帮助开发者构建具有实时音频和视频流功能的应用程序。
支持工具集成以完成任务,并能够处理自然对话模式。
AI代理:
Deep Research:帮助用户研究复杂研究,创建多步骤研究计划。
Jules:帮助开发者完成代码任务,集成到GitHub工作流中。
游戏AI代理:帮助用户熟悉游戏,基于DeepMind在游戏AI方面的经验。
AI生成摘要“AI Overviews”:
基于Gemini 2.0模型的AI生成摘要功能,将处理更复杂的话题和多模态、多步骤的搜索内容。包括高级数学问题和编程问题。
Trillium芯片:
谷歌发布了第六代人工智能加速器芯片Trillium,性能是上一代的四倍,同时大幅降低能耗。
谷歌已将超过10万颗Trillium芯片连接在一个网络结构中,形成了全球最强大的AI超级计算机之一。
Meta也发布了最新的开源大模型Llama3.3,要点如下:
模型参数与性能:
Llama 3.3是一个70亿参数的生成式AI模型。
Meta CEO扎克伯格表示,Llama 3.3的性能可以比肩Meta最大的Llama模型——拥有4050亿参数的Llama 3.1,但成本更低。
技术进步:
Llama 3.3利用了包括在线偏好优化在内的最新后训练技术,显著降低了成本并提高了核心性能。
Meta生成式AI副总裁Ahmad Al-Dahle表示,这些技术进展使得Llama 3.3更容易被整个开源社区所接受。
基准测试表现:
Llama 3.3在一系列行业基准测试中表现优于谷歌的Gemini 1.5 Pro、OpenAI的GPT-4o和亚马逊的Nova Pro。
这些测试包括针对大模型语言理解能力的测试MMLU。
开源与下载:
Llama 3.3目前已经可以在Llama官网和AI开发平台Hugging Face等网上来源下载。
Meta试图以可供大范围商业应用的开源模型主导AI模型市场,新模型是Meta为此目标的最新努力。
Meta的数据显示,Llama的下载量已超过6.5亿次。
扎克伯格称,Meta的AI助手Meta AI完全由Llama模型提供支持,目前每月拥有将近6亿活跃用户。
此外,被曝出在大模型进度上缓慢的亚马逊推出了nova AI模型,介绍如下:
模型系列:
Amazon Nova Micro:纯文本模型,提供最低延迟的响应,非常适用于需要快速响应的应用场景,如文本摘要、翻译、内容分类等。
Amazon Nova Lite:低成本的多模态模型,能够快速处理图像、视频和文本输入,适合高交互性和高并发的应用场景。
Amazon Nova Pro:高度能力的多模态模型,提供准确性、速度和成本的最佳平衡,适用于视频总结、问答、软件开发等任务。
Amazon Nova Premier:亚马逊最强大多模态模型,用于复杂推理任务。
Amazon Nova Canvas:图像生成模型,能够根据文本或图像提示生成高质量的专业级图像,并支持编辑和自定义内容。
Amazon Nova Reel:视频生成模型,用户可以通过文本和图像提示快速创建高质量的视频,支持自然语言提示控制视频风格和节奏。
Nova系列模型支持超过200种语言,并针对多种语言进行了优化。模型支持长达128K至300K的输入令牌,即可以处理长达30分钟的视频内容。所有Nova模型都具备快速响应和高性价比,至少比Amazon Bedrock中同类最佳性能模型便宜75%。
Nova Canvas和Nova Reel模型提供了高质量的输出、直观的API平台以及先进的自定义功能,帮助广告商和卖家激发创造力和创新。Nova Pro展示了强大的视频理解能力,能够详细描述视频内容,包括场景、队服、球员动作以及比赛结果。
亚马逊计划在2025年推出语音到语音模型和多模态到多模态模型,进一步扩展Nova系列的能力。此外,Nova模型内置了安全措施和保护机制,并推出了AWS AI服务卡,提供使用案例、局限性和负责任AI实践的透明信息。
此外,近期国内外还有许许多多AI大模型和应用上的进展,囿于篇幅笔者在这里暂时搁笔,后续会继续和大家追踪AI行业的最新进展,一起经历这次工业革命。
(笔者持有大型科技股股票。)
(风险提示:AI应用不及预期,投资过度,监管风险等。)
风险提示及免责声明
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
精彩评论