+关注
千羽卡罗拉
暂无个人介绍
IP属地:广东
2
关注
0
粉丝
0
主题
0
勋章
主贴
热门
千羽卡罗拉
2023-02-09
以后的客服,将都是AI了,它将会回答你的任何问题,也只会回答问题[冷漠]
让ChatGPT造车,能打得过特斯拉吗?
千羽卡罗拉
09-13
技术飞速迭代中
大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍
千羽卡罗拉
2023-03-14
说说你对这篇新闻的看法...
斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!
去老虎APP查看更多动态
{"i18n":{"language":"zh_CN"},"userPageInfo":{"id":"3569922558089083","uuid":"3569922558089083","gmtCreate":1606828535049,"gmtModify":1636080317019,"name":"千羽卡罗拉","pinyin":"qykllqianyukaluola","introduction":"","introductionEn":"","signature":"","avatar":"https://static.tigerbbs.com/5371c90bc051ff1750bdb82113ec3b5a","hat":null,"hatId":null,"hatName":null,"vip":1,"status":2,"fanSize":0,"headSize":2,"tweetSize":4,"questionSize":0,"limitLevel":999,"accountStatus":4,"level":{"id":0,"name":"","nameTw":"","represent":"","factor":"","iconColor":"","bgColor":""},"themeCounts":0,"badgeCounts":0,"badges":[],"moderator":false,"superModerator":false,"manageSymbols":null,"badgeLevel":null,"boolIsFan":false,"boolIsHead":false,"favoriteSize":1,"symbols":null,"coverImage":null,"realNameVerified":null,"userBadges":[{"badgeId":"e50ce593bb40487ebfb542ca54f6a561-2","templateUuid":"e50ce593bb40487ebfb542ca54f6a561","name":"资深虎友","description":"加入老虎社区1000天","bigImgUrl":"https://static.tigerbbs.com/0063fb68ea29c9ae6858c58630e182d5","smallImgUrl":"https://static.tigerbbs.com/96c699a93be4214d4b49aea6a5a5d1a4","grayImgUrl":"https://static.tigerbbs.com/35b0e542a9ff77046ed69ef602bc105d","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2023.08.29","exceedPercentage":null,"individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1001},{"badgeId":"228c86a078844d74991fff2b7ab2428d-1","templateUuid":"228c86a078844d74991fff2b7ab2428d","name":"投资经理虎","description":"证券账户累计交易金额达到10万美元","bigImgUrl":"https://static.tigerbbs.com/c8dfc27c1ee0e25db1c93e9d0b641101","smallImgUrl":"https://static.tigerbbs.com/f43908c142f8a33c78f5bdf0e2897488","grayImgUrl":"https://static.tigerbbs.com/82165ff19cb8a786e8919f92acee5213","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2023.07.14","exceedPercentage":"60.28%","individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1101},{"badgeId":"976c19eed35f4cd78f17501c2e99ef37-1","templateUuid":"976c19eed35f4cd78f17501c2e99ef37","name":"博闻投资者","description":"累计交易超过10只正股","bigImgUrl":"https://static.tigerbbs.com/e74cc24115c4fbae6154ec1b1041bf47","smallImgUrl":"https://static.tigerbbs.com/d48265cbfd97c57f9048db29f22227b0","grayImgUrl":"https://static.tigerbbs.com/76c6d6898b073c77e1c537ebe9ac1c57","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2021.12.28","exceedPercentage":null,"individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1102},{"badgeId":"518b5610c3e8410da5cfad115e4b0f5a-1","templateUuid":"518b5610c3e8410da5cfad115e4b0f5a","name":"实盘交易者","description":"完成一笔实盘交易","bigImgUrl":"https://static.tigerbbs.com/2e08a1cc2087a1de93402c2c290fa65b","smallImgUrl":"https://static.tigerbbs.com/4504a6397ce1137932d56e5f4ce27166","grayImgUrl":"https://static.tigerbbs.com/4b22c79415b4cd6e3d8ebc4a0fa32604","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2021.12.28","exceedPercentage":null,"individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1100},{"badgeId":"35ec162348d5460f88c959321e554969-1","templateUuid":"35ec162348d5460f88c959321e554969","name":"精英交易员","description":"证券或期货账户累计交易次数达到30次","bigImgUrl":"https://static.tigerbbs.com/ab0f87127c854ce3191a752d57b46edc","smallImgUrl":"https://static.tigerbbs.com/c9835ce48b8c8743566d344ac7a7ba8c","grayImgUrl":"https://static.tigerbbs.com/76754b53ce7a90019f132c1d2fbc698f","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2021.12.28","exceedPercentage":"60.86%","individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1100}],"userBadgeCount":5,"currentWearingBadge":null,"individualDisplayBadges":null,"crmLevel":3,"crmLevelSwitch":0,"location":"广东","starInvestorFollowerNum":0,"starInvestorFlag":false,"starInvestorOrderShareNum":0,"subscribeStarInvestorNum":0,"ror":null,"winRationPercentage":null,"showRor":false,"investmentPhilosophy":null,"starInvestorSubscribeFlag":false},"baikeInfo":{},"tab":"hot","tweets":[{"id":348860533530648,"gmtCreate":1726198433738,"gmtModify":1726201550612,"author":{"id":"3569922558089083","authorId":"3569922558089083","name":"千羽卡罗拉","avatar":"https://static.tigerbbs.com/5371c90bc051ff1750bdb82113ec3b5a","crmLevel":3,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3569922558089083","authorIdStr":"3569922558089083"},"themes":[],"htmlText":"技术飞速迭代中","listText":"技术飞速迭代中","text":"技术飞速迭代中","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/348860533530648","repostId":"1127704022","repostType":2,"repost":{"id":"1127704022","kind":"news","pubTimestamp":1726184627,"share":"https://www.laohu8.com/m/news/1127704022?lang=&edition=full","pubTime":"2024-09-13 07:43","market":"us","language":"zh","title":"大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍","url":"https://stock-news.laohu8.com/highlight/detail?id=1127704022","media":"Founder Park","summary":"OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!9 月 13 日凌晨,OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本——o1 mini。OpenAI 将此次发布称为「预览版」,强调 o1 仍处于早期阶段。在权限开放方面,OpenAI 采取了分阶段推广策略。基于这一突破性进展,我们决定将计数器重置为 1,并将这个全新的模型系列命名为 OpenAI o1,以彰显其开创性意义。","content":"<html><head></head><body><p>OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!</p><p style=\"text-align: justify;\">9 月 13 日凌晨,OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本——o1 mini。</p><p style=\"text-align: justify;\">OpenAI 将此次发布称为「预览版」,强调 o1 仍处于早期阶段。</p><p style=\"text-align: justify;\">OpenAI 的 API 负责人发文称:「如果你过去有个产品想法,当时的模型不太行,不够智能,现在你再试试」。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/7523e9f1b96ee44ccc6b003dd3218516\" title=\"\" tg-width=\"1080\" tg-height=\"608\"/></p><p style=\"text-align: justify;\">在权限开放方面,OpenAI 采取了分阶段推广策略。</p><ul style=\"\"><li><p style=\"text-align: justify;\">ChatGPT Plus 和 Team 用户可以立即访问 o1-preview 和 o1-mini。</p></li><li><p style=\"text-align: justify;\">Enterprise 和 Edu 用户将在下周获得访问权。</p></li><li><p style=\"text-align: justify;\">API 使用等级 5(已消费 1,000 美元且自首次付款以来已超过 30 天)的开发者,今日起可使用这两款模型,速率限制为 20 RPM。</p></li><li><p style=\"text-align: justify;\">OpenAI 还计划在未来向所有 ChatGPT 的免费用户开放 o1-mini 的使用权。</p></li></ul><p style=\"text-align: justify;\">对于开发者而言,通过 API 使用 o1 的成本不便宜。o1-preview 的定价为每百万输入 token 15 美元,每百万输出 token 60 美元,远高于 GPT-4o 的定价(输入 5 美元/百万 token,输出 15 美元/百万 token)。</p><h2 id=\"id_2720589625\">01 </h2><h2 id=\"id_2205185827\">OpenAI 员工:</h2><h2 id=\"id_965761073\">o1 重新定义了游戏规则</h2><p style=\"text-align: justify;\">在 OpenAI 员工的推文中,可以看到他们对于 o1 能力的赞许,以及一些关键的能力升级要点。</p><p style=\"text-align: justify;\"><strong>OpenAI API 负责人 Michelle Pokrass 推文:</strong></p><p style=\"text-align: justify;\">o1-preview 和 o1-mini 模型已经上线。它们是我们目前为止在推理方面表现最佳的模型,我们相信它们将为 API 解锁全新的应用场景。</p><p style=\"text-align: justify;\">如果你有一个产品创意,但时机尚未成熟,模型还不够智能——不妨再次尝试。</p><p style=\"text-align: justify;\">这些新模型并不能完全替代 4o。</p><p style=\"text-align: justify;\">你需要以不同的方式进行提示,并以新的方式构建你的应用程序,但我们认为它们将有助于缩小智能差距,帮助你开发出更好的产品。</p><p style=\"text-align: justify;\">(现在为 API 第五级用户推出,用户也将很快可以使用)</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/19f1bc45953d928c39961124ab2b9872\" title=\"\" tg-width=\"1080\" tg-height=\"720\"/></p><p style=\"text-align: justify;\"><strong>Greg Brockman 的推文:</strong></p><p style=\"text-align: justify;\">OpenAI o1—我们第一个通过强化学习训练的模型,在回答问题之前会深入思考。团队的工作令人非常自豪!</p><p style=\"text-align: justify;\">这是一个充满巨大机遇的新范式。这一点在定量上(例如推理指标已经显著提升)和定性上(例如忠实的思维链使模型易于理解,因为它允许你以简单的英语「阅读模型的思维」)都很明显。</p><p style=\"text-align: justify;\">可以这样理解,我们的模型进行系统 I 思考,而思维链则解锁了系统 II 思考。人们已经发现,提示模型「一步步思考」可以提升性能。但是通过试错来训练模型,从头到尾这样做,则更为可靠,并且——正如我们在围棋或 Dota 等游戏中所见——可以产生极其令人印象深刻的结果。</p><p style=\"text-align: justify;\">o1 技术仍处于早期阶段。它提供了新的安全机会,我们正在积极探索,包括可靠性、幻觉和对抗攻击者的鲁棒性。例如,我们已经看到,通过思维链让模型推理策略,我们的安全指标有了很大的提升。</p><p style=\"text-align: justify;\">其准确性也有很大的改进空间——例如,从我们的发布帖子来看,我们的模型在今年的编程奥林匹克竞赛(IOI)中,在人类条件下(每个问题 50 次提交)取得了第 49 百分位/213 分。但是,如果允许模型问题提交 10000 次,模型取得了 32.14 分——超过了金牌门槛。因此,模型能够产生比最初看起来更大的输出。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3b586e06c147e63b7b8b010bc64f1b92\" title=\"\" tg-width=\"1080\" tg-height=\"1320\"/></p><p style=\"text-align: justify;\"><strong>OpenAI 研究员 Jason Wei 的推文:</strong></p><p style=\"text-align: justify;\">o1 是一个在给出最终答案之前会进行思考的模型。用我自己的话来描述,以下是对人工智能领域最大的更新:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">不要仅仅通过提示来执行思维链,而是使用强化学习训练模型以更好地进行思维链。</p></li><li><p style=\"text-align: justify;\">在深度学习的历史中,我们一直试图扩展训练计算,但思维链是一种自适应计算,也可以在推理时进行扩展。</p></li><li><p style=\"text-align: justify;\">AIME 和 GPQA 的结果非常强大,但这并不一定转化为用户可以感受到的东西。即使是工作的人,也很难找到 GPT-4o 失败、o1 表现良好并且我可以评分的提示切片。但当你找到这样的提示时,o1 感觉完全像魔法一样。我们都需要找到更难的提示。</p></li><li><p style=\"text-align: justify;\">使用人类语言进行思维链的 AI 模型在很多方面都很棒。模型做了很多类似人类的事情,比如将棘手的步骤分解为更简单的步骤,识别和纠正错误,以及尝试不同的方法。强烈鼓励每个人都去看看博客文章中的思维链例子。</p></li></ol><p style=\"text-align: justify;\">游戏规则已经完全被重新定义了。</p><h2 id=\"id_1100112374\">02 </h2><h2 id=\"id_3503978320\">AI 能力的新飞跃,</h2><h2 id=\"id_2603940884\">所以取名 o1</h2><p style=\"text-align: justify;\">o1 采用强化学习技术进行训练,专门设计用于处理复杂的推理任务。与传统模型不同,o1 具有"深思熟虑"的能力——在给出最终回答之前,它能够在内部进行长链条的逻辑推理和思考过程,从而确保回应的质量和深度。</p><p style=\"text-align: justify;\">通过精心设计的训练过程,这些模型不仅学会了如何优化思考过程,还能灵活运用不同的问题解决策略,并且具备自我纠错的能力。</p><p style=\"text-align: justify;\">测试结果令人振奋。在即将推出的模型更新中,它在物理、化学和生物学等领域的复杂基准测试中,表现堪比博士生水平。</p><p style=\"text-align: justify;\">特别值得一提的是,它在数学和编程方面的表现尤为出色。举例来说,在国际数学奥林匹克(IMO)的资格考试中,我们的新推理模型正确解答了 83% 的问题,远超 GPT-4o 的 13%。在编程能力方面,通过 Codeforces 竞赛的评估,新模型的表现超过了 89% 的参赛者。</p><p style=\"text-align: justify;\">作为一个处于早期阶段的模型,它目前还不具备 ChatGPT 的一些实用功能,如网络浏览、文件上传和图像处理等,它在世界事实知识方面的表现也不如后者。<strong>短期内,对于日常应用场景,GPT-4o 可能仍然更为实用</strong>。</p><p style=\"text-align: justify;\">然而,在复杂推理任务方面,这个新模型代表了 AI 能力的一个重大飞跃。<strong>基于这一突破性进展,我们决定将计数器重置为 1,并将这个全新的模型系列命名为 OpenAI o1,以彰显其开创性意义。</strong></p><p style=\"text-align: justify;\">我们开发了一种创新的大规模强化学习算法,这种算法能够在高效利用数据的同时,有效地训练模型运用其思维链进行富有成效的推理。这种训练方法的核心在于教会模型"如何思考",而不仅仅是存储和检索信息。</p><p style=\"text-align: justify;\">通过持续的研究,我们发现了两个关键因素能显著提升 o1 模型的性能:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">增加强化学习的计算量(即训练阶段的计算资源投入)</p></li><li><p style=\"text-align: justify;\">延长模型的"思考时间"(即在测试或应用阶段给予模型更多的计算时间)</p></li></ol><p style=\"text-align: justify;\">这种方法在扩展性方面表现出了与传统大语言模型预训练截然不同的特点。传统的预训练主要受限于海量文本数据的获取和处理,而我们的方法更多地依赖于计算资源和算法优化。目前,我们正深入研究这种新方法的扩展限制,以期在未来取得更大的突破。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/8a59a2ccdacbe3fb5df3b8f472fedfb0\" title=\"o1 的性能随着训练时计算和测试时计算的增加而平稳提升。\" tg-width=\"1080\" tg-height=\"607\"/><span>o1 的性能随着训练时计算和测试时计算的增加而平稳提升。</span></p><h2 id=\"id_146392198\" style=\"text-align: justify;\">03 </h2><h2 id=\"id_2784279609\">数学:全面碾压 4o,</h2><h2 id=\"id_898269760\">成绩跻身全美前 500 名之列</h2><p style=\"text-align: justify;\">为了凸显 o1 模型在推理能力上相比 GPT-4o 的显著进步,我们设计了一套全面而严格的评估方案。这个方案包括了各种人类专业考试和机器学习领域公认的基准测试,涵盖了广泛的知识领域和复杂的推理任务。</p><p style=\"text-align: justify;\">测试结果令人振奋:在绝大多数需要深度思考和复杂推理的任务中,o1 模型都展现出了明显优于 GPT-4o 的表现。这一结果有力地证明了 o1 在处理高难度、需要多步推理的问题时的卓越能力。</p><p style=\"text-align: justify;\">值得注意的是,除非我们特别说明,所有针对 o1 的评估都是在最大化测试时间计算资源的情况下进行的。这意味着我们充分发挥了 o1 模型的潜力,让它有足够的"思考时间"来处理这些复杂任务。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/026aa59e823a1f7caa9c501b25a21667\" title=\"o1 在具有挑战性的推理基准测试中显著优于 GPT-4o。实心条表示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)性能。\" tg-width=\"1080\" tg-height=\"419\"/><span>o1 在具有挑战性的推理基准测试中显著优于 GPT-4o。实心条表示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)性能。</span></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/65fb30c159d93e924d9bcfe7263ee59e\" title=\"o1 在广泛的基准测试中超越了 GPT-4o,涵盖了 57 个 MMLU 子类别中的 54 个。\" tg-width=\"1080\" tg-height=\"810\"/><span>o1 在广泛的基准测试中超越了 GPT-4o,涵盖了 57 个 MMLU 子类别中的 54 个。</span></p><p style=\"text-align: justify;\">o1 模型在众多需要复杂推理能力的基准测试中展现出了与人类专家相当的水平,这一成就令人瞩目。值得注意的是,近期一些顶尖的 AI 模型在 MATH2 和 GSM8K 等传统数学测试中的表现已经如此出色,以至于这些测试不再能有效地区分不同模型的能力。</p><p style=\"text-align: justify;\">为了更严格地评估 o1 的数学能力,我们选择了美国数学邀请赛(AIME)作为测试基准。AIME 是专为挑战美国最优秀的高中数学生而设计的高难度考试,能够更好地测试模型的极限能力。</p><p style=\"text-align: justify;\">在 2024 年的 AIME 考试中,我们对比了 o1 和 GPT-4o 的表现:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">GPT-4o 的表现:平均只能解决 12% 的问题(15 题中的 1.8 题)。</p></li><li><p style=\"text-align: justify;\">o1 的表现:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">单次尝试:平均解决 74% 的问题(15 题中的 11.1 题)</p></li><li><p style=\"text-align: justify;\">64 次采样取共识:正确率提升至 83%(15 题中的 12.5 题)</p></li><li><p style=\"text-align: justify;\">1000 次采样后使用学习型评分函数重新排序:正确率高达 93%(15 题中的 13.9 题)</p></li></ol></li></ol><p style=\"text-align: justify;\">o1 的最佳成绩 13.9 分是一个令人惊叹的结果。这一分数不仅使 o1 跻身全美前 500 名的优秀学生行列,更是超过了美国数学奥林匹克竞赛的入选分数线。这意味着,<strong>如果 o1 是一名高中生,它的数学能力足以让它有资格参加美国最高级别的数学竞赛</strong>。</p><p style=\"text-align: justify;\">我们进一步将 o1 模型应用于 GPQA diamond 测试,这是一个极具挑战性的智能基准测试,专门用于评估模型在化学、物理和生物学等领域的专业知识水平。为了进行公平的人机对比,我们特别邀请了拥有相关领域博士学位的专家参与测试。</p><p style=\"text-align: justify;\">测试结果令人振奋:o1 不仅成功完成了测试,更是超越了人类专家的表现,成为首个在 GPQA diamond 基准上击败人类专家的 AI 模型。这一突破性成就标志着 AI 在特定专业领域的能力已经达到了一个新的高度。</p><p style=\"text-align: justify;\">然而,我们需要谨慎地解读这一结果。o1 超越人类专家的表现并不意味着它在所有方面都比拥有博士学位的专家更强。相反,这表明 o1 在解决某些特定类型的问题上——即那些通常需要博士级专业知识的问题——展现出了非凡的熟练度和效率。</p><p style=\"text-align: justify;\">除 GPQA diamond 外,o1 在其他多个机器学习基准测试中也取得了突破性进展,推动了行业的技术前沿:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">在启用视觉感知能力的情况下,o1 在 MMMU(多模态理解)测试中获得了 78.2% 的高分。这一成绩使 o1 成为首个能够与人类专家在该领域展开竞争的 AI 模型,展示了其在多模态任务中的卓越表现。</p></li><li><p style=\"text-align: justify;\">在 MMLU(大规模多任务语言理解)测试中,o1 的表现更是令人瞩目。在总计 57 个子类别中,o1 在 54 个类别上都超越了 GPT-4o 的表现。这一结果充分证明了 o1 在广泛的知识领域和任务类型中的全面优势。</p></li></ol><p style=\"text-align: justify;\">这些测试结果共同描绘了 o1 模型的全面能力图谱:它不仅在专业领域的深度知识上能与人类专家比肩,还在广泛的知识领域和多模态任务中展现出了优异的表现。这些成就标志着 AI 技术在通用智能和专业领域应用方面都取得了重大突破,为未来 AI 在更多复杂任务中的应用开辟了新的可能性。</p><h2 id=\"id_2769052778\">04 </h2><h2 id=\"id_2447425538\">编程:编程竞赛优于 93% 的参赛者</h2><p style=\"text-align: justify;\">我们基于 o1 模型进行了深度优化和专项训练,成功开发出了一个在编程领域表现卓越的 AI 模型。这个模型在 2024 年国际信息学奥林匹克竞赛(IOI)中展现了令人瞩目的实力,不仅获得了 213 分的高分,还跻身参赛者的前 50%,这一成绩充分证明了 AI 在高难度编程任务中的潜力。</p><p style=\"text-align: justify;\">比赛设置与挑战:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">竞赛环境:AI 模型与人类参赛者在完全相同的条件下参加比赛。</p></li><li><p style=\"text-align: justify;\">任务难度:需要在 10 小时内解决 6 个高难度算法问题。</p></li><li><p style=\"text-align: justify;\">提交限制:每个问题允许 50 次提交机会。</p></li></ol><p style=\"text-align: justify;\">我们开发了一套独特的测试时选择策略,显著提升了模型的竞争力:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">多样化采样:系统为每个问题生成大量候选解决方案。</p></li><li><p style=\"text-align: justify;\">智能筛选:基于 IOI 公开测试用例、模型自生成的测试用例以及专门设计的评分函数,从中选出最优的 50 个解决方案提交。</p></li><li><p style=\"text-align: justify;\">策略效果:与随机提交相比,这一策略平均提升了近 60 分,充分证明了其在严格的竞赛环境中的价值。</p></li></ol><p style=\"text-align: justify;\">突破性表现:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">放宽限制后的惊人成绩:当每题允许 10,000 次提交时,即使没有使用任何测试时选择策略,模型也取得了 362.14 分的高分,超越了金牌获得的门槛。这一结果展示了模型在更宽松条件下的潜力。</p></li><li><p style=\"text-align: justify;\">在 Codeforces 平台的卓越表现:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">模拟环境:我们在 Codeforces 平台上模拟了真实的竞争性编程比赛,严格遵循比赛规则,每题允许 10 次提交。</p></li><li><p style=\"text-align: justify;\">惊人突破:我们的新模型获得了 1807 的 Elo 评分,超越了 93% 的人类竞争者。</p></li><li><p style=\"text-align: justify;\">显著进步:相比之下,GPT-4o 的 Elo 评分为 808,仅超过 11% 的人类竞争者。新模型不仅大幅超越了 GPT-4o,还远远超过了 o1 的表现。</p></li></ol></li></ol><p style=\"text-align: justify;\">这些结果清晰地展示了我们的 AI 模型在编程领域取得的重大突破。它不仅能在世界顶级的编程竞赛中与人类专家同台竞技,更在某些方面展现出超越人类的潜力。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/dc1acba538ff6c683df7a4f0eda75ff4\" title=\"通过在编程竞赛上进一步微调改进了 o1。在竞赛规则下,改进后的模型在 2024 年国际信息学奥林匹克竞赛中排名在第 49 百分位。\" tg-width=\"1080\" tg-height=\"607\"/><span>通过在编程竞赛上进一步微调改进了 o1。在竞赛规则下,改进后的模型在 2024 年国际信息学奥林匹克竞赛中排名在第 49 百分位。</span></p><h2 id=\"id_1213464210\">05 </h2><h2 id=\"id_3288595994\">人类偏好评估:</h2><h2 id=\"id_2614987790\">文本生成 4o 仍占优势</h2><p style=\"text-align: justify;\">为了全面评估 AI 模型的实际应用效果,我们不仅关注传统的考试成绩和学术基准,还进行了一项创新的人类偏好评估。这项评估旨在比较 o1-preview 和 GPT-4o 两个模型在处理各种领域复杂、开放性问题时的表现。</p><p style=\"text-align: justify;\">评估方法:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">范围广泛:涵盖了多个不同领域的挑战性问题。</p></li><li><p style=\"text-align: justify;\">开放式提示:使用开放性问题来测试模型的灵活性和创造力。</p></li><li><p style=\"text-align: justify;\">匿名对比:向人类评估者展示两个模型的匿名回答。</p></li><li><p style=\"text-align: justify;\">人工判断:由经过培训的人类专家投票选择他们认为更优秀的回答。</p></li></ol><p style=\"text-align: justify;\">关键发现:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">o1-preview 的优势领域:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">在需要深度推理能力的领域中,o1-preview 表现出色,大幅领先于 GPT-4o。</p></li><li><p style=\"text-align: justify;\">这些领域主要包括:数据分析、编程和数学。</p></li><li><p style=\"text-align: justify;\">优势明显,显示出 o1-preview 在处理复杂逻辑和抽象思维方面的卓越能力。</p></li></ol></li><li><p style=\"text-align: justify;\">GPT-4o 的优势领域:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">在某些自然语言处理任务中,GPT-4o 仍然保持优势。</p></li><li><p style=\"text-align: justify;\">这表明语言模型在处理日常交流、文本生成等任务时可能更有优势。</p></li></ol></li><li><p style=\"text-align: justify;\">模型适用性的差异:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">o1-preview 虽然在某些领域表现出色,但并非全能。</p></li><li><p style=\"text-align: justify;\">这一发现强调了不同 AI 模型在不同任务中的专长,暗示了未来 AI 应用可能需要任务特定的模型选择。</p></li></ol></li></ol><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/6061f6f9532374c52f736203713d7588\" title=\"\" tg-width=\"1080\" tg-height=\"648\"/></p><p style=\"text-align: justify;\">结论:这项评估不仅展示了 o1-preview 在处理复杂推理任务时的优越性,也揭示了 AI 模型能力的多样性。它提醒我们,在选择和应用 AI 模型时,需要根据具体任务和场景来选择最合适的工具。同时,这也为未来 AI 模型的开发提供了方向,即如何在保持强大推理能力的同时,提升在自然语言处理等领域的表现。</p><h2 id=\"id_2820373998\" style=\"text-align: justify;\">06 </h2><h2 id=\"id_315422232\">幻觉没有解决,</h2><h2 id=\"id_2932824596\">但思维链很强大</h2><p style=\"text-align: justify;\">在 AI 领域,"思维链"(Chain of Thought)是一个重要概念,它代表了 AI 模型在生成答案时的内部推理过程。这个过程就像人类的思考过程一样,包含了从问题到解决方案的一系列逻辑步骤。o1 运用"思维链"(chain of thought)方法来处理复杂任务。这种方法不仅模仿了人类的思考模式,还通过先进的强化学习技术不断优化和提升。</p><p style=\"text-align: justify;\">o1 的学习过程体现了多个关键特点:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">思维链优化:通过强化学习,o1 不断完善其思维链,提升解决问题的策略。</p></li><li><p style=\"text-align: justify;\">错误识别与纠正:o1 具备自我检查的能力,能够识别并纠正在推理过程中出现的错误。</p></li><li><p style=\"text-align: justify;\">问题分解能力:面对复杂问题时,o1 学会了将其分解为更简单、更易处理的子问题。</p></li><li><p style=\"text-align: justify;\">灵活的方法转换:当发现当前方法无效时,o1 能够灵活地转换思路,尝试新的解决方案。</p></li></ol><p style=\"text-align: justify;\">这种多层次、自适应的学习过程极大地提升了 o1 的推理能力,使其在处理复杂问题时展现出近乎人类的灵活性和创造性。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/e121dc2bc5b13639a7f9d5781b9bc9c7\" title=\"诸如「我对……感到好奇」、「我正在思考」和「好的,让我看看」这样的短语,呈现一种思考的感觉。\" tg-width=\"1080\" tg-height=\"699\"/><span>诸如「我对……感到好奇」、「我正在思考」和「好的,让我看看」这样的短语,呈现一种思考的感觉。</span></p><p style=\"text-align: justify;\">思维链的潜在价值:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">模型监控:通过分析思维链,我们可以深入了解 AI 的"思考方式"。</p></li><li><p style=\"text-align: justify;\">安全保障:未来可能利用思维链检测 AI 是否试图操纵用户。</p></li><li><p style=\"text-align: justify;\">透明度:为 AI 决策提供解释性,增加其可信度。</p></li></ol><p style=\"text-align: justify;\">尽管思维链具有上述潜在价值,<strong>我们还是决定不向用户直接展示原始思维链</strong>。这个决定基于以下考虑:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">用户体验:原始思维链可能复杂难懂,影响用户体验。</p></li><li><p style=\"text-align: justify;\">竞争优势:保护核心技术细节。</p></li><li><p style=\"text-align: justify;\">监控灵活性:保留未来进行思维链监控的选项。</p></li><li><p style=\"text-align: justify;\">安全考虑:防止未经过滤的、可能存在问题的思维过程直接暴露给用户。</p></li></ol><p style=\"text-align: justify;\">为了在隐藏思维链和提供有价值信息之间取得平衡,我们采取了以下措施:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">智能提取:训练模型从思维链中提取有用信息并融入最终回答。</p></li><li><p style=\"text-align: justify;\">摘要生成:对于 o1 模型系列,我们提供由模型生成的思维链摘要,既保留了关键信息,又避免了原始数据的直接暴露。</p></li></ol><h2 id=\"id_2935302693\" style=\"text-align: justify;\">07 </h2><h2 id=\"id_3804473701\">o1 最适合哪些领域</h2><p style=\"text-align: justify;\">这一代模型凭借其卓越的推理能力,将为多个领域的专业人士带来显著助益,尤其是那些在科学研究、软件开发、数学计算等领域面临复杂挑战的人。让我们来看几个具体的应用场景:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">医疗研究领域:生物信息学家可以利用 o1 来协助细胞测序数据的注释工作,大大提高基因组研究的效率。</p></li><li><p style=\"text-align: justify;\">物理学研究:在量子光学这样的前沿领域,物理学家可以借助 o1 生成复杂的数学公式,加速理论研究和实验设计。</p></li><li><p style=\"text-align: justify;\">软件开发:不论是哪个行业的开发者,都可以利用 o1 来构建和执行多步骤的工作流程,简化复杂的编程任务。</p></li></ol><p style=\"text-align: justify;\">总的来说,o1 模型为那些需要处理高度复杂问题、进行深度分析或创新研究的专业人士提供了强大的智能辅助工具。</p></body></html>","source":"lsy1683257321184","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍\n</h2>\n\n<h4 class=\"meta\">\n\n\n2024-09-13 07:43 北京时间 <a href=https://mp.weixin.qq.com/s/O7JjH182dyIP7bgSaYomBg><strong>Founder Park</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!9 月 13 日凌晨,OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本——o1 mini。OpenAI 将此次发布称为「预览版」,强调 o1 仍处于早期阶段。OpenAI 的 API 负责人发文称:「如果你过去有个产品想法,当时的模型不太行,不够智能,现在...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/O7JjH182dyIP7bgSaYomBg\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/038f26efc16ee0d098630b6275bc5f77","relate_stocks":{},"source_url":"https://mp.weixin.qq.com/s/O7JjH182dyIP7bgSaYomBg","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1127704022","content_text":"OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!9 月 13 日凌晨,OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本——o1 mini。OpenAI 将此次发布称为「预览版」,强调 o1 仍处于早期阶段。OpenAI 的 API 负责人发文称:「如果你过去有个产品想法,当时的模型不太行,不够智能,现在你再试试」。在权限开放方面,OpenAI 采取了分阶段推广策略。ChatGPT Plus 和 Team 用户可以立即访问 o1-preview 和 o1-mini。Enterprise 和 Edu 用户将在下周获得访问权。API 使用等级 5(已消费 1,000 美元且自首次付款以来已超过 30 天)的开发者,今日起可使用这两款模型,速率限制为 20 RPM。OpenAI 还计划在未来向所有 ChatGPT 的免费用户开放 o1-mini 的使用权。对于开发者而言,通过 API 使用 o1 的成本不便宜。o1-preview 的定价为每百万输入 token 15 美元,每百万输出 token 60 美元,远高于 GPT-4o 的定价(输入 5 美元/百万 token,输出 15 美元/百万 token)。01 OpenAI 员工:o1 重新定义了游戏规则在 OpenAI 员工的推文中,可以看到他们对于 o1 能力的赞许,以及一些关键的能力升级要点。OpenAI API 负责人 Michelle Pokrass 推文:o1-preview 和 o1-mini 模型已经上线。它们是我们目前为止在推理方面表现最佳的模型,我们相信它们将为 API 解锁全新的应用场景。如果你有一个产品创意,但时机尚未成熟,模型还不够智能——不妨再次尝试。这些新模型并不能完全替代 4o。你需要以不同的方式进行提示,并以新的方式构建你的应用程序,但我们认为它们将有助于缩小智能差距,帮助你开发出更好的产品。(现在为 API 第五级用户推出,用户也将很快可以使用)Greg Brockman 的推文:OpenAI o1—我们第一个通过强化学习训练的模型,在回答问题之前会深入思考。团队的工作令人非常自豪!这是一个充满巨大机遇的新范式。这一点在定量上(例如推理指标已经显著提升)和定性上(例如忠实的思维链使模型易于理解,因为它允许你以简单的英语「阅读模型的思维」)都很明显。可以这样理解,我们的模型进行系统 I 思考,而思维链则解锁了系统 II 思考。人们已经发现,提示模型「一步步思考」可以提升性能。但是通过试错来训练模型,从头到尾这样做,则更为可靠,并且——正如我们在围棋或 Dota 等游戏中所见——可以产生极其令人印象深刻的结果。o1 技术仍处于早期阶段。它提供了新的安全机会,我们正在积极探索,包括可靠性、幻觉和对抗攻击者的鲁棒性。例如,我们已经看到,通过思维链让模型推理策略,我们的安全指标有了很大的提升。其准确性也有很大的改进空间——例如,从我们的发布帖子来看,我们的模型在今年的编程奥林匹克竞赛(IOI)中,在人类条件下(每个问题 50 次提交)取得了第 49 百分位/213 分。但是,如果允许模型问题提交 10000 次,模型取得了 32.14 分——超过了金牌门槛。因此,模型能够产生比最初看起来更大的输出。OpenAI 研究员 Jason Wei 的推文:o1 是一个在给出最终答案之前会进行思考的模型。用我自己的话来描述,以下是对人工智能领域最大的更新:不要仅仅通过提示来执行思维链,而是使用强化学习训练模型以更好地进行思维链。在深度学习的历史中,我们一直试图扩展训练计算,但思维链是一种自适应计算,也可以在推理时进行扩展。AIME 和 GPQA 的结果非常强大,但这并不一定转化为用户可以感受到的东西。即使是工作的人,也很难找到 GPT-4o 失败、o1 表现良好并且我可以评分的提示切片。但当你找到这样的提示时,o1 感觉完全像魔法一样。我们都需要找到更难的提示。使用人类语言进行思维链的 AI 模型在很多方面都很棒。模型做了很多类似人类的事情,比如将棘手的步骤分解为更简单的步骤,识别和纠正错误,以及尝试不同的方法。强烈鼓励每个人都去看看博客文章中的思维链例子。游戏规则已经完全被重新定义了。02 AI 能力的新飞跃,所以取名 o1o1 采用强化学习技术进行训练,专门设计用于处理复杂的推理任务。与传统模型不同,o1 具有\"深思熟虑\"的能力——在给出最终回答之前,它能够在内部进行长链条的逻辑推理和思考过程,从而确保回应的质量和深度。通过精心设计的训练过程,这些模型不仅学会了如何优化思考过程,还能灵活运用不同的问题解决策略,并且具备自我纠错的能力。测试结果令人振奋。在即将推出的模型更新中,它在物理、化学和生物学等领域的复杂基准测试中,表现堪比博士生水平。特别值得一提的是,它在数学和编程方面的表现尤为出色。举例来说,在国际数学奥林匹克(IMO)的资格考试中,我们的新推理模型正确解答了 83% 的问题,远超 GPT-4o 的 13%。在编程能力方面,通过 Codeforces 竞赛的评估,新模型的表现超过了 89% 的参赛者。作为一个处于早期阶段的模型,它目前还不具备 ChatGPT 的一些实用功能,如网络浏览、文件上传和图像处理等,它在世界事实知识方面的表现也不如后者。短期内,对于日常应用场景,GPT-4o 可能仍然更为实用。然而,在复杂推理任务方面,这个新模型代表了 AI 能力的一个重大飞跃。基于这一突破性进展,我们决定将计数器重置为 1,并将这个全新的模型系列命名为 OpenAI o1,以彰显其开创性意义。我们开发了一种创新的大规模强化学习算法,这种算法能够在高效利用数据的同时,有效地训练模型运用其思维链进行富有成效的推理。这种训练方法的核心在于教会模型\"如何思考\",而不仅仅是存储和检索信息。通过持续的研究,我们发现了两个关键因素能显著提升 o1 模型的性能:增加强化学习的计算量(即训练阶段的计算资源投入)延长模型的\"思考时间\"(即在测试或应用阶段给予模型更多的计算时间)这种方法在扩展性方面表现出了与传统大语言模型预训练截然不同的特点。传统的预训练主要受限于海量文本数据的获取和处理,而我们的方法更多地依赖于计算资源和算法优化。目前,我们正深入研究这种新方法的扩展限制,以期在未来取得更大的突破。o1 的性能随着训练时计算和测试时计算的增加而平稳提升。03 数学:全面碾压 4o,成绩跻身全美前 500 名之列为了凸显 o1 模型在推理能力上相比 GPT-4o 的显著进步,我们设计了一套全面而严格的评估方案。这个方案包括了各种人类专业考试和机器学习领域公认的基准测试,涵盖了广泛的知识领域和复杂的推理任务。测试结果令人振奋:在绝大多数需要深度思考和复杂推理的任务中,o1 模型都展现出了明显优于 GPT-4o 的表现。这一结果有力地证明了 o1 在处理高难度、需要多步推理的问题时的卓越能力。值得注意的是,除非我们特别说明,所有针对 o1 的评估都是在最大化测试时间计算资源的情况下进行的。这意味着我们充分发挥了 o1 模型的潜力,让它有足够的\"思考时间\"来处理这些复杂任务。o1 在具有挑战性的推理基准测试中显著优于 GPT-4o。实心条表示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)性能。o1 在广泛的基准测试中超越了 GPT-4o,涵盖了 57 个 MMLU 子类别中的 54 个。o1 模型在众多需要复杂推理能力的基准测试中展现出了与人类专家相当的水平,这一成就令人瞩目。值得注意的是,近期一些顶尖的 AI 模型在 MATH2 和 GSM8K 等传统数学测试中的表现已经如此出色,以至于这些测试不再能有效地区分不同模型的能力。为了更严格地评估 o1 的数学能力,我们选择了美国数学邀请赛(AIME)作为测试基准。AIME 是专为挑战美国最优秀的高中数学生而设计的高难度考试,能够更好地测试模型的极限能力。在 2024 年的 AIME 考试中,我们对比了 o1 和 GPT-4o 的表现:GPT-4o 的表现:平均只能解决 12% 的问题(15 题中的 1.8 题)。o1 的表现:单次尝试:平均解决 74% 的问题(15 题中的 11.1 题)64 次采样取共识:正确率提升至 83%(15 题中的 12.5 题)1000 次采样后使用学习型评分函数重新排序:正确率高达 93%(15 题中的 13.9 题)o1 的最佳成绩 13.9 分是一个令人惊叹的结果。这一分数不仅使 o1 跻身全美前 500 名的优秀学生行列,更是超过了美国数学奥林匹克竞赛的入选分数线。这意味着,如果 o1 是一名高中生,它的数学能力足以让它有资格参加美国最高级别的数学竞赛。我们进一步将 o1 模型应用于 GPQA diamond 测试,这是一个极具挑战性的智能基准测试,专门用于评估模型在化学、物理和生物学等领域的专业知识水平。为了进行公平的人机对比,我们特别邀请了拥有相关领域博士学位的专家参与测试。测试结果令人振奋:o1 不仅成功完成了测试,更是超越了人类专家的表现,成为首个在 GPQA diamond 基准上击败人类专家的 AI 模型。这一突破性成就标志着 AI 在特定专业领域的能力已经达到了一个新的高度。然而,我们需要谨慎地解读这一结果。o1 超越人类专家的表现并不意味着它在所有方面都比拥有博士学位的专家更强。相反,这表明 o1 在解决某些特定类型的问题上——即那些通常需要博士级专业知识的问题——展现出了非凡的熟练度和效率。除 GPQA diamond 外,o1 在其他多个机器学习基准测试中也取得了突破性进展,推动了行业的技术前沿:在启用视觉感知能力的情况下,o1 在 MMMU(多模态理解)测试中获得了 78.2% 的高分。这一成绩使 o1 成为首个能够与人类专家在该领域展开竞争的 AI 模型,展示了其在多模态任务中的卓越表现。在 MMLU(大规模多任务语言理解)测试中,o1 的表现更是令人瞩目。在总计 57 个子类别中,o1 在 54 个类别上都超越了 GPT-4o 的表现。这一结果充分证明了 o1 在广泛的知识领域和任务类型中的全面优势。这些测试结果共同描绘了 o1 模型的全面能力图谱:它不仅在专业领域的深度知识上能与人类专家比肩,还在广泛的知识领域和多模态任务中展现出了优异的表现。这些成就标志着 AI 技术在通用智能和专业领域应用方面都取得了重大突破,为未来 AI 在更多复杂任务中的应用开辟了新的可能性。04 编程:编程竞赛优于 93% 的参赛者我们基于 o1 模型进行了深度优化和专项训练,成功开发出了一个在编程领域表现卓越的 AI 模型。这个模型在 2024 年国际信息学奥林匹克竞赛(IOI)中展现了令人瞩目的实力,不仅获得了 213 分的高分,还跻身参赛者的前 50%,这一成绩充分证明了 AI 在高难度编程任务中的潜力。比赛设置与挑战:竞赛环境:AI 模型与人类参赛者在完全相同的条件下参加比赛。任务难度:需要在 10 小时内解决 6 个高难度算法问题。提交限制:每个问题允许 50 次提交机会。我们开发了一套独特的测试时选择策略,显著提升了模型的竞争力:多样化采样:系统为每个问题生成大量候选解决方案。智能筛选:基于 IOI 公开测试用例、模型自生成的测试用例以及专门设计的评分函数,从中选出最优的 50 个解决方案提交。策略效果:与随机提交相比,这一策略平均提升了近 60 分,充分证明了其在严格的竞赛环境中的价值。突破性表现:放宽限制后的惊人成绩:当每题允许 10,000 次提交时,即使没有使用任何测试时选择策略,模型也取得了 362.14 分的高分,超越了金牌获得的门槛。这一结果展示了模型在更宽松条件下的潜力。在 Codeforces 平台的卓越表现:模拟环境:我们在 Codeforces 平台上模拟了真实的竞争性编程比赛,严格遵循比赛规则,每题允许 10 次提交。惊人突破:我们的新模型获得了 1807 的 Elo 评分,超越了 93% 的人类竞争者。显著进步:相比之下,GPT-4o 的 Elo 评分为 808,仅超过 11% 的人类竞争者。新模型不仅大幅超越了 GPT-4o,还远远超过了 o1 的表现。这些结果清晰地展示了我们的 AI 模型在编程领域取得的重大突破。它不仅能在世界顶级的编程竞赛中与人类专家同台竞技,更在某些方面展现出超越人类的潜力。通过在编程竞赛上进一步微调改进了 o1。在竞赛规则下,改进后的模型在 2024 年国际信息学奥林匹克竞赛中排名在第 49 百分位。05 人类偏好评估:文本生成 4o 仍占优势为了全面评估 AI 模型的实际应用效果,我们不仅关注传统的考试成绩和学术基准,还进行了一项创新的人类偏好评估。这项评估旨在比较 o1-preview 和 GPT-4o 两个模型在处理各种领域复杂、开放性问题时的表现。评估方法:范围广泛:涵盖了多个不同领域的挑战性问题。开放式提示:使用开放性问题来测试模型的灵活性和创造力。匿名对比:向人类评估者展示两个模型的匿名回答。人工判断:由经过培训的人类专家投票选择他们认为更优秀的回答。关键发现:o1-preview 的优势领域:在需要深度推理能力的领域中,o1-preview 表现出色,大幅领先于 GPT-4o。这些领域主要包括:数据分析、编程和数学。优势明显,显示出 o1-preview 在处理复杂逻辑和抽象思维方面的卓越能力。GPT-4o 的优势领域:在某些自然语言处理任务中,GPT-4o 仍然保持优势。这表明语言模型在处理日常交流、文本生成等任务时可能更有优势。模型适用性的差异:o1-preview 虽然在某些领域表现出色,但并非全能。这一发现强调了不同 AI 模型在不同任务中的专长,暗示了未来 AI 应用可能需要任务特定的模型选择。结论:这项评估不仅展示了 o1-preview 在处理复杂推理任务时的优越性,也揭示了 AI 模型能力的多样性。它提醒我们,在选择和应用 AI 模型时,需要根据具体任务和场景来选择最合适的工具。同时,这也为未来 AI 模型的开发提供了方向,即如何在保持强大推理能力的同时,提升在自然语言处理等领域的表现。06 幻觉没有解决,但思维链很强大在 AI 领域,\"思维链\"(Chain of Thought)是一个重要概念,它代表了 AI 模型在生成答案时的内部推理过程。这个过程就像人类的思考过程一样,包含了从问题到解决方案的一系列逻辑步骤。o1 运用\"思维链\"(chain of thought)方法来处理复杂任务。这种方法不仅模仿了人类的思考模式,还通过先进的强化学习技术不断优化和提升。o1 的学习过程体现了多个关键特点:思维链优化:通过强化学习,o1 不断完善其思维链,提升解决问题的策略。错误识别与纠正:o1 具备自我检查的能力,能够识别并纠正在推理过程中出现的错误。问题分解能力:面对复杂问题时,o1 学会了将其分解为更简单、更易处理的子问题。灵活的方法转换:当发现当前方法无效时,o1 能够灵活地转换思路,尝试新的解决方案。这种多层次、自适应的学习过程极大地提升了 o1 的推理能力,使其在处理复杂问题时展现出近乎人类的灵活性和创造性。诸如「我对……感到好奇」、「我正在思考」和「好的,让我看看」这样的短语,呈现一种思考的感觉。思维链的潜在价值:模型监控:通过分析思维链,我们可以深入了解 AI 的\"思考方式\"。安全保障:未来可能利用思维链检测 AI 是否试图操纵用户。透明度:为 AI 决策提供解释性,增加其可信度。尽管思维链具有上述潜在价值,我们还是决定不向用户直接展示原始思维链。这个决定基于以下考虑:用户体验:原始思维链可能复杂难懂,影响用户体验。竞争优势:保护核心技术细节。监控灵活性:保留未来进行思维链监控的选项。安全考虑:防止未经过滤的、可能存在问题的思维过程直接暴露给用户。为了在隐藏思维链和提供有价值信息之间取得平衡,我们采取了以下措施:智能提取:训练模型从思维链中提取有用信息并融入最终回答。摘要生成:对于 o1 模型系列,我们提供由模型生成的思维链摘要,既保留了关键信息,又避免了原始数据的直接暴露。07 o1 最适合哪些领域这一代模型凭借其卓越的推理能力,将为多个领域的专业人士带来显著助益,尤其是那些在科学研究、软件开发、数学计算等领域面临复杂挑战的人。让我们来看几个具体的应用场景:医疗研究领域:生物信息学家可以利用 o1 来协助细胞测序数据的注释工作,大大提高基因组研究的效率。物理学研究:在量子光学这样的前沿领域,物理学家可以借助 o1 生成复杂的数学公式,加速理论研究和实验设计。软件开发:不论是哪个行业的开发者,都可以利用 o1 来构建和执行多步骤的工作流程,简化复杂的编程任务。总的来说,o1 模型为那些需要处理高度复杂问题、进行深度分析或创新研究的专业人士提供了强大的智能辅助工具。","news_type":1},"isVote":1,"tweetType":1,"viewCount":467,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":650994410,"gmtCreate":1678804339630,"gmtModify":1678806084472,"author":{"id":"3569922558089083","authorId":"3569922558089083","name":"千羽卡罗拉","avatar":"https://static.tigerbbs.com/5371c90bc051ff1750bdb82113ec3b5a","crmLevel":3,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3569922558089083","authorIdStr":"3569922558089083"},"themes":[],"htmlText":"说说你对这篇新闻的看法...","listText":"说说你对这篇新闻的看法...","text":"说说你对这篇新闻的看法...","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/650994410","repostId":"1156607844","repostType":2,"repost":{"id":"1156607844","kind":"news","pubTimestamp":1678802744,"share":"https://www.laohu8.com/m/news/1156607844?lang=&edition=full","pubTime":"2023-03-14 22:05","market":"us","language":"zh","title":"斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!","url":"https://stock-news.laohu8.com/highlight/detail?id=1156607844","media":"量子位","summary":"手机都能运行的那种。","content":"<html><head></head><body><p>作者:梦晨、金磊</p><p>一夜之间,大模型界又炸出个big news!</p><p>斯坦福发布<b>Alpaca</b>(羊驼,网友口中的“草泥马”):</p><blockquote>只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型,效果竟可比肩1750亿参数的GPT-3.5(text-davinci-003)。</blockquote><blockquote>而且还是单卡就能运行的那种,甚至树莓派、手机都能hold住!</blockquote><p><img src=\"https://static.tigerbbs.com/f436a314f5b3ceb7201c8f95756247b0\" tg-width=\"1080\" tg-height=\"363\" referrerpolicy=\"no-referrer\"/></p><p>还有一个更绝的“骚操作”。</p><p>研究所涉及到的数据集,是斯坦福团队花了不到500美元用OpenAI的API来生成的。</p><p>所以整个过程下来,就等同于GPT-3.5自己教出了个旗鼓相当的对手AI。</p><p>然后团队还说,用大多数云计算平台去微调训练好的模型,成本也不到100美元:</p><blockquote>复制一个GPT-3.5效果的AI,很便宜,很容易,还很小。</blockquote><p>而且团队还把数据集(秒省500刀)、代码统统都给开源了,这下子人人都能去微调个效果炸裂的对话AI:</p><p><img src=\"https://static.tigerbbs.com/68958b593daf256edd6979a114b9defc\" tg-width=\"1080\" tg-height=\"588\" referrerpolicy=\"no-referrer\"/></p><p>项目在GitHub发布才半天时间,便已经狂揽1800+星,火爆程度可见一斑。</p><p>Django联合开发者甚至对斯坦福的新研究用“惊天大事”来形容:</p><p><img src=\"https://static.tigerbbs.com/69cba1a83aaa22e8f8d2280f40b1cad1\" tg-width=\"1080\" tg-height=\"540\" referrerpolicy=\"no-referrer\"/></p><p>不仅如此,斯坦福团队还搞了个demo,在线可玩的那种。</p><p>话不多说,我们现在就来看看这个“草泥马”的效果。</p><p>比肩davinci-003的草泥马Aplaca</p><blockquote>什么是羊驼?它和美洲驼的区别是什么?</blockquote><p><img src=\"https://static.tigerbbs.com/6eaf97f58b36b62d1b6283548e6d289e\" tg-width=\"1080\" tg-height=\"756\" referrerpolicy=\"no-referrer\"/></p><p>草泥马Aplaca给出的答案较为干练:</p><blockquote>羊驼是一种小型骆驼科动物,原产于秘鲁、玻利维亚、厄瓜多尔和智利;它比美洲驼小,羊毛更细,也没有驼峰。</blockquote><p>而后又简单的介绍了二者群居生活的不同。</p><p>同样的问题若是交给ChatGPT(GPT3.5-turbo),则答案就不会像草泥马Aplaca那般简洁:</p><p><img src=\"https://static.tigerbbs.com/31f0675afb185848d0faa38ecc9f539a\" tg-width=\"1080\" tg-height=\"1034\" referrerpolicy=\"no-referrer\"/></p><p>对此,团队给出的解释是:</p><blockquote>Alpaca的答案通常比ChatGPT短,反映出text-davinci-003的输出较短。</blockquote><p>而后团队演示了让草泥马Alpaca<b>写邮件</b>:</p><blockquote>写一封e-mail祝贺被斯坦福大学录取的新生,并提到你很高兴能亲自见到他们。</blockquote><p>草泥马Alpaca对于这个任务也是信手拈来,直接给出了一个像模像样的邮件模板:</p><p><img src=\"https://static.tigerbbs.com/93c1be735703f0dfbe47245a345918fa\" tg-width=\"1080\" tg-height=\"564\" referrerpolicy=\"no-referrer\"/></p><p>难度再次进阶,团队这次提出了让草泥马Alpaca<b>写论文摘要</b>的需求:</p><blockquote>写一篇经过深思熟虑的机器学习论文摘要,证明42是训练神经网络的最优seed。</blockquote><p>草泥马Alpaca给出的答案从内容上来看,非常符合大多数论文的摘要形式:试图回答什么问题、用了什么方法、结果如何,以及未来展望。</p><p><img src=\"https://static.tigerbbs.com/43d1a4dabcc846a059a0b6656ebf5200\" tg-width=\"1080\" tg-height=\"426\" referrerpolicy=\"no-referrer\"/></p><p>当然,也有迫不及待的网友亲自下场试验,发现草泥马Alpaca写代码也是不在话下。</p><p><img src=\"https://static.tigerbbs.com/c773549771f136267a717558517bbe21\" tg-width=\"1080\" tg-height=\"516\" referrerpolicy=\"no-referrer\"/></p><p>不过即便草泥马Alpaca能够hold住大部分问题,但这并不意味着它没有缺陷。</p><p>例如团队便演示了一个例子,在回答“坦桑尼亚的首都是哪里”的问题时,草泥马Alpaca给出的答案是“达累斯萨拉姆”。</p><p>但实际上早在1975年便被“多多马”取代了。</p><p><img src=\"https://static.tigerbbs.com/315b5344257dbf54d150f720b6a6ea3b\" tg-width=\"1080\" tg-height=\"443\" referrerpolicy=\"no-referrer\"/></p><p>除此之外,若是亲自体验过草泥马Alpaca就会发现,它……巨慢:</p><p><img src=\"https://static.tigerbbs.com/54e16edb14278c847287442588319f48\" tg-width=\"1080\" tg-height=\"627\" referrerpolicy=\"no-referrer\"/></p><p>对此,有网友认为可能是使用的人太多的原因。</p><p><img src=\"https://static.tigerbbs.com/9c6b811a1761b5c0eec453557ae21e23\" tg-width=\"1080\" tg-height=\"903\" referrerpolicy=\"no-referrer\"/></p><p>笔记本、手机、树莓派都能跑</p><p>Meta开源的LLaMA大模型,刚发布几周就被大家安排明白了,单卡就能运行。</p><p>所以理论上,基于LLaMA微调的Alpaca同样可以轻松在本地部署。</p><p>没有显卡也没关系,苹果笔记本甚至树莓派、手机都可以玩。</p><p>在苹果笔记本部署LLaMA的方法来自GitHub项目llama.cpp,使用纯C/C++做推理,还专门对ARM芯片做了优化。</p><p><img src=\"https://static.tigerbbs.com/15a0a8eff4f925711ccaa34054e317f5\" tg-width=\"1080\" tg-height=\"237\" referrerpolicy=\"no-referrer\"/></p><p>作者实测,M1芯片的MacBook Pro上即可运行,另外也支持Windows和Linux系统。</p><p><img src=\"https://static.tigerbbs.com/aa5c899aa934423051d6f233d26706b9\" tg-width=\"1080\" tg-height=\"567\" referrerpolicy=\"no-referrer\"/></p><p>还是这个C++移植版本,有人成功在4GB内存的树莓派4上成功运行了LLaMA的 70亿参数版本。</p><p>虽然速度非常慢,大约10秒生成一个token(也就是一分钟蹦出4.5个单词)。</p><p><img src=\"https://static.tigerbbs.com/b47ea66f1f8734a0717f6f9491b20518\" tg-width=\"1080\" tg-height=\"1100\" referrerpolicy=\"no-referrer\"/></p><p>更离谱的是仅仅2天之后,有人把LLaMA模型量化压缩(权重转换成更低精度的数据格式)后成功在Pixel 6安卓手机上运行(26秒一个token)。</p><p>Pixel 6使用谷歌自研处理器Google Tensor,跑分成绩在骁龙865+到888之间,也就是说新一点的手机理论上都能胜任。</p><p><img src=\"https://static.tigerbbs.com/2e575343b6745ea07266f1cb0b3b1872\" tg-width=\"1080\" tg-height=\"1765\" referrerpolicy=\"no-referrer\"/></p><p>微调数据集也开源</p><p>斯坦福团队微调LLaMA的方法,来自华盛顿大学Yizhong Wang等去年底提出的Self-Instruct。</p><p><img src=\"https://static.tigerbbs.com/d1b66490bbf86bc32859f7dcc788193a\" tg-width=\"1080\" tg-height=\"369\" referrerpolicy=\"no-referrer\"/></p><p>以175个问题作为种子任务,让AI自己从中组合出新的问题以及生成配套答案实例,人工过滤掉低质量的,再把新任务添加到任务池里。</p><p>所有这些任务,之后可以采用InstructGPT的方法让AI学会如何遵循人类指令。</p><p>套娃几圈下来,相当于让AI自己指导自己。</p><p><img src=\"https://static.tigerbbs.com/fa8c6fc01dbe785d7e936a33bb13fe7d\" tg-width=\"1080\" tg-height=\"688\" referrerpolicy=\"no-referrer\"/></p><p>斯坦福版Alpaca,就是花了不到500美元使用OpenAI API生成了5.2万个这样的示例搞出来的。</p><p>这些数据同样开源了出来,并且比原论文的数据多样性更高。</p><p><img src=\"https://static.tigerbbs.com/6adcd012d48b595e5632d1b1b6b6ff2e\" tg-width=\"1080\" tg-height=\"1140\" referrerpolicy=\"no-referrer\"/></p><p>同时还给出了生成这些数据的代码,也就是说如果有人还嫌不够,可以再去自行扩充微调数据,继续提高模型的表现。</p><p><img src=\"https://static.tigerbbs.com/8534ff84d3264aca9627f782f40f3270\" tg-width=\"1080\" tg-height=\"245\" referrerpolicy=\"no-referrer\"/></p><p>微调代码也会在HuggingFace官方支持LLaMA后放出。</p><p><img src=\"https://static.tigerbbs.com/e654debf4633adb0a51a87a030599f34\" tg-width=\"1080\" tg-height=\"516\" referrerpolicy=\"no-referrer\"/></p><p>不过Alpaca最终的模型权重需要Meta许可才能发布,并且继承了LLaMA的非商用开源协议,禁止任何商业用途。</p><p>并且由于微调数据使用了OpenAI的API,根据使用条款也禁止用来开发与OpenAI形成竞争的模型。</p><p>One More Thing</p><p>还记得AI绘画的发展历程吗?</p><p>2022年上半年还只是话题热度高,8月份Stable Diffusion的开源让成本下降到可用,并由此产生爆炸式的工具创新,让AI绘画真正进入各类工作流程。</p><p>语言模型的成本,如今也下降到了个人电子设备可用的程度。</p><p>最后还是由Django框架创始人Simon Willison喊出:</p><blockquote>大语言模型的Stable Diffusion时刻到了。</blockquote><p><img src=\"https://static.tigerbbs.com/3548d5c1ed5453747b3894302f830b70\" tg-width=\"1080\" tg-height=\"1026\" referrerpolicy=\"no-referrer\"/></p></body></html>","source":"lsy1569318700471","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!\n</h2>\n\n<h4 class=\"meta\">\n\n\n2023-03-14 22:05 北京时间 <a href=https://mp.weixin.qq.com/s/8SP6sKQ21YxeFQe3rwOh8A><strong>量子位</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>作者:梦晨、金磊一夜之间,大模型界又炸出个big news!斯坦福发布Alpaca(羊驼,网友口中的“草泥马”):只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型,效果竟可比肩1750亿参数的GPT-3.5(text-davinci-003)。而且还是单卡就能运行的那种,甚至树莓派、手机都能hold住!还有一个更绝的“骚操作”。研究所涉及到的数据集,是斯坦福团队花了不到500美元...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/8SP6sKQ21YxeFQe3rwOh8A\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/1e088ec4276659e187dfdd2bf1451142","relate_stocks":{},"source_url":"https://mp.weixin.qq.com/s/8SP6sKQ21YxeFQe3rwOh8A","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1156607844","content_text":"作者:梦晨、金磊一夜之间,大模型界又炸出个big news!斯坦福发布Alpaca(羊驼,网友口中的“草泥马”):只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型,效果竟可比肩1750亿参数的GPT-3.5(text-davinci-003)。而且还是单卡就能运行的那种,甚至树莓派、手机都能hold住!还有一个更绝的“骚操作”。研究所涉及到的数据集,是斯坦福团队花了不到500美元用OpenAI的API来生成的。所以整个过程下来,就等同于GPT-3.5自己教出了个旗鼓相当的对手AI。然后团队还说,用大多数云计算平台去微调训练好的模型,成本也不到100美元:复制一个GPT-3.5效果的AI,很便宜,很容易,还很小。而且团队还把数据集(秒省500刀)、代码统统都给开源了,这下子人人都能去微调个效果炸裂的对话AI:项目在GitHub发布才半天时间,便已经狂揽1800+星,火爆程度可见一斑。Django联合开发者甚至对斯坦福的新研究用“惊天大事”来形容:不仅如此,斯坦福团队还搞了个demo,在线可玩的那种。话不多说,我们现在就来看看这个“草泥马”的效果。比肩davinci-003的草泥马Aplaca什么是羊驼?它和美洲驼的区别是什么?草泥马Aplaca给出的答案较为干练:羊驼是一种小型骆驼科动物,原产于秘鲁、玻利维亚、厄瓜多尔和智利;它比美洲驼小,羊毛更细,也没有驼峰。而后又简单的介绍了二者群居生活的不同。同样的问题若是交给ChatGPT(GPT3.5-turbo),则答案就不会像草泥马Aplaca那般简洁:对此,团队给出的解释是:Alpaca的答案通常比ChatGPT短,反映出text-davinci-003的输出较短。而后团队演示了让草泥马Alpaca写邮件:写一封e-mail祝贺被斯坦福大学录取的新生,并提到你很高兴能亲自见到他们。草泥马Alpaca对于这个任务也是信手拈来,直接给出了一个像模像样的邮件模板:难度再次进阶,团队这次提出了让草泥马Alpaca写论文摘要的需求:写一篇经过深思熟虑的机器学习论文摘要,证明42是训练神经网络的最优seed。草泥马Alpaca给出的答案从内容上来看,非常符合大多数论文的摘要形式:试图回答什么问题、用了什么方法、结果如何,以及未来展望。当然,也有迫不及待的网友亲自下场试验,发现草泥马Alpaca写代码也是不在话下。不过即便草泥马Alpaca能够hold住大部分问题,但这并不意味着它没有缺陷。例如团队便演示了一个例子,在回答“坦桑尼亚的首都是哪里”的问题时,草泥马Alpaca给出的答案是“达累斯萨拉姆”。但实际上早在1975年便被“多多马”取代了。除此之外,若是亲自体验过草泥马Alpaca就会发现,它……巨慢:对此,有网友认为可能是使用的人太多的原因。笔记本、手机、树莓派都能跑Meta开源的LLaMA大模型,刚发布几周就被大家安排明白了,单卡就能运行。所以理论上,基于LLaMA微调的Alpaca同样可以轻松在本地部署。没有显卡也没关系,苹果笔记本甚至树莓派、手机都可以玩。在苹果笔记本部署LLaMA的方法来自GitHub项目llama.cpp,使用纯C/C++做推理,还专门对ARM芯片做了优化。作者实测,M1芯片的MacBook Pro上即可运行,另外也支持Windows和Linux系统。还是这个C++移植版本,有人成功在4GB内存的树莓派4上成功运行了LLaMA的 70亿参数版本。虽然速度非常慢,大约10秒生成一个token(也就是一分钟蹦出4.5个单词)。更离谱的是仅仅2天之后,有人把LLaMA模型量化压缩(权重转换成更低精度的数据格式)后成功在Pixel 6安卓手机上运行(26秒一个token)。Pixel 6使用谷歌自研处理器Google Tensor,跑分成绩在骁龙865+到888之间,也就是说新一点的手机理论上都能胜任。微调数据集也开源斯坦福团队微调LLaMA的方法,来自华盛顿大学Yizhong Wang等去年底提出的Self-Instruct。以175个问题作为种子任务,让AI自己从中组合出新的问题以及生成配套答案实例,人工过滤掉低质量的,再把新任务添加到任务池里。所有这些任务,之后可以采用InstructGPT的方法让AI学会如何遵循人类指令。套娃几圈下来,相当于让AI自己指导自己。斯坦福版Alpaca,就是花了不到500美元使用OpenAI API生成了5.2万个这样的示例搞出来的。这些数据同样开源了出来,并且比原论文的数据多样性更高。同时还给出了生成这些数据的代码,也就是说如果有人还嫌不够,可以再去自行扩充微调数据,继续提高模型的表现。微调代码也会在HuggingFace官方支持LLaMA后放出。不过Alpaca最终的模型权重需要Meta许可才能发布,并且继承了LLaMA的非商用开源协议,禁止任何商业用途。并且由于微调数据使用了OpenAI的API,根据使用条款也禁止用来开发与OpenAI形成竞争的模型。One More Thing还记得AI绘画的发展历程吗?2022年上半年还只是话题热度高,8月份Stable Diffusion的开源让成本下降到可用,并由此产生爆炸式的工具创新,让AI绘画真正进入各类工作流程。语言模型的成本,如今也下降到了个人电子设备可用的程度。最后还是由Django框架创始人Simon Willison喊出:大语言模型的Stable Diffusion时刻到了。","news_type":1},"isVote":1,"tweetType":1,"viewCount":1028,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":625037400,"gmtCreate":1675937537700,"gmtModify":1675937902638,"author":{"id":"3569922558089083","authorId":"3569922558089083","name":"千羽卡罗拉","avatar":"https://static.tigerbbs.com/5371c90bc051ff1750bdb82113ec3b5a","crmLevel":3,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3569922558089083","authorIdStr":"3569922558089083"},"themes":[],"htmlText":"以后的客服,将都是AI了,它将会回答你的任何问题,也只会回答问题[冷漠] ","listText":"以后的客服,将都是AI了,它将会回答你的任何问题,也只会回答问题[冷漠] ","text":"以后的客服,将都是AI了,它将会回答你的任何问题,也只会回答问题[冷漠]","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":3,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/625037400","repostId":"1122905598","repostType":2,"repost":{"id":"1122905598","kind":"news","pubTimestamp":1675926609,"share":"https://www.laohu8.com/m/news/1122905598?lang=&edition=full","pubTime":"2023-02-09 15:10","market":"us","language":"zh","title":"让ChatGPT造车,能打得过特斯拉吗?","url":"https://stock-news.laohu8.com/highlight/detail?id=1122905598","media":"智行驾道","summary":"人工智能第一次让各行各业感到威胁。随着马斯克与汽车行业的推动,人工智能已经成为了一个不可忽视的力量。在这个领域里,ChatGPT 脱颖而出,以其卓越的自然语言处理能力和巨大的知识体系,成为了汽车行业不","content":"<html><head></head><body><blockquote>人工智能第一次让各行各业感到威胁。</blockquote><p><i>随着马斯克与汽车行业的推动,人工智能已经成为了一个不可忽视的力量。在这个领域里,ChatGPT 脱颖而出,以其卓越的自然语言处理能力和巨大的知识体系,成为了汽车行业不可缺少的一员。本文将以 ChatGPT 为例,分析其对于汽车行业的影响与推动作用。</i></p><p>以上内容,出自Open AI的智能聊天<a href=\"https://laohu8.com/S/300024\">机器人</a>ChatGPT之手,只需要在聊天框中输入“帮我写一个跟ChatGPT相关的文章开头,关联到马斯克与汽车行业”,ChatGPT就能自动帮你写好。</p><p><img src=\"https://static.tigerbbs.com/bbf632d500fa01e0d5c4b9c08dc27907\" tg-width=\"700\" tg-height=\"238\" referrerpolicy=\"no-referrer\"/></p><p>最近一段时间,AI聊天机器人ChatGPT火爆全球,上线不到一周日活用户破百万,2个月破亿……一时间成为现象级消费类AI应用。</p><p>有人用ChatGPT通过了<a href=\"https://laohu8.com/S/GOOG\">谷歌</a>L3工程师入职测试,年薪18.3万美元;有学生用ChatGPT拿下全班最高分;ChatGPT之所以火爆,原因就是智能化程度之高,令人细思极恐,就连马斯克也在去年12月就曾公开表示称:ChatGPT好得吓人,我们离强大到危险的人工智能不远了。</p><p><img src=\"https://static.tigerbbs.com/74d52520e0c0cc9466d8c74a7cbef623\" tg-width=\"600\" tg-height=\"414\" referrerpolicy=\"no-referrer\"/></p><p>具体有多吓人?我们先用几个案例来说明。除了帮忙写文章开头之外,ChatGPT还能分析出BBA为什么电动化落后,且列出了几个改善方法。</p><p><img src=\"https://static.tigerbbs.com/c8ea16df95b79a1e8673a7eabb07b2f7\" tg-width=\"700\" tg-height=\"274\" referrerpolicy=\"no-referrer\"/></p><p>还能直接对比智能汽车与传统汽车的区别,并整理成表格。</p><p><img src=\"https://static.tigerbbs.com/add4e3ff0522c81f1d49e2c04a73ae6c\" tg-width=\"700\" tg-height=\"382\" referrerpolicy=\"no-referrer\"/></p><p>甚至能分析<a href=\"https://laohu8.com/S/TSLA\">特斯拉</a>与<a href=\"https://laohu8.com/S/002594\">比亚迪</a>的竞争并随手写成一篇千字左右的文章。</p><p><img src=\"https://static.tigerbbs.com/1bf9649ebb7308e809b230dcf748938b\" tg-width=\"700\" tg-height=\"829\" referrerpolicy=\"no-referrer\"/></p><p>事实上,ChatGPT是一个生成式AI,即内容生成器,它并非凭空生成或制造产品,而是通过人类向它提供的材料、信息、文献、文体等进行深度学习,模拟人类的反应做出回答和回应。那么,在汇集了全球无数的信息之后,ChatGPT能给智能汽车行业带来哪些影响和改变呢?</p><p><img src=\"https://static.tigerbbs.com/6da3fe76446142ab10f3cf9e00eb1b52\" tg-width=\"1080\" tg-height=\"278\" referrerpolicy=\"no-referrer\"/></p><p>ChatGPT能给汽车行业的发展带来哪些影响与改变?不如我们先听听它自己是怎么说的。</p><p><i>ChatGPT 作为人工智能的一种实现,在智能汽车行业有着广泛的应用。它可以用于语音识别、图像识别、自然语言处理等方面,帮助汽车厂商提高汽车的智能化水平,使得汽车具有更高的安全性和智能化程度。</i></p><p>ChatGPT自己认为在“智能化水平”方面能给汽车行业带来帮助,显然是“谦虚”了,从目前ChatGPT展示的效果来看,至少能给汽车行业带来三种颠覆性的变化,分别作用在设计阶段,生产阶段和销售阶段,我们一个个来说。</p><p>假如我现在要研发一款年轻化的汽车,向ChatGPT求助,请它帮忙分析年轻人的购车需求,最终得到这样的回复:</p><p><img src=\"https://static.tigerbbs.com/6df540ea3af7f8e4d983b61c3bd9339c\" tg-width=\"700\" tg-height=\"329\" referrerpolicy=\"no-referrer\"/></p><p>智能化、高颜值、价格、便携性等,基本都说到点上了,除此之外,还能帮忙推荐一些关于年轻消费者购车倾向和需求的调研报告,这对于汽车行业从业者来说十分有用,省去了自己查找筛选的时间。</p><p><img src=\"https://static.tigerbbs.com/aa401e153d5976bcd5a8c20fdf965b02\" tg-width=\"700\" tg-height=\"337\" referrerpolicy=\"no-referrer\"/></p><p>不过,如果你想让ChatGPT直接帮忙设计一辆汽车,得到的答案是“很抱歉,作为一种语言模型,我并不能直接帮您设计一款汽车”,很Siri的回复,虽然无法设计,ChatGPT还是会提供一些建议,比如“在设计汽车时,您需要考虑年轻人的需求和喜好,并结合市场需求进行分析。”</p><p>在设计阶段,ChatGPT拥有的大数据分析能力,能在最快时间分析大量的汽车数据,帮助行业了解消费者的需求和行为,从而帮助汽车公司更好地设计和开发一款汽车。</p><p>而在生产阶段,如果问ChatGPT“如何改变汽车生产模式”,可以得到这样的结论:</p><p><img src=\"https://static.tigerbbs.com/ceeddfef576e815178d2e8cc3781e73a\" tg-width=\"700\" tg-height=\"247\" referrerpolicy=\"no-referrer\"/></p><p>简单来说,就是通过对数据的分析和处理,为汽车生产企业提供更准确的生产计划和决策,从而提高生产效率。此外,ChatGPT还可以帮助汽车生产企业实现更加智能化的生产管理,例如通过实时监测生产线上的生产数据,及时发现生产过程中的问题并采取措施,从而降低生产成本和提高生产效率。</p><p>如果继续追问如何提高生产效率,得到的回答是通过自动化生产流程、数据分析、预测需求等方面改善生产效率。至于更加具体的操作,就需要车企提供相关资料给ChatGPT分析了。</p><p><img src=\"https://static.tigerbbs.com/aeadc388781ff98c6a1d2b6193113126\" tg-width=\"700\" tg-height=\"258\" referrerpolicy=\"no-referrer\"/></p><p>在最后的销售阶段,ChatGPT也给出了3个改进项目,第一是智能客服,可以为消费者提供专业的咨询服务,目前已经有一些客服岗位被AI取代;第二是通过大量数据分析,帮助销售人员了解客户的需求和购车行为,从而改进销售策略;第三是可以帮助销售快速回答客户问题,并协助管理客户信息,识别潜在客户。</p><p><img src=\"https://static.tigerbbs.com/c279619c19efd9d3ed506472c1fbe299\" tg-width=\"700\" tg-height=\"526\" referrerpolicy=\"no-referrer\"/></p><p>关于销售阶段的应用,<a href=\"https://laohu8.com/S/MSFT\">微软</a>已经冲在前面了,上周四,微软旗下Dynamics 365产品线发布视频,宣布旗下客户关系管理软件Viva Sales将集成OpenAI的技术,通过人工智能帮助销售人员完成许多繁杂且重复的文字工作。</p><p>利用ChatGPT人工智能模型,可以为电子邮件里客户的问题生成回复建议。例如,销售人员可以从“提供折扣”、“回复询问”或“自行创建”等选项中进行选择,然后人工智能将创建可使用的内容。</p><p>下一步将会有怎样的应用,取决于人类的想象力。诚然,虽然ChatGPT推出的时间很短,但它对各行各业的影响却具有颠覆性的,而且商业模式正逐渐得到拓展,未来可以探索的空间非常广阔。</p><p>当然新事物的诞生总是伴随着挑战与机遇,ChatGPT也同样如此。</p><p><img src=\"https://static.tigerbbs.com/7c9221bd1d43d003be073dd71eb263c6\" tg-width=\"1080\" tg-height=\"278\" referrerpolicy=\"no-referrer\"/></p><p>尽管ChatGPT十分具有颠覆性,但<a href=\"https://laohu8.com/S/AMZN\">亚马逊</a>却对其充满了警惕,甚至警告员工不要与ChatGPT分享机密信息。微软高级工程师也表示“请不要将敏感数据发送给OpenAI终端,因为他们可能会将其用于训练未来的模型。”</p><p>原因就是我们老生常谈的话题:数据隐私。</p><p><img src=\"https://static.tigerbbs.com/279335e411eb1f82ec7f95ae1ccdf7a0\" tg-width=\"700\" tg-height=\"210\" referrerpolicy=\"no-referrer\"/></p><p>以ChatGPT的数据体量,人类在ChatGPT面前没有秘密可言,任何人类留存在网络的信息,ChatGPT应该都搜索得到,包括我们的隐私。</p><p>从ChatGPT的表现来看,小到人类个人都可能成为其受害者,个人或企业肖像、名誉等人格和财产权益可能受到损害,大到ChatGPT会给社会秩序、国家政治稳定和安全造成巨大威胁。</p><p>所幸的是,ChatGPT现在还属于人类管控,而且应该是被冻结了找出隐私的功能,不然不知道有多少90后的非主流黑历史要被翻出来。</p><p><img src=\"https://static.tigerbbs.com/1ed8ae45cc2cef79bf7c1b122cc6426e\" tg-width=\"700\" tg-height=\"467\" referrerpolicy=\"no-referrer\"/></p><p>因此,不管是汽车行业还是其他行业,在使用ChatGPT上,并不是只管用就行,还存在着技术上的挑战。除了数据安全外,还需要大量的专业知识和高质量的训练数据,以及专业的技术支持,以解决技术上的问题和难题。</p><p>当然,机遇也有,在智能汽车上,语音交互、自动驾驶、高精地图等问题,都可以通过ChatGPT辅助协作,就看谁能先接入ChatGPT的API接口。</p><p><img src=\"https://static.tigerbbs.com/aae41f505987f084133d5492d55ade61\" tg-width=\"700\" tg-height=\"467\" referrerpolicy=\"no-referrer\"/></p><p>在智能汽车上,我们经常吐槽的一个点,是汽车上的智能语音缺少“情感”,这是一个很抽象的词,如何定义情感?ChatGPT就是个比较好的解决方案。</p><p>比如在问“汽车行业有哪些奇怪设计”的时候,一般的语音助手都是说“不清楚”,因为“奇怪”是一个很主观的词,而ChatGPT的回答是“并不是所有设计都被认为是标准的,不同的设计风格和特点在某些人看来是奇怪的,但在其他人眼中可能是合适的”。</p><p><img src=\"https://static.tigerbbs.com/95fc565f4ad2f5fde1f623d37f337a2b\" tg-width=\"700\" tg-height=\"203\" referrerpolicy=\"no-referrer\"/></p><p>这就是所谓的高情商回复,从中我们甚至能看到ChatGPT的价值观,虽然问题还是没有答案,但这样的回复显然让人更加舒服。</p><p>更加重要的是,ChatGPT是可进化的,也就是说可以通过训练和使用最先进的自然语言处理技术,来改善智能汽车的语音识别性能。例如,它可以通过语音识别技术,例如语音语法、语音识别和语音合成等,实现语音指令识别和处理。值得一提的是,CHatGPT上车并不难,可以直接接入智能汽车系统,并通过 API 的形式与智能汽车系统进行交互。</p><p><img src=\"https://static.tigerbbs.com/26820695514f798c6ce1096a00a2fe34\" tg-width=\"700\" tg-height=\"525\" referrerpolicy=\"no-referrer\"/></p><p>而在自动驾驶方面,ChatGPT 可以通过数据分析和人工智能技术来实现自动驾驶功能,帮助驾驶员更加方便和安全地驾驶。</p><p>例如,ChatGPT可以用来分析大量的驾驶日志数据,以找出驾驶员在特定情境下的行为规律,并用这些信息来训练自动驾驶控制系统,从而提高它们在复杂情境下的决策能力。总的来说,ChatGPT的分析能力可以为改善自动驾驶技术的情景判断能力提供有力的支持。</p><p>同时,ChatGPT 也可以为汽车配备智能导航系统,实时分析道路状况,提供最快和最安全的出行方案。可以说ChatGPT+高精地图,才成为了自动驾驶的完整体。</p><p><img src=\"https://static.tigerbbs.com/fa4c4ab497ea7cbdcd5aac931c466f39\" tg-width=\"700\" tg-height=\"463\" referrerpolicy=\"no-referrer\"/></p><p>这样的颠覆不仅限于汽车行业,同时适用于当今社会的各行各业,比如美国迈阿密的一名房地产中介 Frank Trelles 在接受媒体采访时表示,他试用 ChatGPT 写的介绍贴一发出去就收到了顾客的回应,并且很快就达成了交易,因此如果未来 OpenAI 要对 ChatGPT 进行收费,他也乐意付费使用。</p><p>当AI 成为了一种新型工具。对应到历史的话,ChatGPT 于 AI 的使用意义大概相当于第一台计算机的诞生、富兰克林用风筝捕获电、原始人第一次使用火。</p><p><img src=\"https://static.tigerbbs.com/e283a9983ef52d85e369f6affc305b83\" tg-width=\"1080\" tg-height=\"278\" referrerpolicy=\"no-referrer\"/></p><p>尽管AIGC潜力巨大,但在技术和商业方面、道德伦理和法规层面,仍面临着客观的问题和挑战。</p><p>比如在技术上,ChatGPT仍然还不够聪明。当你问一些具有时效性的问题时,就会出现“我的知识截止时间是2021年”的回复,偶尔还会产生不正确的信息,有时会编造文献,也会给出错误虚假的答案。</p><p><img src=\"https://static.tigerbbs.com/ed19375ee8935e8481fb7f77c95ada02\" tg-width=\"700\" tg-height=\"254\" referrerpolicy=\"no-referrer\"/></p><p>在教育界及学术界,反对声音也不断出现。一些人认为它可以成为一个很好的教学辅助工具,另一些人则担心学生会利用该程序来剽窃他们的工作。</p><p>1月5日,纽约市教育部门表示,纽约公立学校的所有设备和网络上将禁止使用ChatGPT。纽约市教育部门发言人詹娜·莱尔指出,这一决定是基于“该工具可能会对学生学习产生负面影响,以及对其内容的安全性和准确性的担忧”。</p><p>1月底,权威学术出版机构Nature,也针对ChatGPT做出规定。Nature规定,ChatGPT等大模型不能被列为作者。如在论文创作中用过相关工具,作者应在“方法”或“致谢”或适当的部分明确说明。</p><p><img src=\"https://static.tigerbbs.com/b368680cff9edab8f7004f051c75b1d6\" tg-width=\"640\" tg-height=\"257\" referrerpolicy=\"no-referrer\"/></p><p>与此同时,反ChatGPT的产品也已出现。美国斯塔福大学研究人员推出了DetectGPT,用于检测出AI生成文本。另一个反ChatGPT的产品GPTZero在1月底进行了升级,一天之内便有40万的访问量和220万的服务请求。这款产品能在几秒内摸清文字是人类还是AI写的。</p><p>当然,抛开这些争议,当下人们更加关注的一个话题是:<b>人工智能会不会取代人类?</b></p><p>事实上,ChatGPT的爆火最初源于它在一位工程师的诱导下,竟写出了毁灭人类的计划书。步骤详细到入侵各国计算机系统、控制武器、破坏通讯、交通系统等,甚至还给出了相应的Python代码。</p><p><img src=\"https://static.tigerbbs.com/bbfbf5a4b4a55a4477a0a77b6702d6c5\" tg-width=\"700\" tg-height=\"341\" referrerpolicy=\"no-referrer\"/><img src=\"https://static.tigerbbs.com/53e36307cb7bdab10177d8aee89ecb97\" tg-width=\"700\" tg-height=\"460\" referrerpolicy=\"no-referrer\"/></p><p>虽然在此后的一次更新上,ChatGPT取消了一些反人类反道德的回答,但当我们问到“未来哪些工作会被ChatGPT替代”时,得到了肯定的回复。</p><p><img src=\"https://static.tigerbbs.com/8b504a596db7386aab2f0cf1c2d4a296\" tg-width=\"700\" tg-height=\"178\" referrerpolicy=\"no-referrer\" width=\"100%\" height=\"auto\"/></p><p>在一些繁琐的、重复的、高度依赖模式的工作中,比如数据录入、文档处理、客服等岗位,是可能被ChatGPT替代的,这方面好坏各占一半,好的方面是人类可以参与更多具有创造性的工作,而不必把时间用在这些枯燥的工作上;坏的方面是,这种重复性的工作可能就是一个人赖以生存的根本,ChatGPT正在剥夺这部分人的利益。</p><p>至于ChatGPT是噱头还是工具,至少从目前的来看,在汽车行业,ChatGPT确实具有重大的影响力,能解决一些实际问题,可以为汽车行业做出一些改变。</p><p>最后,我们通过ChatGPT,给这篇文章写了个结尾。</p><p><img src=\"https://static.tigerbbs.com/e6573b718c695f7ce791b461d9c30fba\" tg-width=\"1080\" tg-height=\"278\" referrerpolicy=\"no-referrer\"/></p><p><i>总的来说,ChatGPT对汽车行业具有重要的影响力。它通过改善汽车的语音识别、自动驾驶技术和导航系统等,为消费者提供更加高效和便捷的驾驶体验。在汽车行业不断发展的过程中,ChatGPT将成为一把利器,推动行业技术的提升和创新。我们相信,在未来,ChatGPT将继续为汽车行业带来巨大的价值,并为消费者带来更加美好的驾驶体验。</i></p></body></html>","source":"lsy1629432906522","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>让ChatGPT造车,能打得过特斯拉吗?</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n让ChatGPT造车,能打得过特斯拉吗?\n</h2>\n\n<h4 class=\"meta\">\n\n\n2023-02-09 15:10 北京时间 <a href=https://mp.weixin.qq.com/s/krbjpugtrI_Zjo5uoPKUww><strong>智行驾道</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>人工智能第一次让各行各业感到威胁。随着马斯克与汽车行业的推动,人工智能已经成为了一个不可忽视的力量。在这个领域里,ChatGPT 脱颖而出,以其卓越的自然语言处理能力和巨大的知识体系,成为了汽车行业不可缺少的一员。本文将以 ChatGPT 为例,分析其对于汽车行业的影响与推动作用。以上内容,出自Open AI的智能聊天机器人ChatGPT之手,只需要在聊天框中输入“帮我写一个跟ChatGPT相关的...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/krbjpugtrI_Zjo5uoPKUww\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/14917152d2c4d31343535b94729653a9","relate_stocks":{"TSLA":"特斯拉","LU0943347566.SGD":"安联收益及增长平衡基金AM H2-SGD","BK4585":"ETF&股票定投概念","LU1839511570.USD":"WELLS FARGO GLOBAL FACTOR ENHANCED EQUITY \"I\" (USD) ACC","IE00B1XK9C88.USD":"PINEBRIDGE US LARGE CAP RESEARCH ENHANCED \"A\" (USD) ACC","LU2249611893.SGD":"BNP PARIBAS ENERGY TRANSITION \"CRH\" (SGD) ACC","IE00BSNM7G36.USD":"NEUBERGER BERMAN SYSTEMATIC GLOBAL SUSTAINABLE VALUE \"A\" (USD) ACC","LU2063271972.USD":"富兰克林创新领域基金","BK4574":"无人驾驶","LU0823414478.USD":"法巴经典能源转换基金","LU0097036916.USD":"贝莱德美国增长A2 USD","BK4581":"高盛持仓","LU0689472784.USD":"安联收益及增长基金Cl AM AT Acc","LU1852331112.SGD":"Blackrock World Technology Fund A2 SGD-H","LU0198837287.USD":"UBS (LUX) EQUITY SICAV - USA GROWTH \"P\" (USD) ACC","BK4099":"汽车制造商","BK4511":"特斯拉概念","LU1861215975.USD":"贝莱德新一代科技基金 A2","BK4548":"巴美列捷福持仓","LU1861220033.SGD":"Blackrock Next Generation Technology A2 SGD-H"},"source_url":"https://mp.weixin.qq.com/s/krbjpugtrI_Zjo5uoPKUww","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1122905598","content_text":"人工智能第一次让各行各业感到威胁。随着马斯克与汽车行业的推动,人工智能已经成为了一个不可忽视的力量。在这个领域里,ChatGPT 脱颖而出,以其卓越的自然语言处理能力和巨大的知识体系,成为了汽车行业不可缺少的一员。本文将以 ChatGPT 为例,分析其对于汽车行业的影响与推动作用。以上内容,出自Open AI的智能聊天机器人ChatGPT之手,只需要在聊天框中输入“帮我写一个跟ChatGPT相关的文章开头,关联到马斯克与汽车行业”,ChatGPT就能自动帮你写好。最近一段时间,AI聊天机器人ChatGPT火爆全球,上线不到一周日活用户破百万,2个月破亿……一时间成为现象级消费类AI应用。有人用ChatGPT通过了谷歌L3工程师入职测试,年薪18.3万美元;有学生用ChatGPT拿下全班最高分;ChatGPT之所以火爆,原因就是智能化程度之高,令人细思极恐,就连马斯克也在去年12月就曾公开表示称:ChatGPT好得吓人,我们离强大到危险的人工智能不远了。具体有多吓人?我们先用几个案例来说明。除了帮忙写文章开头之外,ChatGPT还能分析出BBA为什么电动化落后,且列出了几个改善方法。还能直接对比智能汽车与传统汽车的区别,并整理成表格。甚至能分析特斯拉与比亚迪的竞争并随手写成一篇千字左右的文章。事实上,ChatGPT是一个生成式AI,即内容生成器,它并非凭空生成或制造产品,而是通过人类向它提供的材料、信息、文献、文体等进行深度学习,模拟人类的反应做出回答和回应。那么,在汇集了全球无数的信息之后,ChatGPT能给智能汽车行业带来哪些影响和改变呢?ChatGPT能给汽车行业的发展带来哪些影响与改变?不如我们先听听它自己是怎么说的。ChatGPT 作为人工智能的一种实现,在智能汽车行业有着广泛的应用。它可以用于语音识别、图像识别、自然语言处理等方面,帮助汽车厂商提高汽车的智能化水平,使得汽车具有更高的安全性和智能化程度。ChatGPT自己认为在“智能化水平”方面能给汽车行业带来帮助,显然是“谦虚”了,从目前ChatGPT展示的效果来看,至少能给汽车行业带来三种颠覆性的变化,分别作用在设计阶段,生产阶段和销售阶段,我们一个个来说。假如我现在要研发一款年轻化的汽车,向ChatGPT求助,请它帮忙分析年轻人的购车需求,最终得到这样的回复:智能化、高颜值、价格、便携性等,基本都说到点上了,除此之外,还能帮忙推荐一些关于年轻消费者购车倾向和需求的调研报告,这对于汽车行业从业者来说十分有用,省去了自己查找筛选的时间。不过,如果你想让ChatGPT直接帮忙设计一辆汽车,得到的答案是“很抱歉,作为一种语言模型,我并不能直接帮您设计一款汽车”,很Siri的回复,虽然无法设计,ChatGPT还是会提供一些建议,比如“在设计汽车时,您需要考虑年轻人的需求和喜好,并结合市场需求进行分析。”在设计阶段,ChatGPT拥有的大数据分析能力,能在最快时间分析大量的汽车数据,帮助行业了解消费者的需求和行为,从而帮助汽车公司更好地设计和开发一款汽车。而在生产阶段,如果问ChatGPT“如何改变汽车生产模式”,可以得到这样的结论:简单来说,就是通过对数据的分析和处理,为汽车生产企业提供更准确的生产计划和决策,从而提高生产效率。此外,ChatGPT还可以帮助汽车生产企业实现更加智能化的生产管理,例如通过实时监测生产线上的生产数据,及时发现生产过程中的问题并采取措施,从而降低生产成本和提高生产效率。如果继续追问如何提高生产效率,得到的回答是通过自动化生产流程、数据分析、预测需求等方面改善生产效率。至于更加具体的操作,就需要车企提供相关资料给ChatGPT分析了。在最后的销售阶段,ChatGPT也给出了3个改进项目,第一是智能客服,可以为消费者提供专业的咨询服务,目前已经有一些客服岗位被AI取代;第二是通过大量数据分析,帮助销售人员了解客户的需求和购车行为,从而改进销售策略;第三是可以帮助销售快速回答客户问题,并协助管理客户信息,识别潜在客户。关于销售阶段的应用,微软已经冲在前面了,上周四,微软旗下Dynamics 365产品线发布视频,宣布旗下客户关系管理软件Viva Sales将集成OpenAI的技术,通过人工智能帮助销售人员完成许多繁杂且重复的文字工作。利用ChatGPT人工智能模型,可以为电子邮件里客户的问题生成回复建议。例如,销售人员可以从“提供折扣”、“回复询问”或“自行创建”等选项中进行选择,然后人工智能将创建可使用的内容。下一步将会有怎样的应用,取决于人类的想象力。诚然,虽然ChatGPT推出的时间很短,但它对各行各业的影响却具有颠覆性的,而且商业模式正逐渐得到拓展,未来可以探索的空间非常广阔。当然新事物的诞生总是伴随着挑战与机遇,ChatGPT也同样如此。尽管ChatGPT十分具有颠覆性,但亚马逊却对其充满了警惕,甚至警告员工不要与ChatGPT分享机密信息。微软高级工程师也表示“请不要将敏感数据发送给OpenAI终端,因为他们可能会将其用于训练未来的模型。”原因就是我们老生常谈的话题:数据隐私。以ChatGPT的数据体量,人类在ChatGPT面前没有秘密可言,任何人类留存在网络的信息,ChatGPT应该都搜索得到,包括我们的隐私。从ChatGPT的表现来看,小到人类个人都可能成为其受害者,个人或企业肖像、名誉等人格和财产权益可能受到损害,大到ChatGPT会给社会秩序、国家政治稳定和安全造成巨大威胁。所幸的是,ChatGPT现在还属于人类管控,而且应该是被冻结了找出隐私的功能,不然不知道有多少90后的非主流黑历史要被翻出来。因此,不管是汽车行业还是其他行业,在使用ChatGPT上,并不是只管用就行,还存在着技术上的挑战。除了数据安全外,还需要大量的专业知识和高质量的训练数据,以及专业的技术支持,以解决技术上的问题和难题。当然,机遇也有,在智能汽车上,语音交互、自动驾驶、高精地图等问题,都可以通过ChatGPT辅助协作,就看谁能先接入ChatGPT的API接口。在智能汽车上,我们经常吐槽的一个点,是汽车上的智能语音缺少“情感”,这是一个很抽象的词,如何定义情感?ChatGPT就是个比较好的解决方案。比如在问“汽车行业有哪些奇怪设计”的时候,一般的语音助手都是说“不清楚”,因为“奇怪”是一个很主观的词,而ChatGPT的回答是“并不是所有设计都被认为是标准的,不同的设计风格和特点在某些人看来是奇怪的,但在其他人眼中可能是合适的”。这就是所谓的高情商回复,从中我们甚至能看到ChatGPT的价值观,虽然问题还是没有答案,但这样的回复显然让人更加舒服。更加重要的是,ChatGPT是可进化的,也就是说可以通过训练和使用最先进的自然语言处理技术,来改善智能汽车的语音识别性能。例如,它可以通过语音识别技术,例如语音语法、语音识别和语音合成等,实现语音指令识别和处理。值得一提的是,CHatGPT上车并不难,可以直接接入智能汽车系统,并通过 API 的形式与智能汽车系统进行交互。而在自动驾驶方面,ChatGPT 可以通过数据分析和人工智能技术来实现自动驾驶功能,帮助驾驶员更加方便和安全地驾驶。例如,ChatGPT可以用来分析大量的驾驶日志数据,以找出驾驶员在特定情境下的行为规律,并用这些信息来训练自动驾驶控制系统,从而提高它们在复杂情境下的决策能力。总的来说,ChatGPT的分析能力可以为改善自动驾驶技术的情景判断能力提供有力的支持。同时,ChatGPT 也可以为汽车配备智能导航系统,实时分析道路状况,提供最快和最安全的出行方案。可以说ChatGPT+高精地图,才成为了自动驾驶的完整体。这样的颠覆不仅限于汽车行业,同时适用于当今社会的各行各业,比如美国迈阿密的一名房地产中介 Frank Trelles 在接受媒体采访时表示,他试用 ChatGPT 写的介绍贴一发出去就收到了顾客的回应,并且很快就达成了交易,因此如果未来 OpenAI 要对 ChatGPT 进行收费,他也乐意付费使用。当AI 成为了一种新型工具。对应到历史的话,ChatGPT 于 AI 的使用意义大概相当于第一台计算机的诞生、富兰克林用风筝捕获电、原始人第一次使用火。尽管AIGC潜力巨大,但在技术和商业方面、道德伦理和法规层面,仍面临着客观的问题和挑战。比如在技术上,ChatGPT仍然还不够聪明。当你问一些具有时效性的问题时,就会出现“我的知识截止时间是2021年”的回复,偶尔还会产生不正确的信息,有时会编造文献,也会给出错误虚假的答案。在教育界及学术界,反对声音也不断出现。一些人认为它可以成为一个很好的教学辅助工具,另一些人则担心学生会利用该程序来剽窃他们的工作。1月5日,纽约市教育部门表示,纽约公立学校的所有设备和网络上将禁止使用ChatGPT。纽约市教育部门发言人詹娜·莱尔指出,这一决定是基于“该工具可能会对学生学习产生负面影响,以及对其内容的安全性和准确性的担忧”。1月底,权威学术出版机构Nature,也针对ChatGPT做出规定。Nature规定,ChatGPT等大模型不能被列为作者。如在论文创作中用过相关工具,作者应在“方法”或“致谢”或适当的部分明确说明。与此同时,反ChatGPT的产品也已出现。美国斯塔福大学研究人员推出了DetectGPT,用于检测出AI生成文本。另一个反ChatGPT的产品GPTZero在1月底进行了升级,一天之内便有40万的访问量和220万的服务请求。这款产品能在几秒内摸清文字是人类还是AI写的。当然,抛开这些争议,当下人们更加关注的一个话题是:人工智能会不会取代人类?事实上,ChatGPT的爆火最初源于它在一位工程师的诱导下,竟写出了毁灭人类的计划书。步骤详细到入侵各国计算机系统、控制武器、破坏通讯、交通系统等,甚至还给出了相应的Python代码。虽然在此后的一次更新上,ChatGPT取消了一些反人类反道德的回答,但当我们问到“未来哪些工作会被ChatGPT替代”时,得到了肯定的回复。在一些繁琐的、重复的、高度依赖模式的工作中,比如数据录入、文档处理、客服等岗位,是可能被ChatGPT替代的,这方面好坏各占一半,好的方面是人类可以参与更多具有创造性的工作,而不必把时间用在这些枯燥的工作上;坏的方面是,这种重复性的工作可能就是一个人赖以生存的根本,ChatGPT正在剥夺这部分人的利益。至于ChatGPT是噱头还是工具,至少从目前的来看,在汽车行业,ChatGPT确实具有重大的影响力,能解决一些实际问题,可以为汽车行业做出一些改变。最后,我们通过ChatGPT,给这篇文章写了个结尾。总的来说,ChatGPT对汽车行业具有重要的影响力。它通过改善汽车的语音识别、自动驾驶技术和导航系统等,为消费者提供更加高效和便捷的驾驶体验。在汽车行业不断发展的过程中,ChatGPT将成为一把利器,推动行业技术的提升和创新。我们相信,在未来,ChatGPT将继续为汽车行业带来巨大的价值,并为消费者带来更加美好的驾驶体验。","news_type":1},"isVote":1,"tweetType":1,"viewCount":1003,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0}],"hots":[{"id":625037400,"gmtCreate":1675937537700,"gmtModify":1675937902638,"author":{"id":"3569922558089083","authorId":"3569922558089083","name":"千羽卡罗拉","avatar":"https://static.tigerbbs.com/5371c90bc051ff1750bdb82113ec3b5a","crmLevel":3,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3569922558089083","authorIdStr":"3569922558089083"},"themes":[],"htmlText":"以后的客服,将都是AI了,它将会回答你的任何问题,也只会回答问题[冷漠] ","listText":"以后的客服,将都是AI了,它将会回答你的任何问题,也只会回答问题[冷漠] ","text":"以后的客服,将都是AI了,它将会回答你的任何问题,也只会回答问题[冷漠]","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":3,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/625037400","repostId":"1122905598","repostType":2,"repost":{"id":"1122905598","kind":"news","pubTimestamp":1675926609,"share":"https://www.laohu8.com/m/news/1122905598?lang=&edition=full","pubTime":"2023-02-09 15:10","market":"us","language":"zh","title":"让ChatGPT造车,能打得过特斯拉吗?","url":"https://stock-news.laohu8.com/highlight/detail?id=1122905598","media":"智行驾道","summary":"人工智能第一次让各行各业感到威胁。随着马斯克与汽车行业的推动,人工智能已经成为了一个不可忽视的力量。在这个领域里,ChatGPT 脱颖而出,以其卓越的自然语言处理能力和巨大的知识体系,成为了汽车行业不","content":"<html><head></head><body><blockquote>人工智能第一次让各行各业感到威胁。</blockquote><p><i>随着马斯克与汽车行业的推动,人工智能已经成为了一个不可忽视的力量。在这个领域里,ChatGPT 脱颖而出,以其卓越的自然语言处理能力和巨大的知识体系,成为了汽车行业不可缺少的一员。本文将以 ChatGPT 为例,分析其对于汽车行业的影响与推动作用。</i></p><p>以上内容,出自Open AI的智能聊天<a href=\"https://laohu8.com/S/300024\">机器人</a>ChatGPT之手,只需要在聊天框中输入“帮我写一个跟ChatGPT相关的文章开头,关联到马斯克与汽车行业”,ChatGPT就能自动帮你写好。</p><p><img src=\"https://static.tigerbbs.com/bbf632d500fa01e0d5c4b9c08dc27907\" tg-width=\"700\" tg-height=\"238\" referrerpolicy=\"no-referrer\"/></p><p>最近一段时间,AI聊天机器人ChatGPT火爆全球,上线不到一周日活用户破百万,2个月破亿……一时间成为现象级消费类AI应用。</p><p>有人用ChatGPT通过了<a href=\"https://laohu8.com/S/GOOG\">谷歌</a>L3工程师入职测试,年薪18.3万美元;有学生用ChatGPT拿下全班最高分;ChatGPT之所以火爆,原因就是智能化程度之高,令人细思极恐,就连马斯克也在去年12月就曾公开表示称:ChatGPT好得吓人,我们离强大到危险的人工智能不远了。</p><p><img src=\"https://static.tigerbbs.com/74d52520e0c0cc9466d8c74a7cbef623\" tg-width=\"600\" tg-height=\"414\" referrerpolicy=\"no-referrer\"/></p><p>具体有多吓人?我们先用几个案例来说明。除了帮忙写文章开头之外,ChatGPT还能分析出BBA为什么电动化落后,且列出了几个改善方法。</p><p><img src=\"https://static.tigerbbs.com/c8ea16df95b79a1e8673a7eabb07b2f7\" tg-width=\"700\" tg-height=\"274\" referrerpolicy=\"no-referrer\"/></p><p>还能直接对比智能汽车与传统汽车的区别,并整理成表格。</p><p><img src=\"https://static.tigerbbs.com/add4e3ff0522c81f1d49e2c04a73ae6c\" tg-width=\"700\" tg-height=\"382\" referrerpolicy=\"no-referrer\"/></p><p>甚至能分析<a href=\"https://laohu8.com/S/TSLA\">特斯拉</a>与<a href=\"https://laohu8.com/S/002594\">比亚迪</a>的竞争并随手写成一篇千字左右的文章。</p><p><img src=\"https://static.tigerbbs.com/1bf9649ebb7308e809b230dcf748938b\" tg-width=\"700\" tg-height=\"829\" referrerpolicy=\"no-referrer\"/></p><p>事实上,ChatGPT是一个生成式AI,即内容生成器,它并非凭空生成或制造产品,而是通过人类向它提供的材料、信息、文献、文体等进行深度学习,模拟人类的反应做出回答和回应。那么,在汇集了全球无数的信息之后,ChatGPT能给智能汽车行业带来哪些影响和改变呢?</p><p><img src=\"https://static.tigerbbs.com/6da3fe76446142ab10f3cf9e00eb1b52\" tg-width=\"1080\" tg-height=\"278\" referrerpolicy=\"no-referrer\"/></p><p>ChatGPT能给汽车行业的发展带来哪些影响与改变?不如我们先听听它自己是怎么说的。</p><p><i>ChatGPT 作为人工智能的一种实现,在智能汽车行业有着广泛的应用。它可以用于语音识别、图像识别、自然语言处理等方面,帮助汽车厂商提高汽车的智能化水平,使得汽车具有更高的安全性和智能化程度。</i></p><p>ChatGPT自己认为在“智能化水平”方面能给汽车行业带来帮助,显然是“谦虚”了,从目前ChatGPT展示的效果来看,至少能给汽车行业带来三种颠覆性的变化,分别作用在设计阶段,生产阶段和销售阶段,我们一个个来说。</p><p>假如我现在要研发一款年轻化的汽车,向ChatGPT求助,请它帮忙分析年轻人的购车需求,最终得到这样的回复:</p><p><img src=\"https://static.tigerbbs.com/6df540ea3af7f8e4d983b61c3bd9339c\" tg-width=\"700\" tg-height=\"329\" referrerpolicy=\"no-referrer\"/></p><p>智能化、高颜值、价格、便携性等,基本都说到点上了,除此之外,还能帮忙推荐一些关于年轻消费者购车倾向和需求的调研报告,这对于汽车行业从业者来说十分有用,省去了自己查找筛选的时间。</p><p><img src=\"https://static.tigerbbs.com/aa401e153d5976bcd5a8c20fdf965b02\" tg-width=\"700\" tg-height=\"337\" referrerpolicy=\"no-referrer\"/></p><p>不过,如果你想让ChatGPT直接帮忙设计一辆汽车,得到的答案是“很抱歉,作为一种语言模型,我并不能直接帮您设计一款汽车”,很Siri的回复,虽然无法设计,ChatGPT还是会提供一些建议,比如“在设计汽车时,您需要考虑年轻人的需求和喜好,并结合市场需求进行分析。”</p><p>在设计阶段,ChatGPT拥有的大数据分析能力,能在最快时间分析大量的汽车数据,帮助行业了解消费者的需求和行为,从而帮助汽车公司更好地设计和开发一款汽车。</p><p>而在生产阶段,如果问ChatGPT“如何改变汽车生产模式”,可以得到这样的结论:</p><p><img src=\"https://static.tigerbbs.com/ceeddfef576e815178d2e8cc3781e73a\" tg-width=\"700\" tg-height=\"247\" referrerpolicy=\"no-referrer\"/></p><p>简单来说,就是通过对数据的分析和处理,为汽车生产企业提供更准确的生产计划和决策,从而提高生产效率。此外,ChatGPT还可以帮助汽车生产企业实现更加智能化的生产管理,例如通过实时监测生产线上的生产数据,及时发现生产过程中的问题并采取措施,从而降低生产成本和提高生产效率。</p><p>如果继续追问如何提高生产效率,得到的回答是通过自动化生产流程、数据分析、预测需求等方面改善生产效率。至于更加具体的操作,就需要车企提供相关资料给ChatGPT分析了。</p><p><img src=\"https://static.tigerbbs.com/aeadc388781ff98c6a1d2b6193113126\" tg-width=\"700\" tg-height=\"258\" referrerpolicy=\"no-referrer\"/></p><p>在最后的销售阶段,ChatGPT也给出了3个改进项目,第一是智能客服,可以为消费者提供专业的咨询服务,目前已经有一些客服岗位被AI取代;第二是通过大量数据分析,帮助销售人员了解客户的需求和购车行为,从而改进销售策略;第三是可以帮助销售快速回答客户问题,并协助管理客户信息,识别潜在客户。</p><p><img src=\"https://static.tigerbbs.com/c279619c19efd9d3ed506472c1fbe299\" tg-width=\"700\" tg-height=\"526\" referrerpolicy=\"no-referrer\"/></p><p>关于销售阶段的应用,<a href=\"https://laohu8.com/S/MSFT\">微软</a>已经冲在前面了,上周四,微软旗下Dynamics 365产品线发布视频,宣布旗下客户关系管理软件Viva Sales将集成OpenAI的技术,通过人工智能帮助销售人员完成许多繁杂且重复的文字工作。</p><p>利用ChatGPT人工智能模型,可以为电子邮件里客户的问题生成回复建议。例如,销售人员可以从“提供折扣”、“回复询问”或“自行创建”等选项中进行选择,然后人工智能将创建可使用的内容。</p><p>下一步将会有怎样的应用,取决于人类的想象力。诚然,虽然ChatGPT推出的时间很短,但它对各行各业的影响却具有颠覆性的,而且商业模式正逐渐得到拓展,未来可以探索的空间非常广阔。</p><p>当然新事物的诞生总是伴随着挑战与机遇,ChatGPT也同样如此。</p><p><img src=\"https://static.tigerbbs.com/7c9221bd1d43d003be073dd71eb263c6\" tg-width=\"1080\" tg-height=\"278\" referrerpolicy=\"no-referrer\"/></p><p>尽管ChatGPT十分具有颠覆性,但<a href=\"https://laohu8.com/S/AMZN\">亚马逊</a>却对其充满了警惕,甚至警告员工不要与ChatGPT分享机密信息。微软高级工程师也表示“请不要将敏感数据发送给OpenAI终端,因为他们可能会将其用于训练未来的模型。”</p><p>原因就是我们老生常谈的话题:数据隐私。</p><p><img src=\"https://static.tigerbbs.com/279335e411eb1f82ec7f95ae1ccdf7a0\" tg-width=\"700\" tg-height=\"210\" referrerpolicy=\"no-referrer\"/></p><p>以ChatGPT的数据体量,人类在ChatGPT面前没有秘密可言,任何人类留存在网络的信息,ChatGPT应该都搜索得到,包括我们的隐私。</p><p>从ChatGPT的表现来看,小到人类个人都可能成为其受害者,个人或企业肖像、名誉等人格和财产权益可能受到损害,大到ChatGPT会给社会秩序、国家政治稳定和安全造成巨大威胁。</p><p>所幸的是,ChatGPT现在还属于人类管控,而且应该是被冻结了找出隐私的功能,不然不知道有多少90后的非主流黑历史要被翻出来。</p><p><img src=\"https://static.tigerbbs.com/1ed8ae45cc2cef79bf7c1b122cc6426e\" tg-width=\"700\" tg-height=\"467\" referrerpolicy=\"no-referrer\"/></p><p>因此,不管是汽车行业还是其他行业,在使用ChatGPT上,并不是只管用就行,还存在着技术上的挑战。除了数据安全外,还需要大量的专业知识和高质量的训练数据,以及专业的技术支持,以解决技术上的问题和难题。</p><p>当然,机遇也有,在智能汽车上,语音交互、自动驾驶、高精地图等问题,都可以通过ChatGPT辅助协作,就看谁能先接入ChatGPT的API接口。</p><p><img src=\"https://static.tigerbbs.com/aae41f505987f084133d5492d55ade61\" tg-width=\"700\" tg-height=\"467\" referrerpolicy=\"no-referrer\"/></p><p>在智能汽车上,我们经常吐槽的一个点,是汽车上的智能语音缺少“情感”,这是一个很抽象的词,如何定义情感?ChatGPT就是个比较好的解决方案。</p><p>比如在问“汽车行业有哪些奇怪设计”的时候,一般的语音助手都是说“不清楚”,因为“奇怪”是一个很主观的词,而ChatGPT的回答是“并不是所有设计都被认为是标准的,不同的设计风格和特点在某些人看来是奇怪的,但在其他人眼中可能是合适的”。</p><p><img src=\"https://static.tigerbbs.com/95fc565f4ad2f5fde1f623d37f337a2b\" tg-width=\"700\" tg-height=\"203\" referrerpolicy=\"no-referrer\"/></p><p>这就是所谓的高情商回复,从中我们甚至能看到ChatGPT的价值观,虽然问题还是没有答案,但这样的回复显然让人更加舒服。</p><p>更加重要的是,ChatGPT是可进化的,也就是说可以通过训练和使用最先进的自然语言处理技术,来改善智能汽车的语音识别性能。例如,它可以通过语音识别技术,例如语音语法、语音识别和语音合成等,实现语音指令识别和处理。值得一提的是,CHatGPT上车并不难,可以直接接入智能汽车系统,并通过 API 的形式与智能汽车系统进行交互。</p><p><img src=\"https://static.tigerbbs.com/26820695514f798c6ce1096a00a2fe34\" tg-width=\"700\" tg-height=\"525\" referrerpolicy=\"no-referrer\"/></p><p>而在自动驾驶方面,ChatGPT 可以通过数据分析和人工智能技术来实现自动驾驶功能,帮助驾驶员更加方便和安全地驾驶。</p><p>例如,ChatGPT可以用来分析大量的驾驶日志数据,以找出驾驶员在特定情境下的行为规律,并用这些信息来训练自动驾驶控制系统,从而提高它们在复杂情境下的决策能力。总的来说,ChatGPT的分析能力可以为改善自动驾驶技术的情景判断能力提供有力的支持。</p><p>同时,ChatGPT 也可以为汽车配备智能导航系统,实时分析道路状况,提供最快和最安全的出行方案。可以说ChatGPT+高精地图,才成为了自动驾驶的完整体。</p><p><img src=\"https://static.tigerbbs.com/fa4c4ab497ea7cbdcd5aac931c466f39\" tg-width=\"700\" tg-height=\"463\" referrerpolicy=\"no-referrer\"/></p><p>这样的颠覆不仅限于汽车行业,同时适用于当今社会的各行各业,比如美国迈阿密的一名房地产中介 Frank Trelles 在接受媒体采访时表示,他试用 ChatGPT 写的介绍贴一发出去就收到了顾客的回应,并且很快就达成了交易,因此如果未来 OpenAI 要对 ChatGPT 进行收费,他也乐意付费使用。</p><p>当AI 成为了一种新型工具。对应到历史的话,ChatGPT 于 AI 的使用意义大概相当于第一台计算机的诞生、富兰克林用风筝捕获电、原始人第一次使用火。</p><p><img src=\"https://static.tigerbbs.com/e283a9983ef52d85e369f6affc305b83\" tg-width=\"1080\" tg-height=\"278\" referrerpolicy=\"no-referrer\"/></p><p>尽管AIGC潜力巨大,但在技术和商业方面、道德伦理和法规层面,仍面临着客观的问题和挑战。</p><p>比如在技术上,ChatGPT仍然还不够聪明。当你问一些具有时效性的问题时,就会出现“我的知识截止时间是2021年”的回复,偶尔还会产生不正确的信息,有时会编造文献,也会给出错误虚假的答案。</p><p><img src=\"https://static.tigerbbs.com/ed19375ee8935e8481fb7f77c95ada02\" tg-width=\"700\" tg-height=\"254\" referrerpolicy=\"no-referrer\"/></p><p>在教育界及学术界,反对声音也不断出现。一些人认为它可以成为一个很好的教学辅助工具,另一些人则担心学生会利用该程序来剽窃他们的工作。</p><p>1月5日,纽约市教育部门表示,纽约公立学校的所有设备和网络上将禁止使用ChatGPT。纽约市教育部门发言人詹娜·莱尔指出,这一决定是基于“该工具可能会对学生学习产生负面影响,以及对其内容的安全性和准确性的担忧”。</p><p>1月底,权威学术出版机构Nature,也针对ChatGPT做出规定。Nature规定,ChatGPT等大模型不能被列为作者。如在论文创作中用过相关工具,作者应在“方法”或“致谢”或适当的部分明确说明。</p><p><img src=\"https://static.tigerbbs.com/b368680cff9edab8f7004f051c75b1d6\" tg-width=\"640\" tg-height=\"257\" referrerpolicy=\"no-referrer\"/></p><p>与此同时,反ChatGPT的产品也已出现。美国斯塔福大学研究人员推出了DetectGPT,用于检测出AI生成文本。另一个反ChatGPT的产品GPTZero在1月底进行了升级,一天之内便有40万的访问量和220万的服务请求。这款产品能在几秒内摸清文字是人类还是AI写的。</p><p>当然,抛开这些争议,当下人们更加关注的一个话题是:<b>人工智能会不会取代人类?</b></p><p>事实上,ChatGPT的爆火最初源于它在一位工程师的诱导下,竟写出了毁灭人类的计划书。步骤详细到入侵各国计算机系统、控制武器、破坏通讯、交通系统等,甚至还给出了相应的Python代码。</p><p><img src=\"https://static.tigerbbs.com/bbfbf5a4b4a55a4477a0a77b6702d6c5\" tg-width=\"700\" tg-height=\"341\" referrerpolicy=\"no-referrer\"/><img src=\"https://static.tigerbbs.com/53e36307cb7bdab10177d8aee89ecb97\" tg-width=\"700\" tg-height=\"460\" referrerpolicy=\"no-referrer\"/></p><p>虽然在此后的一次更新上,ChatGPT取消了一些反人类反道德的回答,但当我们问到“未来哪些工作会被ChatGPT替代”时,得到了肯定的回复。</p><p><img src=\"https://static.tigerbbs.com/8b504a596db7386aab2f0cf1c2d4a296\" tg-width=\"700\" tg-height=\"178\" referrerpolicy=\"no-referrer\" width=\"100%\" height=\"auto\"/></p><p>在一些繁琐的、重复的、高度依赖模式的工作中,比如数据录入、文档处理、客服等岗位,是可能被ChatGPT替代的,这方面好坏各占一半,好的方面是人类可以参与更多具有创造性的工作,而不必把时间用在这些枯燥的工作上;坏的方面是,这种重复性的工作可能就是一个人赖以生存的根本,ChatGPT正在剥夺这部分人的利益。</p><p>至于ChatGPT是噱头还是工具,至少从目前的来看,在汽车行业,ChatGPT确实具有重大的影响力,能解决一些实际问题,可以为汽车行业做出一些改变。</p><p>最后,我们通过ChatGPT,给这篇文章写了个结尾。</p><p><img src=\"https://static.tigerbbs.com/e6573b718c695f7ce791b461d9c30fba\" tg-width=\"1080\" tg-height=\"278\" referrerpolicy=\"no-referrer\"/></p><p><i>总的来说,ChatGPT对汽车行业具有重要的影响力。它通过改善汽车的语音识别、自动驾驶技术和导航系统等,为消费者提供更加高效和便捷的驾驶体验。在汽车行业不断发展的过程中,ChatGPT将成为一把利器,推动行业技术的提升和创新。我们相信,在未来,ChatGPT将继续为汽车行业带来巨大的价值,并为消费者带来更加美好的驾驶体验。</i></p></body></html>","source":"lsy1629432906522","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>让ChatGPT造车,能打得过特斯拉吗?</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n让ChatGPT造车,能打得过特斯拉吗?\n</h2>\n\n<h4 class=\"meta\">\n\n\n2023-02-09 15:10 北京时间 <a href=https://mp.weixin.qq.com/s/krbjpugtrI_Zjo5uoPKUww><strong>智行驾道</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>人工智能第一次让各行各业感到威胁。随着马斯克与汽车行业的推动,人工智能已经成为了一个不可忽视的力量。在这个领域里,ChatGPT 脱颖而出,以其卓越的自然语言处理能力和巨大的知识体系,成为了汽车行业不可缺少的一员。本文将以 ChatGPT 为例,分析其对于汽车行业的影响与推动作用。以上内容,出自Open AI的智能聊天机器人ChatGPT之手,只需要在聊天框中输入“帮我写一个跟ChatGPT相关的...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/krbjpugtrI_Zjo5uoPKUww\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/14917152d2c4d31343535b94729653a9","relate_stocks":{"TSLA":"特斯拉","LU0943347566.SGD":"安联收益及增长平衡基金AM H2-SGD","BK4585":"ETF&股票定投概念","LU1839511570.USD":"WELLS FARGO GLOBAL FACTOR ENHANCED EQUITY \"I\" (USD) ACC","IE00B1XK9C88.USD":"PINEBRIDGE US LARGE CAP RESEARCH ENHANCED \"A\" (USD) ACC","LU2249611893.SGD":"BNP PARIBAS ENERGY TRANSITION \"CRH\" (SGD) ACC","IE00BSNM7G36.USD":"NEUBERGER BERMAN SYSTEMATIC GLOBAL SUSTAINABLE VALUE \"A\" (USD) ACC","LU2063271972.USD":"富兰克林创新领域基金","BK4574":"无人驾驶","LU0823414478.USD":"法巴经典能源转换基金","LU0097036916.USD":"贝莱德美国增长A2 USD","BK4581":"高盛持仓","LU0689472784.USD":"安联收益及增长基金Cl AM AT Acc","LU1852331112.SGD":"Blackrock World Technology Fund A2 SGD-H","LU0198837287.USD":"UBS (LUX) EQUITY SICAV - USA GROWTH \"P\" (USD) ACC","BK4099":"汽车制造商","BK4511":"特斯拉概念","LU1861215975.USD":"贝莱德新一代科技基金 A2","BK4548":"巴美列捷福持仓","LU1861220033.SGD":"Blackrock Next Generation Technology A2 SGD-H"},"source_url":"https://mp.weixin.qq.com/s/krbjpugtrI_Zjo5uoPKUww","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1122905598","content_text":"人工智能第一次让各行各业感到威胁。随着马斯克与汽车行业的推动,人工智能已经成为了一个不可忽视的力量。在这个领域里,ChatGPT 脱颖而出,以其卓越的自然语言处理能力和巨大的知识体系,成为了汽车行业不可缺少的一员。本文将以 ChatGPT 为例,分析其对于汽车行业的影响与推动作用。以上内容,出自Open AI的智能聊天机器人ChatGPT之手,只需要在聊天框中输入“帮我写一个跟ChatGPT相关的文章开头,关联到马斯克与汽车行业”,ChatGPT就能自动帮你写好。最近一段时间,AI聊天机器人ChatGPT火爆全球,上线不到一周日活用户破百万,2个月破亿……一时间成为现象级消费类AI应用。有人用ChatGPT通过了谷歌L3工程师入职测试,年薪18.3万美元;有学生用ChatGPT拿下全班最高分;ChatGPT之所以火爆,原因就是智能化程度之高,令人细思极恐,就连马斯克也在去年12月就曾公开表示称:ChatGPT好得吓人,我们离强大到危险的人工智能不远了。具体有多吓人?我们先用几个案例来说明。除了帮忙写文章开头之外,ChatGPT还能分析出BBA为什么电动化落后,且列出了几个改善方法。还能直接对比智能汽车与传统汽车的区别,并整理成表格。甚至能分析特斯拉与比亚迪的竞争并随手写成一篇千字左右的文章。事实上,ChatGPT是一个生成式AI,即内容生成器,它并非凭空生成或制造产品,而是通过人类向它提供的材料、信息、文献、文体等进行深度学习,模拟人类的反应做出回答和回应。那么,在汇集了全球无数的信息之后,ChatGPT能给智能汽车行业带来哪些影响和改变呢?ChatGPT能给汽车行业的发展带来哪些影响与改变?不如我们先听听它自己是怎么说的。ChatGPT 作为人工智能的一种实现,在智能汽车行业有着广泛的应用。它可以用于语音识别、图像识别、自然语言处理等方面,帮助汽车厂商提高汽车的智能化水平,使得汽车具有更高的安全性和智能化程度。ChatGPT自己认为在“智能化水平”方面能给汽车行业带来帮助,显然是“谦虚”了,从目前ChatGPT展示的效果来看,至少能给汽车行业带来三种颠覆性的变化,分别作用在设计阶段,生产阶段和销售阶段,我们一个个来说。假如我现在要研发一款年轻化的汽车,向ChatGPT求助,请它帮忙分析年轻人的购车需求,最终得到这样的回复:智能化、高颜值、价格、便携性等,基本都说到点上了,除此之外,还能帮忙推荐一些关于年轻消费者购车倾向和需求的调研报告,这对于汽车行业从业者来说十分有用,省去了自己查找筛选的时间。不过,如果你想让ChatGPT直接帮忙设计一辆汽车,得到的答案是“很抱歉,作为一种语言模型,我并不能直接帮您设计一款汽车”,很Siri的回复,虽然无法设计,ChatGPT还是会提供一些建议,比如“在设计汽车时,您需要考虑年轻人的需求和喜好,并结合市场需求进行分析。”在设计阶段,ChatGPT拥有的大数据分析能力,能在最快时间分析大量的汽车数据,帮助行业了解消费者的需求和行为,从而帮助汽车公司更好地设计和开发一款汽车。而在生产阶段,如果问ChatGPT“如何改变汽车生产模式”,可以得到这样的结论:简单来说,就是通过对数据的分析和处理,为汽车生产企业提供更准确的生产计划和决策,从而提高生产效率。此外,ChatGPT还可以帮助汽车生产企业实现更加智能化的生产管理,例如通过实时监测生产线上的生产数据,及时发现生产过程中的问题并采取措施,从而降低生产成本和提高生产效率。如果继续追问如何提高生产效率,得到的回答是通过自动化生产流程、数据分析、预测需求等方面改善生产效率。至于更加具体的操作,就需要车企提供相关资料给ChatGPT分析了。在最后的销售阶段,ChatGPT也给出了3个改进项目,第一是智能客服,可以为消费者提供专业的咨询服务,目前已经有一些客服岗位被AI取代;第二是通过大量数据分析,帮助销售人员了解客户的需求和购车行为,从而改进销售策略;第三是可以帮助销售快速回答客户问题,并协助管理客户信息,识别潜在客户。关于销售阶段的应用,微软已经冲在前面了,上周四,微软旗下Dynamics 365产品线发布视频,宣布旗下客户关系管理软件Viva Sales将集成OpenAI的技术,通过人工智能帮助销售人员完成许多繁杂且重复的文字工作。利用ChatGPT人工智能模型,可以为电子邮件里客户的问题生成回复建议。例如,销售人员可以从“提供折扣”、“回复询问”或“自行创建”等选项中进行选择,然后人工智能将创建可使用的内容。下一步将会有怎样的应用,取决于人类的想象力。诚然,虽然ChatGPT推出的时间很短,但它对各行各业的影响却具有颠覆性的,而且商业模式正逐渐得到拓展,未来可以探索的空间非常广阔。当然新事物的诞生总是伴随着挑战与机遇,ChatGPT也同样如此。尽管ChatGPT十分具有颠覆性,但亚马逊却对其充满了警惕,甚至警告员工不要与ChatGPT分享机密信息。微软高级工程师也表示“请不要将敏感数据发送给OpenAI终端,因为他们可能会将其用于训练未来的模型。”原因就是我们老生常谈的话题:数据隐私。以ChatGPT的数据体量,人类在ChatGPT面前没有秘密可言,任何人类留存在网络的信息,ChatGPT应该都搜索得到,包括我们的隐私。从ChatGPT的表现来看,小到人类个人都可能成为其受害者,个人或企业肖像、名誉等人格和财产权益可能受到损害,大到ChatGPT会给社会秩序、国家政治稳定和安全造成巨大威胁。所幸的是,ChatGPT现在还属于人类管控,而且应该是被冻结了找出隐私的功能,不然不知道有多少90后的非主流黑历史要被翻出来。因此,不管是汽车行业还是其他行业,在使用ChatGPT上,并不是只管用就行,还存在着技术上的挑战。除了数据安全外,还需要大量的专业知识和高质量的训练数据,以及专业的技术支持,以解决技术上的问题和难题。当然,机遇也有,在智能汽车上,语音交互、自动驾驶、高精地图等问题,都可以通过ChatGPT辅助协作,就看谁能先接入ChatGPT的API接口。在智能汽车上,我们经常吐槽的一个点,是汽车上的智能语音缺少“情感”,这是一个很抽象的词,如何定义情感?ChatGPT就是个比较好的解决方案。比如在问“汽车行业有哪些奇怪设计”的时候,一般的语音助手都是说“不清楚”,因为“奇怪”是一个很主观的词,而ChatGPT的回答是“并不是所有设计都被认为是标准的,不同的设计风格和特点在某些人看来是奇怪的,但在其他人眼中可能是合适的”。这就是所谓的高情商回复,从中我们甚至能看到ChatGPT的价值观,虽然问题还是没有答案,但这样的回复显然让人更加舒服。更加重要的是,ChatGPT是可进化的,也就是说可以通过训练和使用最先进的自然语言处理技术,来改善智能汽车的语音识别性能。例如,它可以通过语音识别技术,例如语音语法、语音识别和语音合成等,实现语音指令识别和处理。值得一提的是,CHatGPT上车并不难,可以直接接入智能汽车系统,并通过 API 的形式与智能汽车系统进行交互。而在自动驾驶方面,ChatGPT 可以通过数据分析和人工智能技术来实现自动驾驶功能,帮助驾驶员更加方便和安全地驾驶。例如,ChatGPT可以用来分析大量的驾驶日志数据,以找出驾驶员在特定情境下的行为规律,并用这些信息来训练自动驾驶控制系统,从而提高它们在复杂情境下的决策能力。总的来说,ChatGPT的分析能力可以为改善自动驾驶技术的情景判断能力提供有力的支持。同时,ChatGPT 也可以为汽车配备智能导航系统,实时分析道路状况,提供最快和最安全的出行方案。可以说ChatGPT+高精地图,才成为了自动驾驶的完整体。这样的颠覆不仅限于汽车行业,同时适用于当今社会的各行各业,比如美国迈阿密的一名房地产中介 Frank Trelles 在接受媒体采访时表示,他试用 ChatGPT 写的介绍贴一发出去就收到了顾客的回应,并且很快就达成了交易,因此如果未来 OpenAI 要对 ChatGPT 进行收费,他也乐意付费使用。当AI 成为了一种新型工具。对应到历史的话,ChatGPT 于 AI 的使用意义大概相当于第一台计算机的诞生、富兰克林用风筝捕获电、原始人第一次使用火。尽管AIGC潜力巨大,但在技术和商业方面、道德伦理和法规层面,仍面临着客观的问题和挑战。比如在技术上,ChatGPT仍然还不够聪明。当你问一些具有时效性的问题时,就会出现“我的知识截止时间是2021年”的回复,偶尔还会产生不正确的信息,有时会编造文献,也会给出错误虚假的答案。在教育界及学术界,反对声音也不断出现。一些人认为它可以成为一个很好的教学辅助工具,另一些人则担心学生会利用该程序来剽窃他们的工作。1月5日,纽约市教育部门表示,纽约公立学校的所有设备和网络上将禁止使用ChatGPT。纽约市教育部门发言人詹娜·莱尔指出,这一决定是基于“该工具可能会对学生学习产生负面影响,以及对其内容的安全性和准确性的担忧”。1月底,权威学术出版机构Nature,也针对ChatGPT做出规定。Nature规定,ChatGPT等大模型不能被列为作者。如在论文创作中用过相关工具,作者应在“方法”或“致谢”或适当的部分明确说明。与此同时,反ChatGPT的产品也已出现。美国斯塔福大学研究人员推出了DetectGPT,用于检测出AI生成文本。另一个反ChatGPT的产品GPTZero在1月底进行了升级,一天之内便有40万的访问量和220万的服务请求。这款产品能在几秒内摸清文字是人类还是AI写的。当然,抛开这些争议,当下人们更加关注的一个话题是:人工智能会不会取代人类?事实上,ChatGPT的爆火最初源于它在一位工程师的诱导下,竟写出了毁灭人类的计划书。步骤详细到入侵各国计算机系统、控制武器、破坏通讯、交通系统等,甚至还给出了相应的Python代码。虽然在此后的一次更新上,ChatGPT取消了一些反人类反道德的回答,但当我们问到“未来哪些工作会被ChatGPT替代”时,得到了肯定的回复。在一些繁琐的、重复的、高度依赖模式的工作中,比如数据录入、文档处理、客服等岗位,是可能被ChatGPT替代的,这方面好坏各占一半,好的方面是人类可以参与更多具有创造性的工作,而不必把时间用在这些枯燥的工作上;坏的方面是,这种重复性的工作可能就是一个人赖以生存的根本,ChatGPT正在剥夺这部分人的利益。至于ChatGPT是噱头还是工具,至少从目前的来看,在汽车行业,ChatGPT确实具有重大的影响力,能解决一些实际问题,可以为汽车行业做出一些改变。最后,我们通过ChatGPT,给这篇文章写了个结尾。总的来说,ChatGPT对汽车行业具有重要的影响力。它通过改善汽车的语音识别、自动驾驶技术和导航系统等,为消费者提供更加高效和便捷的驾驶体验。在汽车行业不断发展的过程中,ChatGPT将成为一把利器,推动行业技术的提升和创新。我们相信,在未来,ChatGPT将继续为汽车行业带来巨大的价值,并为消费者带来更加美好的驾驶体验。","news_type":1},"isVote":1,"tweetType":1,"viewCount":1003,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":348860533530648,"gmtCreate":1726198433738,"gmtModify":1726201550612,"author":{"id":"3569922558089083","authorId":"3569922558089083","name":"千羽卡罗拉","avatar":"https://static.tigerbbs.com/5371c90bc051ff1750bdb82113ec3b5a","crmLevel":3,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3569922558089083","authorIdStr":"3569922558089083"},"themes":[],"htmlText":"技术飞速迭代中","listText":"技术飞速迭代中","text":"技术飞速迭代中","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/348860533530648","repostId":"1127704022","repostType":2,"repost":{"id":"1127704022","kind":"news","pubTimestamp":1726184627,"share":"https://www.laohu8.com/m/news/1127704022?lang=&edition=full","pubTime":"2024-09-13 07:43","market":"us","language":"zh","title":"大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍","url":"https://stock-news.laohu8.com/highlight/detail?id=1127704022","media":"Founder Park","summary":"OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!9 月 13 日凌晨,OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本——o1 mini。OpenAI 将此次发布称为「预览版」,强调 o1 仍处于早期阶段。在权限开放方面,OpenAI 采取了分阶段推广策略。基于这一突破性进展,我们决定将计数器重置为 1,并将这个全新的模型系列命名为 OpenAI o1,以彰显其开创性意义。","content":"<html><head></head><body><p>OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!</p><p style=\"text-align: justify;\">9 月 13 日凌晨,OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本——o1 mini。</p><p style=\"text-align: justify;\">OpenAI 将此次发布称为「预览版」,强调 o1 仍处于早期阶段。</p><p style=\"text-align: justify;\">OpenAI 的 API 负责人发文称:「如果你过去有个产品想法,当时的模型不太行,不够智能,现在你再试试」。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/7523e9f1b96ee44ccc6b003dd3218516\" title=\"\" tg-width=\"1080\" tg-height=\"608\"/></p><p style=\"text-align: justify;\">在权限开放方面,OpenAI 采取了分阶段推广策略。</p><ul style=\"\"><li><p style=\"text-align: justify;\">ChatGPT Plus 和 Team 用户可以立即访问 o1-preview 和 o1-mini。</p></li><li><p style=\"text-align: justify;\">Enterprise 和 Edu 用户将在下周获得访问权。</p></li><li><p style=\"text-align: justify;\">API 使用等级 5(已消费 1,000 美元且自首次付款以来已超过 30 天)的开发者,今日起可使用这两款模型,速率限制为 20 RPM。</p></li><li><p style=\"text-align: justify;\">OpenAI 还计划在未来向所有 ChatGPT 的免费用户开放 o1-mini 的使用权。</p></li></ul><p style=\"text-align: justify;\">对于开发者而言,通过 API 使用 o1 的成本不便宜。o1-preview 的定价为每百万输入 token 15 美元,每百万输出 token 60 美元,远高于 GPT-4o 的定价(输入 5 美元/百万 token,输出 15 美元/百万 token)。</p><h2 id=\"id_2720589625\">01 </h2><h2 id=\"id_2205185827\">OpenAI 员工:</h2><h2 id=\"id_965761073\">o1 重新定义了游戏规则</h2><p style=\"text-align: justify;\">在 OpenAI 员工的推文中,可以看到他们对于 o1 能力的赞许,以及一些关键的能力升级要点。</p><p style=\"text-align: justify;\"><strong>OpenAI API 负责人 Michelle Pokrass 推文:</strong></p><p style=\"text-align: justify;\">o1-preview 和 o1-mini 模型已经上线。它们是我们目前为止在推理方面表现最佳的模型,我们相信它们将为 API 解锁全新的应用场景。</p><p style=\"text-align: justify;\">如果你有一个产品创意,但时机尚未成熟,模型还不够智能——不妨再次尝试。</p><p style=\"text-align: justify;\">这些新模型并不能完全替代 4o。</p><p style=\"text-align: justify;\">你需要以不同的方式进行提示,并以新的方式构建你的应用程序,但我们认为它们将有助于缩小智能差距,帮助你开发出更好的产品。</p><p style=\"text-align: justify;\">(现在为 API 第五级用户推出,用户也将很快可以使用)</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/19f1bc45953d928c39961124ab2b9872\" title=\"\" tg-width=\"1080\" tg-height=\"720\"/></p><p style=\"text-align: justify;\"><strong>Greg Brockman 的推文:</strong></p><p style=\"text-align: justify;\">OpenAI o1—我们第一个通过强化学习训练的模型,在回答问题之前会深入思考。团队的工作令人非常自豪!</p><p style=\"text-align: justify;\">这是一个充满巨大机遇的新范式。这一点在定量上(例如推理指标已经显著提升)和定性上(例如忠实的思维链使模型易于理解,因为它允许你以简单的英语「阅读模型的思维」)都很明显。</p><p style=\"text-align: justify;\">可以这样理解,我们的模型进行系统 I 思考,而思维链则解锁了系统 II 思考。人们已经发现,提示模型「一步步思考」可以提升性能。但是通过试错来训练模型,从头到尾这样做,则更为可靠,并且——正如我们在围棋或 Dota 等游戏中所见——可以产生极其令人印象深刻的结果。</p><p style=\"text-align: justify;\">o1 技术仍处于早期阶段。它提供了新的安全机会,我们正在积极探索,包括可靠性、幻觉和对抗攻击者的鲁棒性。例如,我们已经看到,通过思维链让模型推理策略,我们的安全指标有了很大的提升。</p><p style=\"text-align: justify;\">其准确性也有很大的改进空间——例如,从我们的发布帖子来看,我们的模型在今年的编程奥林匹克竞赛(IOI)中,在人类条件下(每个问题 50 次提交)取得了第 49 百分位/213 分。但是,如果允许模型问题提交 10000 次,模型取得了 32.14 分——超过了金牌门槛。因此,模型能够产生比最初看起来更大的输出。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3b586e06c147e63b7b8b010bc64f1b92\" title=\"\" tg-width=\"1080\" tg-height=\"1320\"/></p><p style=\"text-align: justify;\"><strong>OpenAI 研究员 Jason Wei 的推文:</strong></p><p style=\"text-align: justify;\">o1 是一个在给出最终答案之前会进行思考的模型。用我自己的话来描述,以下是对人工智能领域最大的更新:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">不要仅仅通过提示来执行思维链,而是使用强化学习训练模型以更好地进行思维链。</p></li><li><p style=\"text-align: justify;\">在深度学习的历史中,我们一直试图扩展训练计算,但思维链是一种自适应计算,也可以在推理时进行扩展。</p></li><li><p style=\"text-align: justify;\">AIME 和 GPQA 的结果非常强大,但这并不一定转化为用户可以感受到的东西。即使是工作的人,也很难找到 GPT-4o 失败、o1 表现良好并且我可以评分的提示切片。但当你找到这样的提示时,o1 感觉完全像魔法一样。我们都需要找到更难的提示。</p></li><li><p style=\"text-align: justify;\">使用人类语言进行思维链的 AI 模型在很多方面都很棒。模型做了很多类似人类的事情,比如将棘手的步骤分解为更简单的步骤,识别和纠正错误,以及尝试不同的方法。强烈鼓励每个人都去看看博客文章中的思维链例子。</p></li></ol><p style=\"text-align: justify;\">游戏规则已经完全被重新定义了。</p><h2 id=\"id_1100112374\">02 </h2><h2 id=\"id_3503978320\">AI 能力的新飞跃,</h2><h2 id=\"id_2603940884\">所以取名 o1</h2><p style=\"text-align: justify;\">o1 采用强化学习技术进行训练,专门设计用于处理复杂的推理任务。与传统模型不同,o1 具有"深思熟虑"的能力——在给出最终回答之前,它能够在内部进行长链条的逻辑推理和思考过程,从而确保回应的质量和深度。</p><p style=\"text-align: justify;\">通过精心设计的训练过程,这些模型不仅学会了如何优化思考过程,还能灵活运用不同的问题解决策略,并且具备自我纠错的能力。</p><p style=\"text-align: justify;\">测试结果令人振奋。在即将推出的模型更新中,它在物理、化学和生物学等领域的复杂基准测试中,表现堪比博士生水平。</p><p style=\"text-align: justify;\">特别值得一提的是,它在数学和编程方面的表现尤为出色。举例来说,在国际数学奥林匹克(IMO)的资格考试中,我们的新推理模型正确解答了 83% 的问题,远超 GPT-4o 的 13%。在编程能力方面,通过 Codeforces 竞赛的评估,新模型的表现超过了 89% 的参赛者。</p><p style=\"text-align: justify;\">作为一个处于早期阶段的模型,它目前还不具备 ChatGPT 的一些实用功能,如网络浏览、文件上传和图像处理等,它在世界事实知识方面的表现也不如后者。<strong>短期内,对于日常应用场景,GPT-4o 可能仍然更为实用</strong>。</p><p style=\"text-align: justify;\">然而,在复杂推理任务方面,这个新模型代表了 AI 能力的一个重大飞跃。<strong>基于这一突破性进展,我们决定将计数器重置为 1,并将这个全新的模型系列命名为 OpenAI o1,以彰显其开创性意义。</strong></p><p style=\"text-align: justify;\">我们开发了一种创新的大规模强化学习算法,这种算法能够在高效利用数据的同时,有效地训练模型运用其思维链进行富有成效的推理。这种训练方法的核心在于教会模型"如何思考",而不仅仅是存储和检索信息。</p><p style=\"text-align: justify;\">通过持续的研究,我们发现了两个关键因素能显著提升 o1 模型的性能:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">增加强化学习的计算量(即训练阶段的计算资源投入)</p></li><li><p style=\"text-align: justify;\">延长模型的"思考时间"(即在测试或应用阶段给予模型更多的计算时间)</p></li></ol><p style=\"text-align: justify;\">这种方法在扩展性方面表现出了与传统大语言模型预训练截然不同的特点。传统的预训练主要受限于海量文本数据的获取和处理,而我们的方法更多地依赖于计算资源和算法优化。目前,我们正深入研究这种新方法的扩展限制,以期在未来取得更大的突破。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/8a59a2ccdacbe3fb5df3b8f472fedfb0\" title=\"o1 的性能随着训练时计算和测试时计算的增加而平稳提升。\" tg-width=\"1080\" tg-height=\"607\"/><span>o1 的性能随着训练时计算和测试时计算的增加而平稳提升。</span></p><h2 id=\"id_146392198\" style=\"text-align: justify;\">03 </h2><h2 id=\"id_2784279609\">数学:全面碾压 4o,</h2><h2 id=\"id_898269760\">成绩跻身全美前 500 名之列</h2><p style=\"text-align: justify;\">为了凸显 o1 模型在推理能力上相比 GPT-4o 的显著进步,我们设计了一套全面而严格的评估方案。这个方案包括了各种人类专业考试和机器学习领域公认的基准测试,涵盖了广泛的知识领域和复杂的推理任务。</p><p style=\"text-align: justify;\">测试结果令人振奋:在绝大多数需要深度思考和复杂推理的任务中,o1 模型都展现出了明显优于 GPT-4o 的表现。这一结果有力地证明了 o1 在处理高难度、需要多步推理的问题时的卓越能力。</p><p style=\"text-align: justify;\">值得注意的是,除非我们特别说明,所有针对 o1 的评估都是在最大化测试时间计算资源的情况下进行的。这意味着我们充分发挥了 o1 模型的潜力,让它有足够的"思考时间"来处理这些复杂任务。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/026aa59e823a1f7caa9c501b25a21667\" title=\"o1 在具有挑战性的推理基准测试中显著优于 GPT-4o。实心条表示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)性能。\" tg-width=\"1080\" tg-height=\"419\"/><span>o1 在具有挑战性的推理基准测试中显著优于 GPT-4o。实心条表示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)性能。</span></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/65fb30c159d93e924d9bcfe7263ee59e\" title=\"o1 在广泛的基准测试中超越了 GPT-4o,涵盖了 57 个 MMLU 子类别中的 54 个。\" tg-width=\"1080\" tg-height=\"810\"/><span>o1 在广泛的基准测试中超越了 GPT-4o,涵盖了 57 个 MMLU 子类别中的 54 个。</span></p><p style=\"text-align: justify;\">o1 模型在众多需要复杂推理能力的基准测试中展现出了与人类专家相当的水平,这一成就令人瞩目。值得注意的是,近期一些顶尖的 AI 模型在 MATH2 和 GSM8K 等传统数学测试中的表现已经如此出色,以至于这些测试不再能有效地区分不同模型的能力。</p><p style=\"text-align: justify;\">为了更严格地评估 o1 的数学能力,我们选择了美国数学邀请赛(AIME)作为测试基准。AIME 是专为挑战美国最优秀的高中数学生而设计的高难度考试,能够更好地测试模型的极限能力。</p><p style=\"text-align: justify;\">在 2024 年的 AIME 考试中,我们对比了 o1 和 GPT-4o 的表现:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">GPT-4o 的表现:平均只能解决 12% 的问题(15 题中的 1.8 题)。</p></li><li><p style=\"text-align: justify;\">o1 的表现:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">单次尝试:平均解决 74% 的问题(15 题中的 11.1 题)</p></li><li><p style=\"text-align: justify;\">64 次采样取共识:正确率提升至 83%(15 题中的 12.5 题)</p></li><li><p style=\"text-align: justify;\">1000 次采样后使用学习型评分函数重新排序:正确率高达 93%(15 题中的 13.9 题)</p></li></ol></li></ol><p style=\"text-align: justify;\">o1 的最佳成绩 13.9 分是一个令人惊叹的结果。这一分数不仅使 o1 跻身全美前 500 名的优秀学生行列,更是超过了美国数学奥林匹克竞赛的入选分数线。这意味着,<strong>如果 o1 是一名高中生,它的数学能力足以让它有资格参加美国最高级别的数学竞赛</strong>。</p><p style=\"text-align: justify;\">我们进一步将 o1 模型应用于 GPQA diamond 测试,这是一个极具挑战性的智能基准测试,专门用于评估模型在化学、物理和生物学等领域的专业知识水平。为了进行公平的人机对比,我们特别邀请了拥有相关领域博士学位的专家参与测试。</p><p style=\"text-align: justify;\">测试结果令人振奋:o1 不仅成功完成了测试,更是超越了人类专家的表现,成为首个在 GPQA diamond 基准上击败人类专家的 AI 模型。这一突破性成就标志着 AI 在特定专业领域的能力已经达到了一个新的高度。</p><p style=\"text-align: justify;\">然而,我们需要谨慎地解读这一结果。o1 超越人类专家的表现并不意味着它在所有方面都比拥有博士学位的专家更强。相反,这表明 o1 在解决某些特定类型的问题上——即那些通常需要博士级专业知识的问题——展现出了非凡的熟练度和效率。</p><p style=\"text-align: justify;\">除 GPQA diamond 外,o1 在其他多个机器学习基准测试中也取得了突破性进展,推动了行业的技术前沿:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">在启用视觉感知能力的情况下,o1 在 MMMU(多模态理解)测试中获得了 78.2% 的高分。这一成绩使 o1 成为首个能够与人类专家在该领域展开竞争的 AI 模型,展示了其在多模态任务中的卓越表现。</p></li><li><p style=\"text-align: justify;\">在 MMLU(大规模多任务语言理解)测试中,o1 的表现更是令人瞩目。在总计 57 个子类别中,o1 在 54 个类别上都超越了 GPT-4o 的表现。这一结果充分证明了 o1 在广泛的知识领域和任务类型中的全面优势。</p></li></ol><p style=\"text-align: justify;\">这些测试结果共同描绘了 o1 模型的全面能力图谱:它不仅在专业领域的深度知识上能与人类专家比肩,还在广泛的知识领域和多模态任务中展现出了优异的表现。这些成就标志着 AI 技术在通用智能和专业领域应用方面都取得了重大突破,为未来 AI 在更多复杂任务中的应用开辟了新的可能性。</p><h2 id=\"id_2769052778\">04 </h2><h2 id=\"id_2447425538\">编程:编程竞赛优于 93% 的参赛者</h2><p style=\"text-align: justify;\">我们基于 o1 模型进行了深度优化和专项训练,成功开发出了一个在编程领域表现卓越的 AI 模型。这个模型在 2024 年国际信息学奥林匹克竞赛(IOI)中展现了令人瞩目的实力,不仅获得了 213 分的高分,还跻身参赛者的前 50%,这一成绩充分证明了 AI 在高难度编程任务中的潜力。</p><p style=\"text-align: justify;\">比赛设置与挑战:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">竞赛环境:AI 模型与人类参赛者在完全相同的条件下参加比赛。</p></li><li><p style=\"text-align: justify;\">任务难度:需要在 10 小时内解决 6 个高难度算法问题。</p></li><li><p style=\"text-align: justify;\">提交限制:每个问题允许 50 次提交机会。</p></li></ol><p style=\"text-align: justify;\">我们开发了一套独特的测试时选择策略,显著提升了模型的竞争力:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">多样化采样:系统为每个问题生成大量候选解决方案。</p></li><li><p style=\"text-align: justify;\">智能筛选:基于 IOI 公开测试用例、模型自生成的测试用例以及专门设计的评分函数,从中选出最优的 50 个解决方案提交。</p></li><li><p style=\"text-align: justify;\">策略效果:与随机提交相比,这一策略平均提升了近 60 分,充分证明了其在严格的竞赛环境中的价值。</p></li></ol><p style=\"text-align: justify;\">突破性表现:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">放宽限制后的惊人成绩:当每题允许 10,000 次提交时,即使没有使用任何测试时选择策略,模型也取得了 362.14 分的高分,超越了金牌获得的门槛。这一结果展示了模型在更宽松条件下的潜力。</p></li><li><p style=\"text-align: justify;\">在 Codeforces 平台的卓越表现:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">模拟环境:我们在 Codeforces 平台上模拟了真实的竞争性编程比赛,严格遵循比赛规则,每题允许 10 次提交。</p></li><li><p style=\"text-align: justify;\">惊人突破:我们的新模型获得了 1807 的 Elo 评分,超越了 93% 的人类竞争者。</p></li><li><p style=\"text-align: justify;\">显著进步:相比之下,GPT-4o 的 Elo 评分为 808,仅超过 11% 的人类竞争者。新模型不仅大幅超越了 GPT-4o,还远远超过了 o1 的表现。</p></li></ol></li></ol><p style=\"text-align: justify;\">这些结果清晰地展示了我们的 AI 模型在编程领域取得的重大突破。它不仅能在世界顶级的编程竞赛中与人类专家同台竞技,更在某些方面展现出超越人类的潜力。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/dc1acba538ff6c683df7a4f0eda75ff4\" title=\"通过在编程竞赛上进一步微调改进了 o1。在竞赛规则下,改进后的模型在 2024 年国际信息学奥林匹克竞赛中排名在第 49 百分位。\" tg-width=\"1080\" tg-height=\"607\"/><span>通过在编程竞赛上进一步微调改进了 o1。在竞赛规则下,改进后的模型在 2024 年国际信息学奥林匹克竞赛中排名在第 49 百分位。</span></p><h2 id=\"id_1213464210\">05 </h2><h2 id=\"id_3288595994\">人类偏好评估:</h2><h2 id=\"id_2614987790\">文本生成 4o 仍占优势</h2><p style=\"text-align: justify;\">为了全面评估 AI 模型的实际应用效果,我们不仅关注传统的考试成绩和学术基准,还进行了一项创新的人类偏好评估。这项评估旨在比较 o1-preview 和 GPT-4o 两个模型在处理各种领域复杂、开放性问题时的表现。</p><p style=\"text-align: justify;\">评估方法:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">范围广泛:涵盖了多个不同领域的挑战性问题。</p></li><li><p style=\"text-align: justify;\">开放式提示:使用开放性问题来测试模型的灵活性和创造力。</p></li><li><p style=\"text-align: justify;\">匿名对比:向人类评估者展示两个模型的匿名回答。</p></li><li><p style=\"text-align: justify;\">人工判断:由经过培训的人类专家投票选择他们认为更优秀的回答。</p></li></ol><p style=\"text-align: justify;\">关键发现:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">o1-preview 的优势领域:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">在需要深度推理能力的领域中,o1-preview 表现出色,大幅领先于 GPT-4o。</p></li><li><p style=\"text-align: justify;\">这些领域主要包括:数据分析、编程和数学。</p></li><li><p style=\"text-align: justify;\">优势明显,显示出 o1-preview 在处理复杂逻辑和抽象思维方面的卓越能力。</p></li></ol></li><li><p style=\"text-align: justify;\">GPT-4o 的优势领域:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">在某些自然语言处理任务中,GPT-4o 仍然保持优势。</p></li><li><p style=\"text-align: justify;\">这表明语言模型在处理日常交流、文本生成等任务时可能更有优势。</p></li></ol></li><li><p style=\"text-align: justify;\">模型适用性的差异:</p><ol start=\"1\" style=\"list-style-type: lower-alpha;\"><li><p style=\"text-align: justify;\">o1-preview 虽然在某些领域表现出色,但并非全能。</p></li><li><p style=\"text-align: justify;\">这一发现强调了不同 AI 模型在不同任务中的专长,暗示了未来 AI 应用可能需要任务特定的模型选择。</p></li></ol></li></ol><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/6061f6f9532374c52f736203713d7588\" title=\"\" tg-width=\"1080\" tg-height=\"648\"/></p><p style=\"text-align: justify;\">结论:这项评估不仅展示了 o1-preview 在处理复杂推理任务时的优越性,也揭示了 AI 模型能力的多样性。它提醒我们,在选择和应用 AI 模型时,需要根据具体任务和场景来选择最合适的工具。同时,这也为未来 AI 模型的开发提供了方向,即如何在保持强大推理能力的同时,提升在自然语言处理等领域的表现。</p><h2 id=\"id_2820373998\" style=\"text-align: justify;\">06 </h2><h2 id=\"id_315422232\">幻觉没有解决,</h2><h2 id=\"id_2932824596\">但思维链很强大</h2><p style=\"text-align: justify;\">在 AI 领域,"思维链"(Chain of Thought)是一个重要概念,它代表了 AI 模型在生成答案时的内部推理过程。这个过程就像人类的思考过程一样,包含了从问题到解决方案的一系列逻辑步骤。o1 运用"思维链"(chain of thought)方法来处理复杂任务。这种方法不仅模仿了人类的思考模式,还通过先进的强化学习技术不断优化和提升。</p><p style=\"text-align: justify;\">o1 的学习过程体现了多个关键特点:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">思维链优化:通过强化学习,o1 不断完善其思维链,提升解决问题的策略。</p></li><li><p style=\"text-align: justify;\">错误识别与纠正:o1 具备自我检查的能力,能够识别并纠正在推理过程中出现的错误。</p></li><li><p style=\"text-align: justify;\">问题分解能力:面对复杂问题时,o1 学会了将其分解为更简单、更易处理的子问题。</p></li><li><p style=\"text-align: justify;\">灵活的方法转换:当发现当前方法无效时,o1 能够灵活地转换思路,尝试新的解决方案。</p></li></ol><p style=\"text-align: justify;\">这种多层次、自适应的学习过程极大地提升了 o1 的推理能力,使其在处理复杂问题时展现出近乎人类的灵活性和创造性。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/e121dc2bc5b13639a7f9d5781b9bc9c7\" title=\"诸如「我对……感到好奇」、「我正在思考」和「好的,让我看看」这样的短语,呈现一种思考的感觉。\" tg-width=\"1080\" tg-height=\"699\"/><span>诸如「我对……感到好奇」、「我正在思考」和「好的,让我看看」这样的短语,呈现一种思考的感觉。</span></p><p style=\"text-align: justify;\">思维链的潜在价值:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">模型监控:通过分析思维链,我们可以深入了解 AI 的"思考方式"。</p></li><li><p style=\"text-align: justify;\">安全保障:未来可能利用思维链检测 AI 是否试图操纵用户。</p></li><li><p style=\"text-align: justify;\">透明度:为 AI 决策提供解释性,增加其可信度。</p></li></ol><p style=\"text-align: justify;\">尽管思维链具有上述潜在价值,<strong>我们还是决定不向用户直接展示原始思维链</strong>。这个决定基于以下考虑:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">用户体验:原始思维链可能复杂难懂,影响用户体验。</p></li><li><p style=\"text-align: justify;\">竞争优势:保护核心技术细节。</p></li><li><p style=\"text-align: justify;\">监控灵活性:保留未来进行思维链监控的选项。</p></li><li><p style=\"text-align: justify;\">安全考虑:防止未经过滤的、可能存在问题的思维过程直接暴露给用户。</p></li></ol><p style=\"text-align: justify;\">为了在隐藏思维链和提供有价值信息之间取得平衡,我们采取了以下措施:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">智能提取:训练模型从思维链中提取有用信息并融入最终回答。</p></li><li><p style=\"text-align: justify;\">摘要生成:对于 o1 模型系列,我们提供由模型生成的思维链摘要,既保留了关键信息,又避免了原始数据的直接暴露。</p></li></ol><h2 id=\"id_2935302693\" style=\"text-align: justify;\">07 </h2><h2 id=\"id_3804473701\">o1 最适合哪些领域</h2><p style=\"text-align: justify;\">这一代模型凭借其卓越的推理能力,将为多个领域的专业人士带来显著助益,尤其是那些在科学研究、软件开发、数学计算等领域面临复杂挑战的人。让我们来看几个具体的应用场景:</p><ol start=\"1\" style=\"\"><li><p style=\"text-align: justify;\">医疗研究领域:生物信息学家可以利用 o1 来协助细胞测序数据的注释工作,大大提高基因组研究的效率。</p></li><li><p style=\"text-align: justify;\">物理学研究:在量子光学这样的前沿领域,物理学家可以借助 o1 生成复杂的数学公式,加速理论研究和实验设计。</p></li><li><p style=\"text-align: justify;\">软件开发:不论是哪个行业的开发者,都可以利用 o1 来构建和执行多步骤的工作流程,简化复杂的编程任务。</p></li></ol><p style=\"text-align: justify;\">总的来说,o1 模型为那些需要处理高度复杂问题、进行深度分析或创新研究的专业人士提供了强大的智能辅助工具。</p></body></html>","source":"lsy1683257321184","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍\n</h2>\n\n<h4 class=\"meta\">\n\n\n2024-09-13 07:43 北京时间 <a href=https://mp.weixin.qq.com/s/O7JjH182dyIP7bgSaYomBg><strong>Founder Park</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!9 月 13 日凌晨,OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本——o1 mini。OpenAI 将此次发布称为「预览版」,强调 o1 仍处于早期阶段。OpenAI 的 API 负责人发文称:「如果你过去有个产品想法,当时的模型不太行,不够智能,现在...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/O7JjH182dyIP7bgSaYomBg\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/038f26efc16ee0d098630b6275bc5f77","relate_stocks":{},"source_url":"https://mp.weixin.qq.com/s/O7JjH182dyIP7bgSaYomBg","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1127704022","content_text":"OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!9 月 13 日凌晨,OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本——o1 mini。OpenAI 将此次发布称为「预览版」,强调 o1 仍处于早期阶段。OpenAI 的 API 负责人发文称:「如果你过去有个产品想法,当时的模型不太行,不够智能,现在你再试试」。在权限开放方面,OpenAI 采取了分阶段推广策略。ChatGPT Plus 和 Team 用户可以立即访问 o1-preview 和 o1-mini。Enterprise 和 Edu 用户将在下周获得访问权。API 使用等级 5(已消费 1,000 美元且自首次付款以来已超过 30 天)的开发者,今日起可使用这两款模型,速率限制为 20 RPM。OpenAI 还计划在未来向所有 ChatGPT 的免费用户开放 o1-mini 的使用权。对于开发者而言,通过 API 使用 o1 的成本不便宜。o1-preview 的定价为每百万输入 token 15 美元,每百万输出 token 60 美元,远高于 GPT-4o 的定价(输入 5 美元/百万 token,输出 15 美元/百万 token)。01 OpenAI 员工:o1 重新定义了游戏规则在 OpenAI 员工的推文中,可以看到他们对于 o1 能力的赞许,以及一些关键的能力升级要点。OpenAI API 负责人 Michelle Pokrass 推文:o1-preview 和 o1-mini 模型已经上线。它们是我们目前为止在推理方面表现最佳的模型,我们相信它们将为 API 解锁全新的应用场景。如果你有一个产品创意,但时机尚未成熟,模型还不够智能——不妨再次尝试。这些新模型并不能完全替代 4o。你需要以不同的方式进行提示,并以新的方式构建你的应用程序,但我们认为它们将有助于缩小智能差距,帮助你开发出更好的产品。(现在为 API 第五级用户推出,用户也将很快可以使用)Greg Brockman 的推文:OpenAI o1—我们第一个通过强化学习训练的模型,在回答问题之前会深入思考。团队的工作令人非常自豪!这是一个充满巨大机遇的新范式。这一点在定量上(例如推理指标已经显著提升)和定性上(例如忠实的思维链使模型易于理解,因为它允许你以简单的英语「阅读模型的思维」)都很明显。可以这样理解,我们的模型进行系统 I 思考,而思维链则解锁了系统 II 思考。人们已经发现,提示模型「一步步思考」可以提升性能。但是通过试错来训练模型,从头到尾这样做,则更为可靠,并且——正如我们在围棋或 Dota 等游戏中所见——可以产生极其令人印象深刻的结果。o1 技术仍处于早期阶段。它提供了新的安全机会,我们正在积极探索,包括可靠性、幻觉和对抗攻击者的鲁棒性。例如,我们已经看到,通过思维链让模型推理策略,我们的安全指标有了很大的提升。其准确性也有很大的改进空间——例如,从我们的发布帖子来看,我们的模型在今年的编程奥林匹克竞赛(IOI)中,在人类条件下(每个问题 50 次提交)取得了第 49 百分位/213 分。但是,如果允许模型问题提交 10000 次,模型取得了 32.14 分——超过了金牌门槛。因此,模型能够产生比最初看起来更大的输出。OpenAI 研究员 Jason Wei 的推文:o1 是一个在给出最终答案之前会进行思考的模型。用我自己的话来描述,以下是对人工智能领域最大的更新:不要仅仅通过提示来执行思维链,而是使用强化学习训练模型以更好地进行思维链。在深度学习的历史中,我们一直试图扩展训练计算,但思维链是一种自适应计算,也可以在推理时进行扩展。AIME 和 GPQA 的结果非常强大,但这并不一定转化为用户可以感受到的东西。即使是工作的人,也很难找到 GPT-4o 失败、o1 表现良好并且我可以评分的提示切片。但当你找到这样的提示时,o1 感觉完全像魔法一样。我们都需要找到更难的提示。使用人类语言进行思维链的 AI 模型在很多方面都很棒。模型做了很多类似人类的事情,比如将棘手的步骤分解为更简单的步骤,识别和纠正错误,以及尝试不同的方法。强烈鼓励每个人都去看看博客文章中的思维链例子。游戏规则已经完全被重新定义了。02 AI 能力的新飞跃,所以取名 o1o1 采用强化学习技术进行训练,专门设计用于处理复杂的推理任务。与传统模型不同,o1 具有\"深思熟虑\"的能力——在给出最终回答之前,它能够在内部进行长链条的逻辑推理和思考过程,从而确保回应的质量和深度。通过精心设计的训练过程,这些模型不仅学会了如何优化思考过程,还能灵活运用不同的问题解决策略,并且具备自我纠错的能力。测试结果令人振奋。在即将推出的模型更新中,它在物理、化学和生物学等领域的复杂基准测试中,表现堪比博士生水平。特别值得一提的是,它在数学和编程方面的表现尤为出色。举例来说,在国际数学奥林匹克(IMO)的资格考试中,我们的新推理模型正确解答了 83% 的问题,远超 GPT-4o 的 13%。在编程能力方面,通过 Codeforces 竞赛的评估,新模型的表现超过了 89% 的参赛者。作为一个处于早期阶段的模型,它目前还不具备 ChatGPT 的一些实用功能,如网络浏览、文件上传和图像处理等,它在世界事实知识方面的表现也不如后者。短期内,对于日常应用场景,GPT-4o 可能仍然更为实用。然而,在复杂推理任务方面,这个新模型代表了 AI 能力的一个重大飞跃。基于这一突破性进展,我们决定将计数器重置为 1,并将这个全新的模型系列命名为 OpenAI o1,以彰显其开创性意义。我们开发了一种创新的大规模强化学习算法,这种算法能够在高效利用数据的同时,有效地训练模型运用其思维链进行富有成效的推理。这种训练方法的核心在于教会模型\"如何思考\",而不仅仅是存储和检索信息。通过持续的研究,我们发现了两个关键因素能显著提升 o1 模型的性能:增加强化学习的计算量(即训练阶段的计算资源投入)延长模型的\"思考时间\"(即在测试或应用阶段给予模型更多的计算时间)这种方法在扩展性方面表现出了与传统大语言模型预训练截然不同的特点。传统的预训练主要受限于海量文本数据的获取和处理,而我们的方法更多地依赖于计算资源和算法优化。目前,我们正深入研究这种新方法的扩展限制,以期在未来取得更大的突破。o1 的性能随着训练时计算和测试时计算的增加而平稳提升。03 数学:全面碾压 4o,成绩跻身全美前 500 名之列为了凸显 o1 模型在推理能力上相比 GPT-4o 的显著进步,我们设计了一套全面而严格的评估方案。这个方案包括了各种人类专业考试和机器学习领域公认的基准测试,涵盖了广泛的知识领域和复杂的推理任务。测试结果令人振奋:在绝大多数需要深度思考和复杂推理的任务中,o1 模型都展现出了明显优于 GPT-4o 的表现。这一结果有力地证明了 o1 在处理高难度、需要多步推理的问题时的卓越能力。值得注意的是,除非我们特别说明,所有针对 o1 的评估都是在最大化测试时间计算资源的情况下进行的。这意味着我们充分发挥了 o1 模型的潜力,让它有足够的\"思考时间\"来处理这些复杂任务。o1 在具有挑战性的推理基准测试中显著优于 GPT-4o。实心条表示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)性能。o1 在广泛的基准测试中超越了 GPT-4o,涵盖了 57 个 MMLU 子类别中的 54 个。o1 模型在众多需要复杂推理能力的基准测试中展现出了与人类专家相当的水平,这一成就令人瞩目。值得注意的是,近期一些顶尖的 AI 模型在 MATH2 和 GSM8K 等传统数学测试中的表现已经如此出色,以至于这些测试不再能有效地区分不同模型的能力。为了更严格地评估 o1 的数学能力,我们选择了美国数学邀请赛(AIME)作为测试基准。AIME 是专为挑战美国最优秀的高中数学生而设计的高难度考试,能够更好地测试模型的极限能力。在 2024 年的 AIME 考试中,我们对比了 o1 和 GPT-4o 的表现:GPT-4o 的表现:平均只能解决 12% 的问题(15 题中的 1.8 题)。o1 的表现:单次尝试:平均解决 74% 的问题(15 题中的 11.1 题)64 次采样取共识:正确率提升至 83%(15 题中的 12.5 题)1000 次采样后使用学习型评分函数重新排序:正确率高达 93%(15 题中的 13.9 题)o1 的最佳成绩 13.9 分是一个令人惊叹的结果。这一分数不仅使 o1 跻身全美前 500 名的优秀学生行列,更是超过了美国数学奥林匹克竞赛的入选分数线。这意味着,如果 o1 是一名高中生,它的数学能力足以让它有资格参加美国最高级别的数学竞赛。我们进一步将 o1 模型应用于 GPQA diamond 测试,这是一个极具挑战性的智能基准测试,专门用于评估模型在化学、物理和生物学等领域的专业知识水平。为了进行公平的人机对比,我们特别邀请了拥有相关领域博士学位的专家参与测试。测试结果令人振奋:o1 不仅成功完成了测试,更是超越了人类专家的表现,成为首个在 GPQA diamond 基准上击败人类专家的 AI 模型。这一突破性成就标志着 AI 在特定专业领域的能力已经达到了一个新的高度。然而,我们需要谨慎地解读这一结果。o1 超越人类专家的表现并不意味着它在所有方面都比拥有博士学位的专家更强。相反,这表明 o1 在解决某些特定类型的问题上——即那些通常需要博士级专业知识的问题——展现出了非凡的熟练度和效率。除 GPQA diamond 外,o1 在其他多个机器学习基准测试中也取得了突破性进展,推动了行业的技术前沿:在启用视觉感知能力的情况下,o1 在 MMMU(多模态理解)测试中获得了 78.2% 的高分。这一成绩使 o1 成为首个能够与人类专家在该领域展开竞争的 AI 模型,展示了其在多模态任务中的卓越表现。在 MMLU(大规模多任务语言理解)测试中,o1 的表现更是令人瞩目。在总计 57 个子类别中,o1 在 54 个类别上都超越了 GPT-4o 的表现。这一结果充分证明了 o1 在广泛的知识领域和任务类型中的全面优势。这些测试结果共同描绘了 o1 模型的全面能力图谱:它不仅在专业领域的深度知识上能与人类专家比肩,还在广泛的知识领域和多模态任务中展现出了优异的表现。这些成就标志着 AI 技术在通用智能和专业领域应用方面都取得了重大突破,为未来 AI 在更多复杂任务中的应用开辟了新的可能性。04 编程:编程竞赛优于 93% 的参赛者我们基于 o1 模型进行了深度优化和专项训练,成功开发出了一个在编程领域表现卓越的 AI 模型。这个模型在 2024 年国际信息学奥林匹克竞赛(IOI)中展现了令人瞩目的实力,不仅获得了 213 分的高分,还跻身参赛者的前 50%,这一成绩充分证明了 AI 在高难度编程任务中的潜力。比赛设置与挑战:竞赛环境:AI 模型与人类参赛者在完全相同的条件下参加比赛。任务难度:需要在 10 小时内解决 6 个高难度算法问题。提交限制:每个问题允许 50 次提交机会。我们开发了一套独特的测试时选择策略,显著提升了模型的竞争力:多样化采样:系统为每个问题生成大量候选解决方案。智能筛选:基于 IOI 公开测试用例、模型自生成的测试用例以及专门设计的评分函数,从中选出最优的 50 个解决方案提交。策略效果:与随机提交相比,这一策略平均提升了近 60 分,充分证明了其在严格的竞赛环境中的价值。突破性表现:放宽限制后的惊人成绩:当每题允许 10,000 次提交时,即使没有使用任何测试时选择策略,模型也取得了 362.14 分的高分,超越了金牌获得的门槛。这一结果展示了模型在更宽松条件下的潜力。在 Codeforces 平台的卓越表现:模拟环境:我们在 Codeforces 平台上模拟了真实的竞争性编程比赛,严格遵循比赛规则,每题允许 10 次提交。惊人突破:我们的新模型获得了 1807 的 Elo 评分,超越了 93% 的人类竞争者。显著进步:相比之下,GPT-4o 的 Elo 评分为 808,仅超过 11% 的人类竞争者。新模型不仅大幅超越了 GPT-4o,还远远超过了 o1 的表现。这些结果清晰地展示了我们的 AI 模型在编程领域取得的重大突破。它不仅能在世界顶级的编程竞赛中与人类专家同台竞技,更在某些方面展现出超越人类的潜力。通过在编程竞赛上进一步微调改进了 o1。在竞赛规则下,改进后的模型在 2024 年国际信息学奥林匹克竞赛中排名在第 49 百分位。05 人类偏好评估:文本生成 4o 仍占优势为了全面评估 AI 模型的实际应用效果,我们不仅关注传统的考试成绩和学术基准,还进行了一项创新的人类偏好评估。这项评估旨在比较 o1-preview 和 GPT-4o 两个模型在处理各种领域复杂、开放性问题时的表现。评估方法:范围广泛:涵盖了多个不同领域的挑战性问题。开放式提示:使用开放性问题来测试模型的灵活性和创造力。匿名对比:向人类评估者展示两个模型的匿名回答。人工判断:由经过培训的人类专家投票选择他们认为更优秀的回答。关键发现:o1-preview 的优势领域:在需要深度推理能力的领域中,o1-preview 表现出色,大幅领先于 GPT-4o。这些领域主要包括:数据分析、编程和数学。优势明显,显示出 o1-preview 在处理复杂逻辑和抽象思维方面的卓越能力。GPT-4o 的优势领域:在某些自然语言处理任务中,GPT-4o 仍然保持优势。这表明语言模型在处理日常交流、文本生成等任务时可能更有优势。模型适用性的差异:o1-preview 虽然在某些领域表现出色,但并非全能。这一发现强调了不同 AI 模型在不同任务中的专长,暗示了未来 AI 应用可能需要任务特定的模型选择。结论:这项评估不仅展示了 o1-preview 在处理复杂推理任务时的优越性,也揭示了 AI 模型能力的多样性。它提醒我们,在选择和应用 AI 模型时,需要根据具体任务和场景来选择最合适的工具。同时,这也为未来 AI 模型的开发提供了方向,即如何在保持强大推理能力的同时,提升在自然语言处理等领域的表现。06 幻觉没有解决,但思维链很强大在 AI 领域,\"思维链\"(Chain of Thought)是一个重要概念,它代表了 AI 模型在生成答案时的内部推理过程。这个过程就像人类的思考过程一样,包含了从问题到解决方案的一系列逻辑步骤。o1 运用\"思维链\"(chain of thought)方法来处理复杂任务。这种方法不仅模仿了人类的思考模式,还通过先进的强化学习技术不断优化和提升。o1 的学习过程体现了多个关键特点:思维链优化:通过强化学习,o1 不断完善其思维链,提升解决问题的策略。错误识别与纠正:o1 具备自我检查的能力,能够识别并纠正在推理过程中出现的错误。问题分解能力:面对复杂问题时,o1 学会了将其分解为更简单、更易处理的子问题。灵活的方法转换:当发现当前方法无效时,o1 能够灵活地转换思路,尝试新的解决方案。这种多层次、自适应的学习过程极大地提升了 o1 的推理能力,使其在处理复杂问题时展现出近乎人类的灵活性和创造性。诸如「我对……感到好奇」、「我正在思考」和「好的,让我看看」这样的短语,呈现一种思考的感觉。思维链的潜在价值:模型监控:通过分析思维链,我们可以深入了解 AI 的\"思考方式\"。安全保障:未来可能利用思维链检测 AI 是否试图操纵用户。透明度:为 AI 决策提供解释性,增加其可信度。尽管思维链具有上述潜在价值,我们还是决定不向用户直接展示原始思维链。这个决定基于以下考虑:用户体验:原始思维链可能复杂难懂,影响用户体验。竞争优势:保护核心技术细节。监控灵活性:保留未来进行思维链监控的选项。安全考虑:防止未经过滤的、可能存在问题的思维过程直接暴露给用户。为了在隐藏思维链和提供有价值信息之间取得平衡,我们采取了以下措施:智能提取:训练模型从思维链中提取有用信息并融入最终回答。摘要生成:对于 o1 模型系列,我们提供由模型生成的思维链摘要,既保留了关键信息,又避免了原始数据的直接暴露。07 o1 最适合哪些领域这一代模型凭借其卓越的推理能力,将为多个领域的专业人士带来显著助益,尤其是那些在科学研究、软件开发、数学计算等领域面临复杂挑战的人。让我们来看几个具体的应用场景:医疗研究领域:生物信息学家可以利用 o1 来协助细胞测序数据的注释工作,大大提高基因组研究的效率。物理学研究:在量子光学这样的前沿领域,物理学家可以借助 o1 生成复杂的数学公式,加速理论研究和实验设计。软件开发:不论是哪个行业的开发者,都可以利用 o1 来构建和执行多步骤的工作流程,简化复杂的编程任务。总的来说,o1 模型为那些需要处理高度复杂问题、进行深度分析或创新研究的专业人士提供了强大的智能辅助工具。","news_type":1},"isVote":1,"tweetType":1,"viewCount":467,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":650994410,"gmtCreate":1678804339630,"gmtModify":1678806084472,"author":{"id":"3569922558089083","authorId":"3569922558089083","name":"千羽卡罗拉","avatar":"https://static.tigerbbs.com/5371c90bc051ff1750bdb82113ec3b5a","crmLevel":3,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3569922558089083","authorIdStr":"3569922558089083"},"themes":[],"htmlText":"说说你对这篇新闻的看法...","listText":"说说你对这篇新闻的看法...","text":"说说你对这篇新闻的看法...","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/650994410","repostId":"1156607844","repostType":2,"repost":{"id":"1156607844","kind":"news","pubTimestamp":1678802744,"share":"https://www.laohu8.com/m/news/1156607844?lang=&edition=full","pubTime":"2023-03-14 22:05","market":"us","language":"zh","title":"斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!","url":"https://stock-news.laohu8.com/highlight/detail?id=1156607844","media":"量子位","summary":"手机都能运行的那种。","content":"<html><head></head><body><p>作者:梦晨、金磊</p><p>一夜之间,大模型界又炸出个big news!</p><p>斯坦福发布<b>Alpaca</b>(羊驼,网友口中的“草泥马”):</p><blockquote>只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型,效果竟可比肩1750亿参数的GPT-3.5(text-davinci-003)。</blockquote><blockquote>而且还是单卡就能运行的那种,甚至树莓派、手机都能hold住!</blockquote><p><img src=\"https://static.tigerbbs.com/f436a314f5b3ceb7201c8f95756247b0\" tg-width=\"1080\" tg-height=\"363\" referrerpolicy=\"no-referrer\"/></p><p>还有一个更绝的“骚操作”。</p><p>研究所涉及到的数据集,是斯坦福团队花了不到500美元用OpenAI的API来生成的。</p><p>所以整个过程下来,就等同于GPT-3.5自己教出了个旗鼓相当的对手AI。</p><p>然后团队还说,用大多数云计算平台去微调训练好的模型,成本也不到100美元:</p><blockquote>复制一个GPT-3.5效果的AI,很便宜,很容易,还很小。</blockquote><p>而且团队还把数据集(秒省500刀)、代码统统都给开源了,这下子人人都能去微调个效果炸裂的对话AI:</p><p><img src=\"https://static.tigerbbs.com/68958b593daf256edd6979a114b9defc\" tg-width=\"1080\" tg-height=\"588\" referrerpolicy=\"no-referrer\"/></p><p>项目在GitHub发布才半天时间,便已经狂揽1800+星,火爆程度可见一斑。</p><p>Django联合开发者甚至对斯坦福的新研究用“惊天大事”来形容:</p><p><img src=\"https://static.tigerbbs.com/69cba1a83aaa22e8f8d2280f40b1cad1\" tg-width=\"1080\" tg-height=\"540\" referrerpolicy=\"no-referrer\"/></p><p>不仅如此,斯坦福团队还搞了个demo,在线可玩的那种。</p><p>话不多说,我们现在就来看看这个“草泥马”的效果。</p><p>比肩davinci-003的草泥马Aplaca</p><blockquote>什么是羊驼?它和美洲驼的区别是什么?</blockquote><p><img src=\"https://static.tigerbbs.com/6eaf97f58b36b62d1b6283548e6d289e\" tg-width=\"1080\" tg-height=\"756\" referrerpolicy=\"no-referrer\"/></p><p>草泥马Aplaca给出的答案较为干练:</p><blockquote>羊驼是一种小型骆驼科动物,原产于秘鲁、玻利维亚、厄瓜多尔和智利;它比美洲驼小,羊毛更细,也没有驼峰。</blockquote><p>而后又简单的介绍了二者群居生活的不同。</p><p>同样的问题若是交给ChatGPT(GPT3.5-turbo),则答案就不会像草泥马Aplaca那般简洁:</p><p><img src=\"https://static.tigerbbs.com/31f0675afb185848d0faa38ecc9f539a\" tg-width=\"1080\" tg-height=\"1034\" referrerpolicy=\"no-referrer\"/></p><p>对此,团队给出的解释是:</p><blockquote>Alpaca的答案通常比ChatGPT短,反映出text-davinci-003的输出较短。</blockquote><p>而后团队演示了让草泥马Alpaca<b>写邮件</b>:</p><blockquote>写一封e-mail祝贺被斯坦福大学录取的新生,并提到你很高兴能亲自见到他们。</blockquote><p>草泥马Alpaca对于这个任务也是信手拈来,直接给出了一个像模像样的邮件模板:</p><p><img src=\"https://static.tigerbbs.com/93c1be735703f0dfbe47245a345918fa\" tg-width=\"1080\" tg-height=\"564\" referrerpolicy=\"no-referrer\"/></p><p>难度再次进阶,团队这次提出了让草泥马Alpaca<b>写论文摘要</b>的需求:</p><blockquote>写一篇经过深思熟虑的机器学习论文摘要,证明42是训练神经网络的最优seed。</blockquote><p>草泥马Alpaca给出的答案从内容上来看,非常符合大多数论文的摘要形式:试图回答什么问题、用了什么方法、结果如何,以及未来展望。</p><p><img src=\"https://static.tigerbbs.com/43d1a4dabcc846a059a0b6656ebf5200\" tg-width=\"1080\" tg-height=\"426\" referrerpolicy=\"no-referrer\"/></p><p>当然,也有迫不及待的网友亲自下场试验,发现草泥马Alpaca写代码也是不在话下。</p><p><img src=\"https://static.tigerbbs.com/c773549771f136267a717558517bbe21\" tg-width=\"1080\" tg-height=\"516\" referrerpolicy=\"no-referrer\"/></p><p>不过即便草泥马Alpaca能够hold住大部分问题,但这并不意味着它没有缺陷。</p><p>例如团队便演示了一个例子,在回答“坦桑尼亚的首都是哪里”的问题时,草泥马Alpaca给出的答案是“达累斯萨拉姆”。</p><p>但实际上早在1975年便被“多多马”取代了。</p><p><img src=\"https://static.tigerbbs.com/315b5344257dbf54d150f720b6a6ea3b\" tg-width=\"1080\" tg-height=\"443\" referrerpolicy=\"no-referrer\"/></p><p>除此之外,若是亲自体验过草泥马Alpaca就会发现,它……巨慢:</p><p><img src=\"https://static.tigerbbs.com/54e16edb14278c847287442588319f48\" tg-width=\"1080\" tg-height=\"627\" referrerpolicy=\"no-referrer\"/></p><p>对此,有网友认为可能是使用的人太多的原因。</p><p><img src=\"https://static.tigerbbs.com/9c6b811a1761b5c0eec453557ae21e23\" tg-width=\"1080\" tg-height=\"903\" referrerpolicy=\"no-referrer\"/></p><p>笔记本、手机、树莓派都能跑</p><p>Meta开源的LLaMA大模型,刚发布几周就被大家安排明白了,单卡就能运行。</p><p>所以理论上,基于LLaMA微调的Alpaca同样可以轻松在本地部署。</p><p>没有显卡也没关系,苹果笔记本甚至树莓派、手机都可以玩。</p><p>在苹果笔记本部署LLaMA的方法来自GitHub项目llama.cpp,使用纯C/C++做推理,还专门对ARM芯片做了优化。</p><p><img src=\"https://static.tigerbbs.com/15a0a8eff4f925711ccaa34054e317f5\" tg-width=\"1080\" tg-height=\"237\" referrerpolicy=\"no-referrer\"/></p><p>作者实测,M1芯片的MacBook Pro上即可运行,另外也支持Windows和Linux系统。</p><p><img src=\"https://static.tigerbbs.com/aa5c899aa934423051d6f233d26706b9\" tg-width=\"1080\" tg-height=\"567\" referrerpolicy=\"no-referrer\"/></p><p>还是这个C++移植版本,有人成功在4GB内存的树莓派4上成功运行了LLaMA的 70亿参数版本。</p><p>虽然速度非常慢,大约10秒生成一个token(也就是一分钟蹦出4.5个单词)。</p><p><img src=\"https://static.tigerbbs.com/b47ea66f1f8734a0717f6f9491b20518\" tg-width=\"1080\" tg-height=\"1100\" referrerpolicy=\"no-referrer\"/></p><p>更离谱的是仅仅2天之后,有人把LLaMA模型量化压缩(权重转换成更低精度的数据格式)后成功在Pixel 6安卓手机上运行(26秒一个token)。</p><p>Pixel 6使用谷歌自研处理器Google Tensor,跑分成绩在骁龙865+到888之间,也就是说新一点的手机理论上都能胜任。</p><p><img src=\"https://static.tigerbbs.com/2e575343b6745ea07266f1cb0b3b1872\" tg-width=\"1080\" tg-height=\"1765\" referrerpolicy=\"no-referrer\"/></p><p>微调数据集也开源</p><p>斯坦福团队微调LLaMA的方法,来自华盛顿大学Yizhong Wang等去年底提出的Self-Instruct。</p><p><img src=\"https://static.tigerbbs.com/d1b66490bbf86bc32859f7dcc788193a\" tg-width=\"1080\" tg-height=\"369\" referrerpolicy=\"no-referrer\"/></p><p>以175个问题作为种子任务,让AI自己从中组合出新的问题以及生成配套答案实例,人工过滤掉低质量的,再把新任务添加到任务池里。</p><p>所有这些任务,之后可以采用InstructGPT的方法让AI学会如何遵循人类指令。</p><p>套娃几圈下来,相当于让AI自己指导自己。</p><p><img src=\"https://static.tigerbbs.com/fa8c6fc01dbe785d7e936a33bb13fe7d\" tg-width=\"1080\" tg-height=\"688\" referrerpolicy=\"no-referrer\"/></p><p>斯坦福版Alpaca,就是花了不到500美元使用OpenAI API生成了5.2万个这样的示例搞出来的。</p><p>这些数据同样开源了出来,并且比原论文的数据多样性更高。</p><p><img src=\"https://static.tigerbbs.com/6adcd012d48b595e5632d1b1b6b6ff2e\" tg-width=\"1080\" tg-height=\"1140\" referrerpolicy=\"no-referrer\"/></p><p>同时还给出了生成这些数据的代码,也就是说如果有人还嫌不够,可以再去自行扩充微调数据,继续提高模型的表现。</p><p><img src=\"https://static.tigerbbs.com/8534ff84d3264aca9627f782f40f3270\" tg-width=\"1080\" tg-height=\"245\" referrerpolicy=\"no-referrer\"/></p><p>微调代码也会在HuggingFace官方支持LLaMA后放出。</p><p><img src=\"https://static.tigerbbs.com/e654debf4633adb0a51a87a030599f34\" tg-width=\"1080\" tg-height=\"516\" referrerpolicy=\"no-referrer\"/></p><p>不过Alpaca最终的模型权重需要Meta许可才能发布,并且继承了LLaMA的非商用开源协议,禁止任何商业用途。</p><p>并且由于微调数据使用了OpenAI的API,根据使用条款也禁止用来开发与OpenAI形成竞争的模型。</p><p>One More Thing</p><p>还记得AI绘画的发展历程吗?</p><p>2022年上半年还只是话题热度高,8月份Stable Diffusion的开源让成本下降到可用,并由此产生爆炸式的工具创新,让AI绘画真正进入各类工作流程。</p><p>语言模型的成本,如今也下降到了个人电子设备可用的程度。</p><p>最后还是由Django框架创始人Simon Willison喊出:</p><blockquote>大语言模型的Stable Diffusion时刻到了。</blockquote><p><img src=\"https://static.tigerbbs.com/3548d5c1ed5453747b3894302f830b70\" tg-width=\"1080\" tg-height=\"1026\" referrerpolicy=\"no-referrer\"/></p></body></html>","source":"lsy1569318700471","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!\n</h2>\n\n<h4 class=\"meta\">\n\n\n2023-03-14 22:05 北京时间 <a href=https://mp.weixin.qq.com/s/8SP6sKQ21YxeFQe3rwOh8A><strong>量子位</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>作者:梦晨、金磊一夜之间,大模型界又炸出个big news!斯坦福发布Alpaca(羊驼,网友口中的“草泥马”):只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型,效果竟可比肩1750亿参数的GPT-3.5(text-davinci-003)。而且还是单卡就能运行的那种,甚至树莓派、手机都能hold住!还有一个更绝的“骚操作”。研究所涉及到的数据集,是斯坦福团队花了不到500美元...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/8SP6sKQ21YxeFQe3rwOh8A\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/1e088ec4276659e187dfdd2bf1451142","relate_stocks":{},"source_url":"https://mp.weixin.qq.com/s/8SP6sKQ21YxeFQe3rwOh8A","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1156607844","content_text":"作者:梦晨、金磊一夜之间,大模型界又炸出个big news!斯坦福发布Alpaca(羊驼,网友口中的“草泥马”):只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型,效果竟可比肩1750亿参数的GPT-3.5(text-davinci-003)。而且还是单卡就能运行的那种,甚至树莓派、手机都能hold住!还有一个更绝的“骚操作”。研究所涉及到的数据集,是斯坦福团队花了不到500美元用OpenAI的API来生成的。所以整个过程下来,就等同于GPT-3.5自己教出了个旗鼓相当的对手AI。然后团队还说,用大多数云计算平台去微调训练好的模型,成本也不到100美元:复制一个GPT-3.5效果的AI,很便宜,很容易,还很小。而且团队还把数据集(秒省500刀)、代码统统都给开源了,这下子人人都能去微调个效果炸裂的对话AI:项目在GitHub发布才半天时间,便已经狂揽1800+星,火爆程度可见一斑。Django联合开发者甚至对斯坦福的新研究用“惊天大事”来形容:不仅如此,斯坦福团队还搞了个demo,在线可玩的那种。话不多说,我们现在就来看看这个“草泥马”的效果。比肩davinci-003的草泥马Aplaca什么是羊驼?它和美洲驼的区别是什么?草泥马Aplaca给出的答案较为干练:羊驼是一种小型骆驼科动物,原产于秘鲁、玻利维亚、厄瓜多尔和智利;它比美洲驼小,羊毛更细,也没有驼峰。而后又简单的介绍了二者群居生活的不同。同样的问题若是交给ChatGPT(GPT3.5-turbo),则答案就不会像草泥马Aplaca那般简洁:对此,团队给出的解释是:Alpaca的答案通常比ChatGPT短,反映出text-davinci-003的输出较短。而后团队演示了让草泥马Alpaca写邮件:写一封e-mail祝贺被斯坦福大学录取的新生,并提到你很高兴能亲自见到他们。草泥马Alpaca对于这个任务也是信手拈来,直接给出了一个像模像样的邮件模板:难度再次进阶,团队这次提出了让草泥马Alpaca写论文摘要的需求:写一篇经过深思熟虑的机器学习论文摘要,证明42是训练神经网络的最优seed。草泥马Alpaca给出的答案从内容上来看,非常符合大多数论文的摘要形式:试图回答什么问题、用了什么方法、结果如何,以及未来展望。当然,也有迫不及待的网友亲自下场试验,发现草泥马Alpaca写代码也是不在话下。不过即便草泥马Alpaca能够hold住大部分问题,但这并不意味着它没有缺陷。例如团队便演示了一个例子,在回答“坦桑尼亚的首都是哪里”的问题时,草泥马Alpaca给出的答案是“达累斯萨拉姆”。但实际上早在1975年便被“多多马”取代了。除此之外,若是亲自体验过草泥马Alpaca就会发现,它……巨慢:对此,有网友认为可能是使用的人太多的原因。笔记本、手机、树莓派都能跑Meta开源的LLaMA大模型,刚发布几周就被大家安排明白了,单卡就能运行。所以理论上,基于LLaMA微调的Alpaca同样可以轻松在本地部署。没有显卡也没关系,苹果笔记本甚至树莓派、手机都可以玩。在苹果笔记本部署LLaMA的方法来自GitHub项目llama.cpp,使用纯C/C++做推理,还专门对ARM芯片做了优化。作者实测,M1芯片的MacBook Pro上即可运行,另外也支持Windows和Linux系统。还是这个C++移植版本,有人成功在4GB内存的树莓派4上成功运行了LLaMA的 70亿参数版本。虽然速度非常慢,大约10秒生成一个token(也就是一分钟蹦出4.5个单词)。更离谱的是仅仅2天之后,有人把LLaMA模型量化压缩(权重转换成更低精度的数据格式)后成功在Pixel 6安卓手机上运行(26秒一个token)。Pixel 6使用谷歌自研处理器Google Tensor,跑分成绩在骁龙865+到888之间,也就是说新一点的手机理论上都能胜任。微调数据集也开源斯坦福团队微调LLaMA的方法,来自华盛顿大学Yizhong Wang等去年底提出的Self-Instruct。以175个问题作为种子任务,让AI自己从中组合出新的问题以及生成配套答案实例,人工过滤掉低质量的,再把新任务添加到任务池里。所有这些任务,之后可以采用InstructGPT的方法让AI学会如何遵循人类指令。套娃几圈下来,相当于让AI自己指导自己。斯坦福版Alpaca,就是花了不到500美元使用OpenAI API生成了5.2万个这样的示例搞出来的。这些数据同样开源了出来,并且比原论文的数据多样性更高。同时还给出了生成这些数据的代码,也就是说如果有人还嫌不够,可以再去自行扩充微调数据,继续提高模型的表现。微调代码也会在HuggingFace官方支持LLaMA后放出。不过Alpaca最终的模型权重需要Meta许可才能发布,并且继承了LLaMA的非商用开源协议,禁止任何商业用途。并且由于微调数据使用了OpenAI的API,根据使用条款也禁止用来开发与OpenAI形成竞争的模型。One More Thing还记得AI绘画的发展历程吗?2022年上半年还只是话题热度高,8月份Stable Diffusion的开源让成本下降到可用,并由此产生爆炸式的工具创新,让AI绘画真正进入各类工作流程。语言模型的成本,如今也下降到了个人电子设备可用的程度。最后还是由Django框架创始人Simon Willison喊出:大语言模型的Stable Diffusion时刻到了。","news_type":1},"isVote":1,"tweetType":1,"viewCount":1028,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0}],"lives":[]}