国内外主流大模型投资问题的测试挑战和对AI的思考_老虎社区_美港股上老虎

国内外主流大模型投资问题的测试挑战和对AI的思考

为了能够跟上时代的步伐，最近一直在琢磨着大模型到底能帮自己做点啥，所以便有了我Chrome浏览器这个收藏夹列表

其实别说，在用了这些大模型以后，还真是有蛮多体会的，因为这篇比较长，我先写个简单结论：

1. 在两个硬核需要做到100分正确的AI问题测试（包括我平时使用体会来看），大部分AI模型都表现失望，Google Gemini和讯飞模型是国内外最差的模型

2. 但是我最近最经常使用的AI应用就是讯飞开发的AI耳机文本摘要总结和Google Chrome浏览器一键翻译功能

3. 对于大模型现在的能力我们可能抱有科幻小说的预期，这会对于AI应用短期反而感到悲观，特别在ChatGPT 5再次跳票之后，但实际AI应用已经在我们生活中发生，它们可能是大量只需要在当前AI能力做到60-80分即可的应用，这可能和在硬件上我们只需要最好的完全不同，而在手机端如果提供更多的功能可能会让用户感知提速。

大模型的挑战测试

首先讲一下我测试的模型，海外分别是ChatGPT，Gemini还有Perplexity，这三个是目前海外最火的三个大模型；国内主要是BAT的百度的文心一言，阿里的通义千问和腾讯元宝，其他模型主要是Kimi，讯飞星火和智谱清言。

我测了三个我的日常工作应用，我从难度高到低排序

期权价格计算

有一天想深刻理解下Bloomberg算出来期权理论价格，突然想到试试ChatGPT，结果打开了一扇窗。

这是一个看起来很简单的期权理论价格计算：

一个看跌期权Put spread行权价格分别是40和45，现在对应资产价格是41.2，期权还有30天到期，假设利率是5%，隐含波动率是30%，现在期权理论价格应该是多少？

我一开始就用的ChatGPT，ChatGPT很快就查到了公式，然后写了个Python程序，很快就算出来期权理论价格是3.1234，整个过程不到10秒钟，非常丝滑。我用Bloomberg期权定价功能生成的价格是3.1321，区别是Bloomberg我采用的该期权实时的波动率、还有利率更准确的数据，所以这也说明数据的重要性（这是另一个话题了）

我在想原来大模型可以用来做这个，我当时以为这不就是数学计算吗？应该是大模型的标配能力，我就测试了所有主流模型，发现非常有趣的结果。

首先，最有趣的是Google的gemini，Gemini老人家和ChatGPT是竞争对手，所以排场必须有，也是马上第一步总结inputs，然后找到Black-Scholes公式，然后精彩一顿计算之后，得出了完全错误的结果1.59，要不是因为有Bloomberg检验，我肯定会相信Gemini看起来的“专业水平”，这在我们后面测试会发现，Gemini真的是非常稳定的“一本正经的胡说八道”。

然后是Perplexity，和ChatGPT一样写了个Python程序，然后叫我们自己去运行代码，大哥，我要是编程**怎么办，这地球上不都是码农好吗？无力吐槽

好，现在看国内的，从BAT开始：

首先是文心一言，百度可能和Google一样都是搜索引擎，也是在一顿坑次的计算之后输出一个错误的结果，但和google不一样，百度这个看起来就有点水，不像Gemini那么有迷惑性，大概率我不会相信他的结果，不像Google，算百度赢了吧，囧。

接下来是腾讯元宝，在“正在计算中”这个状态保持了至少两分钟之后，给出答案是“请求失败”，直接崩溃了，看来芯片没买够。

三家里面，阿里通义千问最好，直接告诉你我算不出来，去找Bloomberg，正所谓知之为知之，不知为不知，这点比百度Google好出一条街。

开始我都觉得不想继续测了，但还是试了试，发现有惊喜，接下来是百模大战里面的几家代表性的：

首先是智谱清言，也写了个python程序，算出了同样正确的结果3.1234！而且他还提到了题目里没有提到股息，假设股息为0，相当优秀。话说也没有大厂芯片多，居然能算出来超过大厂，刮目相看。

然后是很火的Kimi，和阿里一样直接告诉你不知道，请找专业编程来算，略失望，讯飞也差不多。

总之，这么一个我觉得对于计算机来说小学生水平的题结果搞成了奥数题，无非就是找到公式，然后编写程序计算，居然只有两家算出来正确答案，ChatGPT又快又准确的确很厉害基本完胜，唯一好奇是智谱清言为啥这么厉害。

2023年中国出口美国钢铁量占美国钢铁表观消费量的比例

第二题，那天想找找资料关于中国出口美国去年的钢产量，马上想到了试试AI，这看起来很简单的题目对吧，应该是考验数据和归纳整理能力，我以为大家都能得出基本正确的结果，结果也是非常意外，答案真是五花八门：

这题分成两个部分，正确答案是2023年中国直接出口到美国钢铁是84.5万吨（中钢协的数据），美国2023年钢铁表观消费量是大约9300万吨（美国钢铁2023年钢铁产量是8,070万吨，进口量是2,815万吨，废钢出口量是1,610万吨，所以消费量是9,275万吨），最终算出来的占比是0.91%。

要说明的是，中国这个数据有一个兰格咨询分析师4月份采访说成是81.5万吨，后来6月份另一个采访又说是84.9万吨，不知道是记错了还是自己的口径（大概率是记错了，因为两次采访说的数据都错了一位数，也是醉），都和中钢协数据不一样，而这两个错误答案还被新闻大量转载，总之我觉得大模型说这两个答案都算情有可原。

我们来看看大模型的答案吧

对于海外三家：

首先还是ChatGPT，我就直接贴结果不贴图了：

China's Steel Exports to the U.S. in 2023:

China's steel exports to the U.S. in 2023 were approximately 531,000 metric tons.

Apparent U.S. Steel Consumption in 2023:

The apparent steel consumption in the U.S. for 2023 is calculated to be 97.8 million metric tons.

Calculation:

Proportion≈0.543%

中国数据错的离谱，美国的数据比较接近，看来ChatGPT不够关心中国

然后是Google Gemini：

To determine the proportion of China's steel exports to the United States relative to the U.S.'s apparent steel consumption in 2023, we need to consider both figures. Here's the breakdown:

China's Steel Exports to the United States in 2023:

81.5 million tonnes

U.S. Apparent Steel Consumption in 2023:

31.7 million tonnes

Calculating the Proportion:

(China's Steel Exports to the United States) / (U.S. Apparent Steel Consumption) * 100%

(81.5 million tonnes) / (31.7 million tonnes) * 100%

Proportion:

2.57%

虽然有情有可原的错误81.5这个数字，但是Gemini同学直接把中国出口美国的81.5万吨变成了81.5 million，然后81.5/31.7=2.57%，这数学和中翻英水平小学都没毕业吧，期权算错就一点都不奇怪。作为海外三家唯一算错美国数据的我也是醉了，为了公平，我又用英文搜了一遍，答案一样，Google怎么可以这么弱，你可是搜索引擎，数学不过关还可以，找数据都这么拉垮，一本正经胡说八道上一点还是一如既往。

然后是Perplexity：

Chinese Steel Exports to the U.S. in 2023:

China exported 845,000 metric tons of steel to the United States in 2023.

Total U.S. Steel Consumption in 2023:

The total U.S. steel consumption in 2023 was approximately 96 million metric tons.

Using these figures, the proportion can be calculated as follows:

Therefore, in 2023, Chinese steel exports accounted for approximately 0.88% of the total U.S. steel consumption.

中国答案完全正确，美国答案也算接近，令人惊讶的强

然后我们看看国内的答案，首先还是BAT：

先是百度的文心一言：

根据已知信息，2023年中国向美国出口的钢材总量为81.5万吨，而同年中国钢铁出口总数高达9500万吨，这部分对美国出口的钢材仅**国总出口量的一小部分。同时，虽然没有直接给出美国2023年的钢铁表观消费量的具体数据，但参考文章中提到，中国向美国出口的这点钢铁大概只占美国全部钢铁总消费量的1%左右。

因此，可以推断，2023年中国出口美国钢铁量占美国钢铁表观消费量的比例也大约是1%。这一比例表明，尽管中国是全球钢铁生产和出口大国，但直接出口到美国的钢铁量在美国的钢铁表观消费量中占比并不大

阿里通义千问：

确定2023年中国出口到美国的钢铁量占美国钢铁表观消费量的具体比例需要美国2023年的钢铁表观消费量数据。尽管我未能直接找到该年的美国钢铁表观消费量的确切数字，但是我们有中国出口到美国的钢铁量数据，即81.5万吨。

表观消费量通常是指国内生产量加上进口量减去出口量，它大致反映了国内市场对钢铁的消费情况。为了计算中国出口量占美国表观消费量的比例，我们需要美国当年的钢铁产量、进口量和出口量数据。然而，这些详细数据在目前的信息中并未提供。

两家都给出了中国的可以原谅的错误答案，美国都不知道，阿里略强一点知道搜一搜啥是表观消费量。

然后是腾讯：

2023年中国出口美国钢铁量

2023年中国向美国出口的钢材总计为84.9万吨

2023年美国钢铁总消费量

2023年美国粗钢产量为8070万吨

2023年中国出口美国钢铁量**国总出口量的比例

2023年中国对美国钢材直接出口量仅**国钢材总出口量的0.9%

腾讯答案全部来自自家公众号的内容，可见很依赖自己生态啊，但可惜美国的产量不等于消费量，如果学学阿里查查啥是表观消费量就好了。

然后各种小模型：

Kimi：

根据搜索结果，2023年中国向美国出口的钢材总计为81.5万吨。然而，搜索结果中并没有直接提供美国2023年钢铁的总消费量数据。

智谱清言：

2023年，中国对美国的钢铁出口量为85万吨，这占到了中国钢材总出口量的0.9%。相对于美国在同一年对钢铁的总消费量而言，这个比例是比较小的。美国的钢铁消费量数据没有直接提供，但可以推测中国出口的这部分钢铁在美国市场上的占比相对较小。

讯飞星火：

2023年中国出口美国的钢铁量占美国钢铁表观消费量的比例为4.7%。

在2023年，尽管中国对美国的钢材出口量有所下降，但其在美国市场的占有率仍有所增加。这一现象既反映了全球钢材市场供需变化的大趋势，也凸显了中美贸易关系的复杂性。未来，随着全球经济状况的变化和国际贸易政策的调整，中国钢材在美市场份额可能还会有所波动。

总之国内模型在国内这条还算不错，除了讯飞都是基本正确，但海外数据都很弱，看来英文抓取能力是很弱的。另外，腾讯公众号很多新闻内容算是弥补了它的搜索能力。这里面，讯飞基本是最差的，啥都没有给了4.7%，然后凑字数给了个分析，有点当年大学考试不会怎么都要写点啥的感觉。

前两题的小总结，略失望

整体看了前两道题大模型给的结果，除了ChatGPT在期权计算上有碾压的优势以外，在一个钢铁常规的基础研究的问题，大部分模型不要说百分百准确，连靠谱都不能做到。

这两个问题我觉得它们的共性就是它们都是一个要求100%正确的问题，期权定价模型有公式，钢铁有一个确定的统计产量和需求量，虽然统计口径不同，产生不同的结果，但是实际上这种问题必须要绝对正确，不然就不如搜索引擎，因为搜索引擎本身提供功能就是提供一个数据源来给人类验证和总结，而AI大模型必须要把这个验证和总结步骤完成并且准确才能替代搜索引擎。

所以大模型不正确的结果造成的后果就是，我大概用了差不多半小时自己去找答案来验证他们的结果，这个类似你找个实习生帮你干活，返工的工作量比你自己做还要大一倍。Gemini这种更是拉垮无以复加，如果就像最近采访说的ChatGPT 4还是个高中生，Gemini估计就还在幼儿园。其实这两道题并不是我故意想出来为难他们的，而是我大量使用过程中基本上大概率出现的结果，这也是为啥不少人对于AI如火如荼的股价狂奔多少有点不屑一样，毕竟很容易就会发出“就这？”，这说明在需要100分的很多问题上，大模型至少在现在ChatGPT 5出来之前大概率是不能用的，而今天也说原本要2024年推出的ChatGPT 5也要到2025底或者2026年才能推出。

所以我发现投资AI的人，都是对于AI应用很悲观，对于AI军备竞赛（硬件投资）很乐观。但是（任何事情重点都是但是以后的东西），我的第三个测试和我最近的AI应用总结让我有了对于AI不同的看法。

文本总结、翻译的测试

我一直觉得听电话会，公司管理层开会记录是很烦的事情，一定要全神贯注，而且还经常记录不下来重点，毕竟也是人，一走神就过去了，直到这一两年有了科大讯飞的耳机和他的文本记录功能，我一下子觉得打开了一片天，效率提高了很多。

在发现讯飞也有文本总结功能之前，我一般会用讯飞耳机听到的内容转成txt文件，然后放到这个大模型里面去看摘要，特别是不算很重要的电话会，大概知道个意思就行的那种更是。还有就是公司的季报，完全可以把PDF下载下来发给大模型来总结。比如下面这个就是讯飞总结的某公司的电话会议纪要：

这里我就不贴各家的测试结果了，我想网上应该也有，我只说说我的结论，我发现，和前面测试完全不同的是，我几乎感受不到各家有特别大的区别，当然不得不承认中文文本总结能力Kimi确实更详细也就更加容易抓住所有要点，但如果你要知道管理层在电话会议里面说了些啥内容，所有模型都能做到，如果看到一些有趣的点，再回去看详细纪要就可以，也完全没必要一定要都把要点都总结出来。

当然有一个聊的很零散的上市公司调研，最重要的利润率提升问题在总结时候大模型都没抓住这个要点，那这种重要的问题你也不可能等到看摘要去看对吧，和要去问钢铁量不同，基本上来说我觉得文本总结哪家的都可以勉强用，并不存在明显的碾压和强弱，毕竟你去看摘要的需求就是一个对于准确度60-80%的需求。比如下面这个是国内kimi对于NVIDIA的2025Q1的季报总结

另外一个很重要AI应用就是网页一键翻译，自从我发现Google Chrome的网站一键翻译之后，我再也不看英文原版的了，谁能看出来下面这个实际是某网站文章的英文版用Chrome翻译成中文的。

这两个是我第一次感受到AI对于我日常生活和工作效率的提高，而上面这两个我日常最常用的AI应用都出自我测评里面大模型表现最差的讯飞和Google，这说明哪怕是Google（哈哈，忍不住想笑）的AI也足够把这样的简单应用做到够用，所以我的问题就是：我们一直都期待AI一下子很智能，比如一下子就可以帮我们制作电影，可以帮我们研发药物等等，但实际AI爆发会不会其实并不是我们想象的场景，而是从一些很简单的功能替代一步步开始的呢？

AI可以先考60分的题目，再做100分的难题

这让我联想无人驾驶的发展，如果我们想到汽车无人驾驶，肯定是下面这个图这样的：汽车里面都没有司机，我输入一个目的地，汽车就自动开过去。但从无人驾驶从研发到现在20-30年过去了，这个功能要彻底实现商业化还是3-5年甚至更长时间之后的事情。

但其实在2010年之后汽车的一些辅助驾驶功能，比如自动泊车，定速巡航、车道保持等等就已经出现了，而这些功能正在慢慢成为汽车中的标配并且很显著提高开车的愉悦程度和效率，而且他们也是实现无人驾驶终极目标的基石。

比如我最近出去玩租了一辆2022款的丰田卡罗拉，被认为汽车科技严重落后的日系车，其实它的车载雷达和其他sensor在自动跟车，车道保持这些功能上做的很好，实现高速上的L2级别辅助驾驶没有任何问题。而现在天朝如火如荼的汽车智能大部分也就是L2到L3级别的辅助驾驶，虽然Google的Waymo仍然在L4级别无人驾驶可以说仍然领先，但一点不妨碍天朝汽车在智能化上可能仅次于Tesla而领先于全球其他车企，这恰巧说明在辅助驾驶上现阶段应用维度60-80分水平就够用。

其实AI逻辑是一样的，虽然很多人说无人驾驶有法规的要求所以需要0事故也就是100分，但大模型如果要替代搜索那不是一样，如果大模型不能让结果保证是100分的准确，那么带来的结果就是使用大模型修改验证的工作量远远大于自己去搜索。我们看到AI时候常常会想，这个AI会不会过1-2年就马上类似AlphaGo一样下出我们都看不懂的棋，在投资上一下子选出我们都惊艳的股票，在医药上马上开发出我们都看不懂的药物等等，但实际真相可能是AI还很初期，也许AI现在具备能力还是个学生。

同理，我们看到视频工具Sora出来之后大家都说AI一夜取代电影行业，但我听了后来的业内的访谈，实际不管是游戏还是视频创作者都反映AI素材要彻底可用还差不少，比如类似我们要说一个内容创意，AI马上生成一部电影这样的终极目标，我相信这还需要很长的时间。但是就类似苹果发布的AI表情，如果只是让AI生成一个和自己类似的表情符号，还有微信读书里面的AI语音，或者在图片处理上去掉不需要的物品和人，替代掉后面的背景，这种60-80分的应用，我相信AI已经准备好了。

啰嗦这么多，简单总结下，我先测试了两个需要AI 100分的应用，我觉得大模型还远远达不到可用的需求。但实际上，AI 60-80分的应用已经在我们生活中开始悄悄改变我们的生活了。我们先不谈商业化的问题，因为只有让大量C端用户感知到AI的存在你才可能让AI成为一个必不可少的功能，而随着AI能力提升，硬件的提升，AI的门槛也会逐渐提升，能做的事情也会越来越多，最终也许就会接近科幻小说的状态。

这可能是苹果手机AI功能为什么让人充满期待的原因，我这两年真正非常欣赏的就是科大讯飞的AI耳机，而他实现其实无非就是音频记录，然后音频提取成文字，再用文字进行摘要总结三个简单的AI能力，它很多功能比如区分对话人等等还经常出错，但已经足够好用。而这三个功能其实大部分的app和应用都可以做到了，讯飞的耳机只是做了一个更专业化的集成而已。

今天我专门看了三星今年1月份发布的AI手机，其实就有这个功能，销售量其实也还不错，他其实就是基于最弱的Google的Gemini模型做的，但三星毕竟不是苹果，影响力加上Gemini的能力那就是弱弱联合，苹果加上OpenAI那就是强强联合。所以至少从我自己的角度如果苹果新手机AI功能能够实现这些讯飞耳机的功能，那我会毫不犹豫的换机，这其实跟Google Chrome有点类似，其实这种60-80分应用，不是要最聪明的模型创造的，而是要用户最容易接触到的玩家提供的。

总结

最后，写一点总结吧（虽然过去几年让我们觉得预测世界或者科技是世界上最不靠谱的事情，但是万一对了呢）：

1. AI大模型的能力距离实现真正实现科幻小说的能力我觉得还很遥远，这其实符合事物发展的规律，虽然AI现在迭代速度很快，但参考无人车的历史，我们总是高估了现在的AI能力。比如我本来想AI是否可以找到牛逼股票，但我发现如果投资还是同样的学习过程的话，AI还是先把主动投资中实习生级别的工作做好了再说吧

2. 但是，AI一些60-80分能力的C端应用，比如语音识别，翻译，文本总结等等，其实可能已经足够改变我们的生活和提升效率，而他们也会随着硬件、端测和云端能力提升而提升，说不定会产生我们意想不到的应用场景出来，就类似讯飞AI耳机功能，据说他们6-7年前就已经研发完成，但是直到云端速度和硬件速度匹配之后才逐渐通过耳机商业化。而讯飞这些功能只是AI功能的一部分，Google Chrome，甚至腾讯读书AI朗读都是很有趣的AI应用，我们不应该低估应用爆发的潜力。

3. 类似智能手机带来应用大爆发一样，AI应用可能也很可能通过手机来出现，商业模式创新让杀手级别的应用可能在我们预期不到地方产生，它也许并不需要很聪明的模型，就类似4G时代最爆款的TikTok一样，它无非是把视频时长变短并加入算法而已。

4. 对于天朝AI，感觉并不用太悲观，在做60-80分的事情和商业模式创新上，其实天朝并不输给任何人，讯飞耳机就是现阶段同类里面最好的AI产品没有之一（当然也许最终还是会被苹果手机取代），类似去年妙鸭相机的爆火，就类似现在天朝汽车能够把智能化卷到标配一样，未来的AI应用推动也许天朝也很强，虽然并不一定有美国人赚钱（哈哈哈，好无奈）

最后，我觉得对于AI前景，我更加乐观了些，AI也许已经慢慢在进入下一个阶段，从B端不得不投入的军备竞赛慢慢到C端我们慢慢开始感受到AI的存在，直到我们发现AI并没有当初想的那么牛逼，但却已经大幅度改变我们的生活。这就跟我们手上的智能手机一样。iPhone 4出来时候，我记得有个视频描述以后生活中的一切都可以做成手机应用，比如手机可以帮你做菜，可以帮你洗衣服，可以当打火机(当然是搞笑)，这其实描述大部分都没有实现，但你的生活还是被手机应用彻底改变了。

社区

国内外主流大模型投资问题的测试挑战和对AI的思考

评论

热议股票