当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
应该如何看待群晖在DSM 7.2.2-72803更新中去掉了Video Station?
evernote 替代品有哪些?
5070ti什么时候才能回归正常价格?
是什么原因导致HDR无法推行?
中国军事力量有希望达到全球第一吗?
Rust 使用 Result 的错误处理方式与 Golang 使用 error 的方式有什么本质区别?
为什么中国很少有人使用linux?
国内目前独立开发者收入如何?可以养活自己以及家人吗?
NAS的盘是否需要一次性买齐?
华为 HDC 发布 HarmonyOS 6 开发者 beta 版对应用开发者和鸿蒙生态有哪些影响?
如何看待打五笔的人?
美国真会下场对伊朗开战吗?
美国搞出个“稳定币”,到底是什么?其它国家是如何看待稳定币的?
有哪些小众的开源项目养活了一大批人?
5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何?
二氧化碳人工合成淀粉技术现在怎么没动静了?
你卡过最厉害的bug是什么?
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
为什么很多车评人都买沃尔沃?
PHP和Node.js哪个更爽?
养了近十年的草龟要不要放生?
有没有免费的云服务器?
如何评价「尖叫」这种饮料?
为什么日本经济下降,大学排名跌至谷底,还有那么多人挤破脑袋去日本留学?
你理想中的完美户型长什么样?
为什么网络上都在说隋坡厉害?
全世界都在等中美开战吗?
作为一个服务器,node.js 是性能最高的吗?
最近看独立开发者,做记账 软件赚到很多钱,我也开发一个,会不会碾压?
吴彦祖疯狂接代言被猜缺钱,卖完英语课又代言黄酒,他是真的缺钱还是有其他考量?