当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
美国下场轰炸伊朗,这次我国为什么要这么直白的谴责美国?
明星现实中真的很漂亮吗?
中办、国办发文,拟新建改扩建 1000 所以上优质普高,将带来哪些影响?可能面临哪些挑战?
我听说Windows12微软就直接重头构建Windows了,就直接重构Win内核了,到底是不是真的?
为什么没有厂商做一款高配置的OpenWRT路由器?
***拍大尺度片子时摄影师不会看光吗?
快乐教育毁了多少孩子了?
俄罗斯妹子***漂亮热情,中国男人是不是很喜欢娶?
obsidian用一两年后会有多大?全文搜索还快吗?
有没有宝塔平替的服务器管理面板,现在宝塔越来越贵了,也太臃肿了?
你们的腰突是怎么突然好的?
WebSocket 是什么原理?为什么可以实现持久连接?
据调查使用五笔输入法人数仅剩 3%,五笔输入法是怎么没落的?
为什么有些NAS用户弄那么多硬盘?
长得和刘亦菲很像是一种什么体验?
亲眼见到明星本人是什么体验?
女生什么状态才体现出她已经爱上你了?
Go 语言的使用感受是什么?
小米澎湃OS和华为鸿蒙OS,他们有什么不一样,谁更有发展前途?
老板说我设计了一周的海报还是不行,我到底该怎么学啊?
能不能发一张你相册里最好看的自拍照?
为什么光纤目前取代不了网线?
NPU 可不可以代替 GPU?
为什么说J***a21的虚拟线程不再有阻塞的问题?
买显示器是2K miniled好还是直接4Kips的屏幕好?
vue + tsx 的开发体验能追得上 react+tsx么?
count(*) count(1)哪个更快?
为什么都认为无GC语言一定会比有GC语言要快?
苹果部分表情在安卓机型上显示有区别,为什么会这样?从技术层面统一不同机型 emoji 表情好实现吗?
为何 Linus 一个人就能写出这么强的系统,中国却做不出来?