两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
如何看待国内开源项目的不可持续性?
空战的时候可不可以先击落预警机?
太空中没有氧气,为什么太阳还在燃烧?
35的程序员被辞了可以自己接外包啊?为什么都那么悲观呢?
有一个女儿是种怎样的体验?
你怎么看待剪映收费过高问题?
13/14代 i7 i9 处理器大规模缩肛为什么没有在老化测试时发现?
蜂王的生活幸福吗?
哪张照片让你觉得刘亦菲美得不可方物?
PHP现在真的已经过时了吗?
有没有免费的云服务器?
Rust开发Web后端效率如何?
Flutter 为什么没有一款好用的UI框架?
财务学vba还是sql?
福建莆田出现90.8万彩礼骗婚案例,会进一步降低结婚率吗?
AI 生成时代,现有编程语言还够用吗?
有没有宝塔平替的服务器管理面板,现在宝塔越来越贵了,也太臃肿了?
小学生学编程,学c++好还是python好?学编程可以参加强基***吗?
你的电脑上有哪些你认为不可或缺的神仙软件?
《酱园弄·悬案》豆瓣开分 5.9,知乎推荐度 32%,创陈可辛导演生涯历史最低分,这合理吗?
俄罗斯妹子***漂亮热情,中国男人是不是很喜欢娶?
如果郭嘉把大家的房贷都免掉了,会刺激消费吗?
为什么 php 可以做到 7 毫秒以内响应,而 .net 做不到?
为什么微信不向telegram学习?
阿里面试:为什么MySQL不建议使用delete删除数据?
理论上flutter性能应该非常高才对,为什么好些flutter应用性能一般?
谁能劝我不要买NAS?
为什么年轻的肉体让人沉迷?
如何看待多地开展查摆年轻干部玩心重、贪图享乐、说话随意、社会交往复杂、生活不检点等问题的行动?