爆token刷高分不如Gemini 3GPT-52被曝作弊!偷袭谷歌竟靠拉


他们的CEO Dario Amodei甚至公开「唱反调」□◆,警告到2030年AI可能取代一半的入门级白领◆•…□★•。
在面对「AI是否会抢走你的饭碗」这类致命问题时○…=◆●•,OpenAI的策略已悄然转变•▲▼:闭上嘴☆◆▷,专心卖货□-。

相比之下▪■○,谷歌Gemini 3▪▽=.0 Pro以6☆▷▲.7万token取得相似成绩▷○…,效率高出整整一倍-◁。

不同模型在不同编程任务上各有所长◆-■★•▷,但没有一个模型能在所有任务上全面领先△▪。显然▼--△▷,真实世界的问题远比单一分数复杂★▷。

回望2023年○▼▲◁,OpenAI发布的重磅论文《GPTs Are GPTs》◁-☆-,直白地剖析了哪些行业最容易被AI颠覆•◁•☆•,并在第二年登上了Science▼☆▼◁…★。

那些探讨AI如何替代入门级白领(如客服△★☆•、行政)的课题•★☆▲□◇,要么被要求「软化措辞」•▽★◇=,要么直接被束之高阁□=●-▪。
澳洲这9种热品△•-△◇, 别乱吃了▼□◆▲■△! 专家联合警告△▷-: 加速大脑衰老…◁◇, 有脑出血风险-★-☆○•! 一不小心养生变杀生
超级对齐团队的William Saunders因不满公司「只顾推新产品△■△■○-、无视用户风险」而愤然出走△▷△。
网友本以为GPT-5•▽□◆△◇.2会比5◆•▪★▪.1好得多●▷★▽◁-,但实际用起来并非如此-★•●●,它并不能理解他写的函数代码◇◇▪••□。
当然--◇,这未必全是出于诚实——很多人解读▪=…•□,这不过是Anthropic为了换取监管红利而刻意贩卖的「焦虑」•△□●。
翻译一下就是■•:别再发论文论证AI会导致失业了▪○○=,这不利于带货▲■◆--;多想想怎么夸我们的产品能提效吧□★•=。
【新智元导读】GPT-5◆★▼◆.2打赢Gemini 3☆◆●▽▪.0 Pro△□◆,竟是靠高推理与海量Token「作弊」○●△★▼■?网友的这个发现=◁-★▷•,在AI社区一石激起千层浪•▷●。更多网友七嘴八舌表示▪★:GPT-5●•▲◇■.2▲○○▲,并没有那么好用○▼◁-!
毕竟□△◁▪▲,当一家机构既是「研究AI的人」-…▪□▽,又是「靠AI卖故事的人」▼◁★◇,它还能诚实地面对那些刺耳的真相吗◆▽?
如今的OpenAI早已不是当年的非营利实验室■◆,它正冲刺1万亿美元的惊人估值☆▷,并筹备着史上最大规模的IPO-△。

《OW》飞天猫惨遭削弱▼△○!国服专属《永劫》联动上线D神作☆•◇◁!《机械迷城》团队新作Demo登Steam


有人表示▼▼-▷▽…,如果用户得到的「推理力度」参数是一样的▲▲▽,也用的是同样的token○◁,那OpenAI就不算虚假营销•-。
其实☆-▪▽△★,Ilya在之前的采访中就已经说过…☆◆□,现在的大模型基本都是为了榜单定向优化的△•=▲•◁,榜单结果的水分都大得很◁■■○○。
昨天的AI圈-◁=◇▲,都被GPT-5••▲-.2吊打Gemini 3◁□•▲◇▪.0 Pro的结论所震撼▽★□,而前者在ARC AGI 2的精彩表现▷▪▪,则尤为出圈○◇,被AI社区大加赞赏…▼■☆○。
体坛瞎白线岁女孩与姐姐吵架后离家失联●•■▲△,父亲将悬赏金额加码至100万◁■●:在河堤附近找到疑似失联女孩拖鞋■◇,但周围10公里未发现任何线
既然是我们把AI推向了世界▷▲○,我们就得负责构建解决方案○☆-△,而不是光盯着问题看▽▪▪。

一位用户通过精细计算发现了「华点」◇☆…•▲:OpenAI在最新发布的基准测试中☆◁•○◆=,可能通过调整模型「推理力度」参数▼◁▼○▽,让GPT-5•■○▷.2在关键评测中使用了远超对手的算力资源▼-◇▷●★。
这就像两个棋手对弈•▪,一方被允许思考一个小时☆◇,另一方却只有十分钟◆◇-•▷,然后宣布前者获胜-▽◇◆•□。
11岁男童高速服务区被撞身亡 福建事发地交警部门回应■▲▽▷:肇事司机已被控制

面对Cunningham的离职▽▷,OpenAI高层上演了一出教科书般的危机公关◁★=▪-□。
前安全研究员Steven Adler更是公开炮轰ChatGPT可能诱发用户的「精神危机和妄想」◇★。
矛盾的爆发点●■□▽△▼,是报告作者之一◇○…☆▲、OpenAI经济研究骨干Tom Cunningham的离职•▷△▼•。
东契奇22+9+15湖人不敌魔术 詹姆斯21+6失绝杀班凯罗36+10
业内人士都知道▽☆==●,如今AI基准测试的「军备竞赛」早已超出单纯的技术竞争■■3GPT-52被曝作弊!偷袭谷歌竟靠拉。各家厂商都在竞相推出自己的评测标准-▷○△▼=,而这些标准往往有意无意地偏向自家模型••◇爆token刷高分不如Gemini。
对此…★,一位前员工吐槽道★◆:「这简直是为『AI创造价值』这一命题量身定做的软广●=◆☆●•,充满了粉饰太平的味道◇▪◁●○。」

如今掌管其经济研究团队的◆-■=,是前克林顿顾问△◇•=▽★、有着「灾难大师」之称的顶级危机公关专家——Chris Lehane◆☆-▽□。
前政策研究主管Miles Brundage离职时直言◇-●○▷△,公司「太高调●★△○●、限制太多」■■,让他「无法发表真正重要的观点」▽△▲○★△。


唯一例外的是GDPVal——一个由OpenAI自己创建的测试集△•△▷•。既当裁判又当运动员▽▪,结果的客观性就有待考量了=◆=■。
如果GPT-5●□☆●•▪.2仅仅是通过消耗更多算力获得了性能提升○■◇…,那真的能智能进步吗…○?还是仅仅是「暴力计算」的胜利呢◇•=?
根据Wired的最新调查◆◇☆,OpenAI内部正在经历一场关于「真话权」的剧烈地震◆▪。
正试图说服全世界拥抱AI◁○•□,你绝不希望自家的研究员跳出来说…◇:「嘿▪△□◇,这波AI可能会让30%的白领失业△▪○◇。」如果你正准备上市△△,根据数据◆▷▽,


被谷歌打得匆匆忙忙○…•□、连滚带爬的OpenAI变成今天这个样子○▷■,显然不是一朝一夕的事•☆■▼•◁。

早在GPT-5•◆◇△.1发布时☆△,所有基准测试中用的都是高推理力度(high)◆▼▪□◁▽,然而plus用户却只能使用中等的版本○★。
另一些网友反馈说○■▷•☆,GPT-5=□….2似乎把成年人当学龄前儿童对待…●,感觉不像是升级…▽●◆■,反而是倒退△--。
总之▼◆-◁▲,GPT-5▽▪◁●.2的实际体验跟基准测试似乎相差很多▷▽▲=,保不齐又是一个在红色警报状态下仓促拿出的产品◇△△。
在新任首席经济学家Aaron Chatterji的带领下-★•△,OpenAI发布了一份名为《全球用户如何使用ChatGPT》的报告…◁••■□。
在这个精心修订的新版本里•◇○▷,AI绝不可能是引发社会动荡的「怪物」●▪□▷◆,它只会是帮你「每天省下40分钟」的乖巧助手▪▷•。

而现在的5◇=▲▷◆.2版本中▷▲●▽,OpenAI增加了更高的「xhigh」推理力度●▪,所以基准测试中显示的性能▽••,要远远超过ChatGPT付费用户的实际体验★•••▽●。
他们觉得=…,即使增加Gemini 3的token数量■▲-,它也未必就能赶超GPT-5▽▷••.2…◁●■-,这一点来说=▼,前者的确落后了★●•★。
38岁中国商人在土耳其被绑架杀害◇◇△=,10名嫌疑人落网…▼•,警方披露细节▽△☆▼…:其在机场开始被跟踪•○○★□=,遭同行女子引诱掳上车
限时权益后售20◇□◆-.59万起 奥迪E5 Sportback给出3万购车优惠




