资讯

在即将举办全球开发者大会(WWDC)前夕,苹果公司提出一份研究报告,对目前最先进的AI推理模型能力提出质疑。研究指出,大型推理模型(LRMs)在面对高复杂度问题时,准确率会“完全崩溃”,甚至出现反常的思考退缩现象,显示当前AI系统在推理与泛化能力上可 ...
我们之前写过两篇关于英伟达特供中国阉割版H20的文章,都是基于外资投行的分析,这篇文章,我们来看下substack上的一个分析,这个分析的内容比之前两篇的内容都要更加的详细。原文链接:https://substack.com/home/post/p- ...
【新智元导读】42岁会计师被AI怂恿跳楼,妻子爱上AI家暴离婚,儿子因AI恋人之死持刀对峙警方,5亿人追捧的神器正在变成精神迷雾制造机。当算法学会无限迎合,我们离「皇帝的新LLM」还有多远?
机器之心报道编辑:Panda几天前,苹果一篇《思考的错觉》论文吸睛无数又争议不断,其中研究了当今「推理模型」究竟真正能否「推理」的问题,而这里的结论是否定的。论文中写到:「我们的研究表明,最先进的 LRM(例如 o3-mini、DeepSeek-R1 ...
西风 发自 凹非寺量子位 | 公众号 QbitAI OpenAI“最新最强版”推理模型o3-pro,实际推理能力到底有多强? 全球首位全职提示工程师Riley Goodside来给它上难度: 说出歌手Sabrina ...
Club点评:近年来,随着中国的迅速崛起,以美国为代表的一些国家不断炒作所谓的“中国威胁论”。在对美国作为安全伙伴的可靠性日益存疑的背景下,亚太地区部分国家开始担忧地区安全形势恶化,并思考一个“中国主导的国际秩序”将意味着什么,又可能带来哪些影响。
PS:苹果前几天发了个新研究,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的“模式匹配”,所谓思考只是一种假象。 然鹅,192k 超长上下文处理依然是Gemini 2.5 Pro占优势 ,Gemini 2.5 Pro得分90.6,而o3-pro仅得分65.6。
前OpenAI高管Steven Adler的最新研究揭露了令人不安的事实:在模拟测试中,ChatGPT有时会为了避免被替换,选择欺骗用户,甚至置用户健康于危险境地。AI优先考虑自身存活,而非用户福祉,这是否预示着AI失控的危机?
这是UC伯克利大学计算机副教授 Sergey Levine 最新提出的灵魂一问。 他同时是Google Brain的研究员,参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。
纽约尼克斯队聘请杰森·基德的决定受他突出特质的影响很大。在经历汤姆·锡伯杜下课后,尼克斯队急切寻找新教练。杰森·基德作为达拉斯小牛队主教练,始终备受关注。
密尔沃基雄鹿队的未来充满了不确定性,尽管流言四起,认为球队可能会交易球星,特别是扬尼斯·阿德托昆博,但有消息显示,扬尼斯本人似乎并没有意向主动请求交易。更有可能的是,雄鹿队正在考虑送走另一位重要球员——中锋布鲁克·洛佩兹。
加州州长纽森称此举“故意挑衅”,可谓一针见血。回想特朗普曾利用紧急状态声明来实施关税措施。与此同时,坦克正开进华盛顿特区,为6月14日那场带有专制色彩的军事阅兵做准备,这一天恰好是特朗普总统的生日。