Deepseek Benchmark - 搜索 News

资讯

15 天

本周五提交的一项工作中，来自 DeepSeek、清华大学的研究人员探索了奖励模型（RM）的不同方法，发现逐点生成奖励模型（GRM）可以统一纯语言表示中单个、成对和多个响应的评分，从而克服了挑战。研究者探索了某些原则可以指导 GRM 在适当标准内生成奖励，从而提高奖励的质量，这启发我们，RM 的推理时间可扩展性可以通过扩展高质量原则和准确批评的生成来实现。

新浪网25 天

DeepSeek V3小版本升级：7米甘蔗怎么过2米门终于想通了

不过在开发者Xeophon的个人Benchmark上所有指标都有大提升，成为该测试下最好的非推理模型。不是推理模型也有“啊哈时刻” DeepSeek-V3-0324并非推理 ...

腾讯网1 个月

计算机行业观察：DeepSeek加速政企数字化转型；Grok-3突破大模型性能上限

xAI发布的Grok-3满血版在数学推理、代码生成等领域的多项Benchmark测试中超越DeepSeek-V3、GPT-4o等主流模型。其突破离不开20万个H100GPU集群的算力支持 ...

腾讯网15 天

DeepSeek公布推理时Scaling新论文，R2要来了吗

机器之心报道机器之心编辑部一种全新的学习方法。这会是 DeepSeek R2 的雏形吗？本周五，DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。当前，强化学习（RL）已广泛应用于大语言模型（LLM）的后期训练。最近 RL ...

36氪25 天

DeepSeek-V3深夜惊爆上新，代码数学飙升剑指GPT-5，一台Mac可跑

DeepSeek-V3发布685B参数，代码比肩Claude 3.7，开源实测强劲。 685B的DeepSeek-V3新版本，就在昨夜悄悄上线了。参数量685B的V3，代码数学推理再次显著提升 ...

36氪26 天

用好Deepseek，看这一篇就够了

用好它，1人顶10人。 2025年，AI行业似乎被按下了快进键，这一切都开始于中国的首款AI推理模型Deepseek宣布开源。首先，是国内的各种媒介（无论是 ...

雷锋网22 天

三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，Gemini 用词最少

导语：基础模型在兼顾幻觉与推理能效上仍有很长的路要走。近日，智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了 4 组对照实验：提供相同的 ...

csdn18 天

DeepSeek驱动行业智变提速，腾讯云汇聚大咖共话进阶之路

DeepSeek以迅雷之势席卷全球，并以实战为突破点，推动AI 技术在实际应用中的深刻变革。我们站在这个新起点上，远眺 AI 技术落地最汹涌的浪潮。各行各业正积极探索如何利用DeepSeek等前沿AI技术实现业务创新。在众多AI技术和应用中，找到那些真正具有颠覆性和 ...

dw27 天

DeepSeek大模型进入解放军医院及武警部队，或已涉作战领域

多家媒体引述《经济时报》及《南华早报》报道称，中国人民解放军（PLA）已将DeepSeek的开源大语言模型（LLMs）应用于解放军医院、人民武装警察 ...

爱范儿26 天

早报｜曝 iPhone18 将首发台积电 2nm 芯片/鸿蒙智行「尚界」或将 4 月 ...

昨晚，DeepSeek 毫无预告的情况下，在 Hugging Face上放出了最新的 DeepSeek-V3-0324 模型。先来看重点：DeepSeek-V3-0324 模型参数达 685B，目前在官方网站、APP ...

快科技1 个月

世预赛国足明日迎战沙特央视依然不转播 DeepSeek预测中国队30%概率 ...

从两支球队目前的积分和小组排名看，这将是一场争夺出线权的关键卡位战，DeepSeek预测沙特2-1中国，若国足稳固防守并高效利用定位球，结合沙特 ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果