资讯

本周五提交的一项工作中,来自 DeepSeek、清华大学的研究人员探索了奖励模型(RM)的不同方法,发现逐点生成奖励模型(GRM)可以统一纯语言表示中单个、成对和多个响应的评分,从而克服了挑战。研究者探索了某些原则可以指导 GRM 在适当标准内生成奖励,从而提高奖励的质量,这启发我们,RM 的推理时间可扩展性可以通过扩展高质量原则和准确批评的生成来实现。
不过在开发者Xeophon的个人Benchmark上所有指标都有大提升,成为该测试下最好的非推理模型。 不是推理模型也有“啊哈时刻” DeepSeek-V3-0324并非推理 ...
xAI发布的Grok-3满血版在数学推理、代码生成等领域的多项Benchmark测试中超越DeepSeek-V3、GPT-4o等主流模型。其突破离不开20万个H100GPU集群的算力支持 ...
机器之心报道机器之心编辑部一种全新的学习方法。这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。当前,强化学习(RL)已广泛应用于大语言模型(LLM)的后期训练。最近 RL ...
DeepSeek-V3发布685B参数,代码比肩Claude 3.7,开源实测强劲。 685B的DeepSeek-V3新版本,就在昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升 ...
用好它,1人顶10人。 2025年,AI行业似乎被按下了快进键,这一切都开始于中国的首款AI推理模型Deepseek宣布开源。 首先,是国内的各种媒介(无论是 ...
导语:基础模型在兼顾幻觉与推理能效上仍有很长的路要走。 近日,智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了 4 组对照实验:提供相同的 ...
DeepSeek以迅雷之势席卷全球,并以实战为突破点,推动AI 技术在实际应用中的深刻变革。我们站在这个新起点上,远眺 AI 技术落地最汹涌的浪潮。各行各业正积极探索如何利用DeepSeek等前沿AI技术实现业务创新。在众多AI技术和应用中,找到那些真正具有颠覆性和 ...
多家媒体引述《经济时报》及《南华早报》报道称,中国人民解放军(PLA)已将DeepSeek的开源大语言模型(LLMs)应用于解放军医院、人民武装警察 ...
昨晚,DeepSeek 毫无预告的情况下,在 Hugging Face上放出了最新的 DeepSeek-V3-0324 模型。 先来看重点:DeepSeek-V3-0324 模型参数达 685B,目前在官方网站、APP ...
从两支球队目前的积分和小组排名看,这将是一场争夺出线权的关键卡位战,DeepSeek预测沙特2-1中国,若国足稳固防守并高效利用定位球,结合沙特 ...