资讯

最近几天 Google 发布了最新的 Gemma 3 系列开源模型,迅速成为业界热议的焦点,其中,Gemma 3 27B IT 模型尤为引人注目。如下图所示为 Google 广泛宣传的 Gemma 3 27B IT 模型在 Chatbot Arena Leaderboard [1]上的表现,以 27B 的参数量,不仅超越了更大参数量的 DeepSeek V3(实际 ...
在训练阶段,Gemma 3使用了全新的分词器,专门为140多种语言量身定制,并依托于Google TPU上的JAX框架,确保了高效的训练性能。从数据量来看,每个模型的训练数据可达:1B模型2T tokens,4B模型4T tokens,12B模型12T tokens,以及27B模型14T tokens。后训练流程中,Gemma 3 ...
微软研究人员声称,他们开发出迄今为止规模最大的 1 位 AI 模型 bitnet。该模型命名为 BitNet b1.58 2B4T,采用 MIT 许可证发布,能在包括苹果 M2 处理器在内的各种 CPU ...
谷歌通过开源模型Gemma,降低了开发者的迁移成本,同时也间接巩固其闭源大模型Gemini的高价值客户群体。实现了“以开源换生态,以生态养闭源”的循环。文|孙文娜ID | BMR20042025年3月12日,谷歌开源多模态大模型Gemma 3正式发布 ...
Mistral Small 3.1的整体性能表现,尤其在视觉理解及长上下文处理方面,明显优于Google日前发布的Gemma 3同级模型。 Mistral Small 3.1主打适合本地端部署 ...
在推出由 Gemini 2.5 Pro Experimental 提供支持的深度研究几天后,Google再次推出了一个新模型 ...
将Google DeepMind 的 CEO Demis Hassabis变成一个长发男子 在开源方面,Google上周还推出了新的多模态模型Gemma 3,并对外开放了模型权重,允许在遵守规定的情况下用于商业用途。Google表示,Gemma 3的Elo评分达到了1338分,相当于DeepSeek R1模型(1363分)的98%。 但有个显著区别 ...
Google上周还推出了新的多模态模型Gemma 3,并对外开放了模型权重,允许在遵守规定的情况下用于商业用途。Google表示,Gemma 3的Elo评分达到了1338分 ...
人人都是产品经理 on MSN22 天
大,就聪明吗?论模型的“尺寸虚胖”
本文深入探讨了模型参数与实际性能之间的关系,揭示了Dense和MoE架构的本质差异,以及它们在资源调度和计算效率上的不同表现。 你可能刷过这样的新闻: 一个只有 27B 参数的 Gemma-3,竟和 671B 参数 DeepSeek V3 不相上下。世界又要变天了 后面,可能还带个图,像这样: Gemma:我 27B 这种“技术奇迹” ,总被媒体反复包装成“一夜变天” ,但其实并不新鲜: 大模型说 ...
这一模型由谷歌 DeepMind 团队基于其先进的 Gemma 模型家族微调开发 ... 将在拯救生命、改善人类健康的道路上发挥越来越重要的作用。 荐聊聊Gemini 2.0最近3个超级酷的更新,Google有点被低估了。 荐AI日报:腾讯混元推出5个开源3D模型;Anthropic发布MCP传输机制重大 ...