本模型采用 Mixture of Experts (MoE) 架构,通过一个门控网络计算各专家(Transformer Encoder 层)的权重,选择前 2 个最重要的专家对输入进行处理,然后加权融合所有专家的输出,最终预测数学题的答案。 关键点: 学习嵌入层与位置编码的作用。 理解门控网络如何 ...
DeepSeek-V3 官方报告解读https://arxiv.org/abs/2412.194371. 论文背景:为什么要开发 DeepSeek-V3?近年来,大型语言模型(LLM)发展迅速,不仅闭源模型(如 ...
2025年初,xAI在其最新发布会中宣布推出Grok-3和Grok-3mini,这是基于全球最大算力集群(约20万块GPU)训练的新一代大模型。此举不仅引发了人工智能领域的广泛关注,也为预训练模型的研发打开了新的可能性。华泰证券的研究报告指出,Gro ...
新智元报道 编辑:编辑部 HNYZ【新智元导读】官宣免费后,Grok火速登顶美区App Store榜首,同时,xAI也放出官方博文,秀了一把模型的数学、代码、ASCII ...
眼下,不少 AI 开发者正在研究 DeepSeek 的技术路线。但是,一支国外团队却提出了别具一格的新方法。他们提出一种推理模型新路线, 这一路线绕开了思维链,通过采取深度循环隐式推理方式,为大模型性能扩展开辟了新维度。
近日,马里兰大学的一篇论文在 AI 研究社区中引发了关注,其提出的语言模型通过迭代循环块来工作,能在测试时展开到任意深度。这与当前通过生成更多 token 来扩展计算的主流推理模型形成了鲜明的对比。
DeepSeek具有先进的技术特点。 • 架构创新:采用混合专家(MoE)架构,如DeepSeek-V3的动态路由机制,每个输入通过门控网络自动分配至3-5个专家模块,实际激活参数仅占总量的5%,相比密集架构降低89%的浮点运算量。 • 内存优化:开发多头潜在注意力(MLA)技术,针对Transformer的KV缓存瓶颈,将关键-值对压缩为32维潜在向量,在处理4096token长文本时,显存占用 ...
DeepSeek-V3在训练过程中采用了多token预测(MTP)技术,这一创新显著提升了模型的生成速度和性能。传统的语言模型通常只预测下一个token,而DeepSeek-V3则在每个位置上预测多个未来token。通过这种方法,模型不仅增加了训练信 ...
AMChat: AM (Advanced Mathematics) chat 是一个集成了数学知识和高等数学习题及其解答的大语言模型。该模型使用 Math 和高等数学习题及其解析融合的数据集,基于 InternLM2-Math-7B 模型,通过 xtuner 微调,专门设计用于解答高等数学问题。 数字生命: 本项目将以我为原型 ...
当马斯克携xAI发布Grok-3时,全球AI领域再一次迎来震动。但比起这款号称“地球上最智能的AI”,更吸引人们目光的,是其背后的华人科学家团队。马斯克在发布会上仿佛成了“点头机器人”,而真正坐在C位、掌控AI未来的,似乎是几位华人面孔。他们究竟是什 ...
对此,钛媒体AGI从知情人士从了解到,该动作核心原因在于DeepSeek热潮,带动近期 Kimi 智能助手“自然新增用户量猛涨”。这意味着,月之暗面对推广动作进行了相应调整。