资讯
XVERSE-7B-Chat为XVERSE-7B模型对齐后的版本。 XVERSE-7B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),参数规模为 70 亿,主要特点如下: 模型结构:XVERSE-7B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持 8K 的上下文长度(Context Length ...
Llama-3.1-Nemotron-Ultra-253B-v1 是一个拥有 2530 亿参数的密集模型,旨在支持高级推理、指令遵循和 AI 助手工作流程。该模型最早在今年 3 月 Nvidia 年度 GPU 技术大会 (GTC) 上被提及。
在一个令人震惊的时刻,首位AI科学家AIScientist以其全新版本2.0成功在国际顶级会议ICLR上发布了一篇完全由人工智能生成的研究论文。整个研究过程从选题到实验均由AI独立完成,甚至GitHub上的代码库也是AI编撰的。这一令人振奋的进展,使得AI在科学研究中展现出前所未有的潜力。
研究者策划了一个文本到视频的数据集,该数据集基于大约 7 ...
作者|周一笑邮箱|[email protected]在当今大模型领域,Transformer架构占据着主导地位。然而,尽管Transformer非常强大,但它的计算需求随着文本长度呈平方级增长,这导致运行成本高昂,同时限制了其扩展能力。与此相对,更为古老的RNN(循环神经网络)架构虽然计算效率高,但通常无法达到Transformer的性能水平, ...
13 天on MSN
近日,海外知名大模型产品平台OpenPipe公布了一项令人瞩目的研究成果,该研究成功地在重度推理游戏《时空谜题》中,利用一种名为GRPO的强化学习算法,使小型开源模型的表现超越了多个业界领先的推理模型,包括DeepSeek ...
4 月 1 日下午,车祸当事人家属王女士发文称,小米发布通告后从来没有人联系,也没有给家属打过一个慰问电话,王女士还称小米方面把当事车辆拉到北京做事故鉴定。王女士方面对小米汽车方面发出疑问:为什么车辆在撞到护栏后会自燃?为什么车门会锁?
这些变化代表了DeepMind的重大转变, 长期以来,DeepMind一直以发表开创性论文和汇聚顶尖科学家而引以为傲。 谷歌研究人员的重大突破在推动当今生成式AI的繁荣过程中发挥了核心作用,例如它在2017年发表的“转换器” ...
8 天on MSN
近期,有消息指出,谷歌旗下的人工智能巨头DeepMind正悄然改变其科研发布策略,旨在维护自身在新兴AI领域的领先地位。
3 天
知乎 on MSN如何评价Meta刚刚发布的LLama 4系列大模型?Meta颓势尽显,从llama3.1起,技术上insight就慢慢落后了。回首往昔,llama2还真是最巅峰。 眼看他起高楼,眼看他宴宾客, 新Llama4系列叫做Scout,Maverick,Behemoth。这三个名字真是拗口,看来是我孤陋寡闻了。那不妨依次称之为中杯,大杯,超大杯吧。 乍一看,三个杯都是MoE,为了性能舍弃陈腐Dense,是好事一桩; ...
第一作者为哈尔滨工业大学(深圳)博士生王霄和华为大模型研究员佀庆一,该工作完成于王霄在华为实习期间。王霄的研究方向为多模态视频理解和生成,佀庆一的研究方向为多模态理解、LLM post-training和高效推理。
知情人士透露,此次融资并非一轮完整的新融资,是定向给具体的投资方开放少部分份额;蚂蚁和宇树已就投资事宜谈判沟通了很久,此次融资估值相比 80 亿元未有提升。另据接近宇树科技的 FA(财务顾问)人士透露,此次融资估值低于 100 亿元。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果