Hugging Face Transformer

5 小时

从技术角度来看，混元T1正式版沿用了混元Turbo S的创新架构，采用 Hybrid-Mamba-Transformer融合模式，这也是工业界首次将混合Mamba架构无损应用于超大型推理模型。这一架构能降低传统Transformer架构的计算复杂度 ...

今天没有发布会，也没有任何的新产品，只是我看到了一组数据：中国智能汽车销量 Top5 里，有三款搭载了面壁。借这个，一起来聊聊今年来的 AI 落地的显著变化。年初，DeepSeek ...

1 天

对DeepSeek的紧紧跟进，是因为元宝正在切切实实享受到这一策略带来的好处。在今年年初的民企座谈会上，马化腾和梁文锋做了回“同桌”，并排而坐。在那4天之前，2月13日，腾讯元宝宣布接入DeepSeek。

1 天

Transformer模型的跨界奇迹 ...

1 天

因此，对于正在考虑出国留学的同学而言，深入了解诸如Transformer这样前沿的AI技术，不啻于为自己的未来铺路。在这个过程中，托福、雅思等英语水平考试的准备也显得尤为重要，不仅是为了满足学术课程的要求，更是为自己在国际舞台上赢得一席之地。

界面新闻 on MSN5 天

界面新闻记者 | 肖芳界面新闻编辑 | 文姝琪 3月27日凌晨，阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni，可同时处理文本、图像、音频和视频等多种输入，并实时生成文本与自然语音合成输出。

6 天

IT之家 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

6 天

Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 ...

DOIT6 天

导读深夜突袭！DeepSeek-V3携6850亿参数“偷袭”代码界，Claude 3.7瑟瑟发抖？——AI基建再掀技术革命。 2025年3月25日，当全球AI巨头还在为发布会排期时，中国团队DeepSeek已悄然在Hugging ...

作者｜周一笑邮箱｜[email protected]在当今大模型领域，Transformer架构占据着主导地位。然而，尽管Transformer非常强大，但它的计算需求随着文本长度呈平方级增长，这导致运行成本高昂，同时限制了其扩展能力。与 ...

至顶头条 on MSN6 天

Midjourney 与纽约大学合作，发布了一项提升大语言模型创造性写作能力的研究。他们提出了两种新技术：多样化直接偏好优化（DDPO）和多样化比值偏好优化（DORPO），旨在扩大模型输出的多样性，同时保持连贯性和可读性。这项研究不仅展示了 ...

一些您可能无法访问的结果已被隐去。