近日,人工智能领域的领导者Hugging Face推出了两款备受瞩目的多模态模型——SmolVLM-256M和SmolVLM-500M,这不仅是技术发展的里程碑,更有望改变我们与机器互动的方式。这两款模型以其兼具小巧与强大的特性,引发了业内外的广泛关注。
Hugging Face一直以来以其强大的自然语言处理和多模态AI能力而闻名,而这次推出的SmolVLM系列正是基于公司之前训练的庞大800亿参数模型提炼而来。SmolVLM-256M采用了最新的SigLIP技术作为其图像编码方式,注重轻量化和高效性,使其成为市场上最小的多模态模型之一。相比之下,SmolVLM-500M则配备了更为先进的SmolLM2文本编码器,满足更高要求的用户需求。
IT之家 1 月 26 日消息,Hugging Face 发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M, 其中 SmolVLM-256M 号称是世界上最小的视觉语言模型(Video Language Model) 。
1月26日,Hugging Face发布了两款全新多模态模型:SmolVLM-256M和SmolVLM-500M。据悉,这两款模型都是基于去年训练的80B参数模型进行提炼而成,实现了性能与资源需求之间的平衡。官方表示,这两款模型可以直接部署在transformer MLX和ONNX平台上。
此外,我们也将探讨Hugging Face的Transformers库,一个强大的Python工具,助你快速调用、训练、应用与分享各种预训练的Transformer模型,包括BERT和GPT系列。
在AI技术日新月异的今天,开源社区再次展现出了其强大的创新力和推动力。近日,开源AI巨头Hugging Face宣布成功复现了OpenAI的Deep Research功能,并将其以开源形式提供给全球用户,此举在AI界引发了广泛关注和热烈讨论。
就在华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro,同样也是开源的。