TL;DR:
小红书开源其首款多模态大模型dots.vlm1,凭借自研12亿参数NaViT视觉编码器和DeepSeek V3基座,在图文理解与推理能力上接近SOTA,不仅预示着内容平台在AI领域的深度进阶,更通过开放生态加速了多模态AI的边界拓展。
小红书,作为中国领先的内容社区平台,其技术战略布局正从深耕UGC(用户生成内容)和兴趣电商,向更前沿的通用人工智能领域迈进。近期,小红书人文智能实验室(hi lab)正式开源了其首款多模态大模型dots.vlm11,这一举动不仅是其在大模型竞赛中的一次“亮剑”2,更是对当前AI产业生态,尤其是多模态智能发展路径的一次深刻洞察与实践。dots.vlm1的发布,凭借其在复杂图文理解与推理上的出色表现,正为我们揭示未来内容交互、商业模式乃至人类认知边界可能发生的深刻变革。
技术原理与创新点解析
dots.vlm1的核心技术亮点在于其_“站在DeepSeek肩膀上”_的同时,更构建了一颗强大的“视觉心脏”——由小红书自研并从零训练的12亿参数NaViT视觉编码器3。这种“基础模型+专业编码器”的结合策略,反映了当前大模型发展的一种趋势:在利用现有强大LLM(如DeepSeek V3 MoE)的通用语言推理能力的同时,通过定制化的模态编码器来提升特定模态的感知与理解深度。
dots.vlm1的训练流程分为三个关键阶段,体现了构建高性能多模态模型的系统性工程方法:
-
视觉编码器预训练(NaViT):NaViT编码器采用42层Transformer架构,并引入RMSNorm、SwiGLU和2D RoPE等先进技术。其创新之处在于双重监督策略:下一Token预测(NTP)与下一Patch生成(NPG)。NTP通过大量图文对训练模型对多样视觉数据的感知能力,而NPG则利用纯图像数据,通过扩散模型预测图像块,显著增强了模型的空间与语义感知。值得注意的是,hi lab在预训练中逐步提升图像分辨率,从百万像素到千万像素级别,并融入OCR场景图像、grounding数据和视频帧,这为模型提供了极为丰富的视觉泛化能力奠定基础。这表明了对视觉模态精细化、多尺度、多任务预训练的重要性。
-
VLM预训练(视觉与语言联合训练):在此阶段,NaViT编码器与DeepSeek V3 LLM进行联合训练,核心在于处理大规模、多样化的多模态数据集。
- 跨模态互译数据:用于训练模型将图像内容转化为文本描述、总结或重构,覆盖了普通图像、复杂图表、表格、公式、图形、OCR场景和视频帧,及其对应的文本注释。这种转化能力是实现高级视觉理解的基础。
- 跨模态融合数据:用于训练模型在图文混合上下文中进行下一token预测,避免模型过度依赖单一模态,确保真正意义上的多模态融合理解。小红书hi lab特别强调了其针对网页数据和PDF数据的清洗管线,尤其是利用内部自研VLM模型进行重写和清洗网页数据,以及开发专用OCR模型dots.ocr4将PDF转化为图文交错表示并进行随机遮挡训练,极大地增强了模型对视觉格式文档的理解能力。这表明高质量、场景化的数据处理能力是构建高性能多模态模型的关键护城河。
-
VLM后训练(有监督微调):通过有监督微调(SFT)增强模型泛化能力。虽然未采用强化学习,但仅使用任务多样的数据进行训练,这为模型提供了在不同应用场景下的适应性。
实测结果显示,dots.vlm1在MMMU、MathVision、OCR Reasoning等多个视觉基准测试中表现出接近Gemini 2.5 Pro与Seed-VL1.5 thinking等领先模型的水平,具备理解表情包、分析产品配料表、解读复杂图表甚至进行几何解题的能力5。在文本推理方面,其性能大致相当于DeepSeek-R1-0528,显示出在数学和代码能力上的通用性。
产业生态影响评估
小红书dots.vlm1的开源,不仅是技术实力的展现,更是其在AI时代构筑产业生态,实现商业价值深度挖掘的战略部署。
-
对内容产业的深远影响:dots.vlm1的多模态理解与推理能力,将彻底改变内容平台内部的信息处理方式。对小红书而言,这意味着更精准的用户内容理解、更智能的推荐系统、更个性化的用户互动体验。例如,模型能够理解表情包背后的情感,分析笔记中图文混排的复杂信息,这将极大地提升内容分发效率和用户粘性。对于创作者,AI工具可以提供更智能的辅助创作,如基于图片生成描述、自动识别并推荐关联商品等。这将使得内容创作更加高效、多元,进一步繁荣平台生态。
-
加速多模态AI的普及与应用:作为一家以内容社区为核心的平台,小红书的开源举动将吸引更多开发者和研究者在其基础上进行创新。这种“站在巨人肩膀上”的开源模式,结合DeepSeek V3和自研NaViT,不仅降低了多模态模型开发的门槛,也将加速多模态技术在各行各业的落地。尤其是在**教育(如智能批改作业)、电商(如智能客服解读商品详情图)、文化(如文物信息识别)**等领域,dots.vlm1展现出的能力具有广阔的应用前景。
-
重塑AI竞争格局:在通用大模型趋向收敛的背景下,垂直领域或具备特定模态优势的“专精特新”模型将成为新的竞争点。小红书通过开源dots.vlm1,不仅展现了其在视觉理解方面的深厚积累,更通过开放合作,将自身定位为多模态AI生态的重要参与者和贡献者。这与OpenAI、Google等巨头的封闭式研发形成互补,共同推动AI能力的边界。
“从资本角度看,开放生态能够降低技术采用成本,加速创新周期,从而间接催生更多基于该技术的新兴商业模式和投资机会。”
未来发展路径预测
尽管dots.vlm1已取得显著进展,小红书hi lab也清醒地认识到其在视觉感知与推理能力上仍有提升空间。展望未来3-5年,多模态AI的发展将呈现以下趋势:
-
更强的跨模态推理与常识理解:当前模型在某些复杂推理任务上与人类仍有差距。未来的发展方向将是通过引入更丰富的世界知识、强化学习方法以及多模态具身智能的探索,使模型不仅能“看懂”和“听懂”,更能“理解”并“推理”真实世界的复杂情境。dots.vlm1后续探索强化学习以缩小推理差距,正是这一方向的体现。
-
模态间的深度融合与统一表征:未来的多模态模型将不再是简单地将不同模态的信息拼接,而是通过更深层次的统一表征,实现信息在不同模态之间的无缝转换和协同推理。这将使得AI能够更像人类一样,以统一的认知框架理解世界。
-
数据驱动与合成数据的重要性凸显:高质量、多场景的训练数据始终是模型性能的基石。随着真实世界数据采集成本和隐私挑战的增加,合成数据和数据增强技术将发挥越来越重要的作用,为多模态模型提供无限的训练可能性。小红书在网页和PDF数据处理上的经验,正是对高质量数据处理复杂性的深刻理解。
-
应用边界的持续拓展与伦理挑战:随着多模态AI能力的提升,其在创意内容生成、智能辅助决策、个性化教育等领域的应用将更为普及。然而,这也将伴随着更复杂的伦理挑战,如深度伪造、信息偏见、版权归属等。AI治理和伦理规范将成为技术发展不可或缺的一部分,需要技术提供方、用户和监管机构的共同努力。
小红书此次开源dots.vlm1,不仅是自身技术实力的飞跃,更是对AI开放生态理念的积极响应。在AI大模型竞争日益激烈的当下,开放与合作正成为加速技术进步、实现产业共赢的重要途径。dots.vlm1在内容理解与多模态感知上的突破,无疑将为未来的AI应用打开新的想象空间,并深刻影响人类与数字世界的交互方式。
引用
-
小红书开源多模态大模型dots.vlm1 - OSCHINA - 开源中国技术社区·OSCHINA·(2025/8/7)·检索日期2025/8/7 ↩︎
-
小红书亮剑:这匹开源黑马,敢和Gemini 掰手腕了·知乎·(2025/8/7)·检索日期2025/8/7 ↩︎
-
小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA! - 网易·网易·(2025/8/7)·检索日期2025/8/7 ↩︎
-
智东西(ID:zhidxcom)·智东西·陈骏达(2025/8/7)·检索日期2025/8/7 ↩︎
-
站在DeepSeek肩膀上,小红书开源首款多模态模型 - 36氪·36氪·(2025/8/7)·检索日期2025/8/7 ↩︎