今天是2025年10月22日。当OpenAI试图用AI原生浏览器重写数字入口的规则,当6G智能建筑将墙体变为会“思考”的通信节点,当DeepSeek以“像素即思维”颠覆大模型记忆范式时,哈佛与MIT的冷峻研究却像一盆冰水,浇醒了AGI的狂热幻想:AI的预测能力与因果理解之间,横亘着一道深渊。这不仅是技术路线之争,更是对智能本质的深刻拷问。
今日速览
- OpenAI Atlas:数字入口的“新王”挑战者。 OpenAI推出原生AI浏览器Atlas,试图用“意图驱动”模式颠覆传统“点击驱动”的互联网交互,直指谷歌Chrome的霸主地位,开启AI助理“具身化”进入数字生活核心的新篇章。
- 6G智能建筑:物理空间的“觉醒”。 6G时代,智能超表面与“建筑无线友好性”概念,正将传统建筑转化为动态的AI感知节点,墙体“听懂”信号,重塑室内连接与人居体验,预示万亿级产业融合。
- DeepSeek-OCR:像素重写AI记忆与上下文。 DeepSeek以“反向OCR”技术,将文字压缩为视觉Token,实现了大模型上下文能力的十倍暴涨与算力节约,更提出了模拟人类“选择性遗忘”的AI记忆新范式,开启“像素即思维”的颠覆。
- 哈佛&MIT警钟:AI的“开普勒之眼”与“牛顿之思”鸿沟。 最新研究揭示,当前AI模型即便预测精准,也未能真正理解物理定律,暴露出其在构建可泛化“世界模型”上的根本缺陷,挑战了通过堆叠参数实现AGI的现有路径。
OpenAI Atlas:AI原生浏览器如何重构数字入口与人类意图,挑战浏览器霸主Chrome?
【AI内参·锐评】 OpenAI的Atlas浏览器不是在升级工具,而是在重写规则,直指谷歌最深的护城河——用户心智和数字入口,这注定是一场关于“谁定义互联网”的世纪之战。
【事实速览】 OpenAI于2025年10月21日发布以ChatGPT为核心的AI原生浏览器Atlas,通过“侧边栏与光标聊天”消弭复制粘贴,“浏览器记忆”建立用户语境库,以及“代理模式”实现意图驱动的任务执行。此举旨在解决AI与工具间的上下文断裂,挑战谷歌Chrome的霸主地位,但面临跨平台普及、隐私信任与开发者生态协同等严峻考验。高级功能目前仅对付费用户开放,预示其商业模式将以订阅制为主。
【背景与动机】 OpenAI推出Atlas,其核心动机远不止于简单的产品线扩张,而是要抢占互联网的“操作系统”级入口。在AI时代,谁掌握了用户获取信息和执行任务的第一触点,谁就掌握了数据流向和用户心智。传统浏览器作为“点击驱动”的界面,已无法满足“意图驱动”时代的需求。OpenAI试图将浏览器从一个“网页呈现工具”转变为“智能任务助理”,将AI能力深植于用户日常操作的底层逻辑,从而巩固其在AGI赛道上的战略制高点。
【弦外之音】 这场浏览器之战,表面上是OpenAI与谷歌的直接对决,实则是一场AI生态与传统互联网生态的全面碰撞。谷歌的Chrome坐拥庞大用户和插件生态,其应对策略是“无缝衔接”——将Gemini逐步嵌入现有服务,利用生态惯性抵御冲击。而OpenAI则采取“另起炉灶”的颠覆式创新,期望通过ChatGPT的亿级用户基础,开辟AI原生入口。这不仅考验双方的技术实力,更考验用户习惯迁移的成本与收益,以及外部开发者是否愿意为新平台构建生态。Perplexity Comet等“答案引擎”的差异化竞争,也预示着AI浏览器的形态远未固化。
【投资者必读】 Atlas的商业化潜力在于**“订阅制驱动”与“生态锁定”。高级代理模式仅对付费用户开放,这符合OpenAI通过增值服务实现盈利的战略。然而,其真正的价值在于通过深度融入用户数字生活,生成大量高价值的用户行为数据**,并最终将OpenAI的AI生态深度绑定到用户的日常操作中。投资者应关注Atlas在Windows和移动端的普及速度、用户对“浏览器记忆”隐私承诺的接受度,以及OpenAI在商业变现与用户体验之间如何平衡。若能成功转化部分ChatGPT用户,并有效解决隐私信任问题,Atlas将成为OpenAI构建**“数字生活总控中心”**的关键一环,带来巨大的生态溢价。
【我们在想】 当一个浏览器能够“记住”你所有数字足迹,并能“代理”你执行复杂任务时,我们究竟是获得了“超级助理”还是让渡了“数字主权”?AI的“意图驱动”会把我们带向何方,我们是变得更有效率,还是在不知不觉中被技术驯化?信任的边界在哪里,数据的所有权和使用权又该如何重新定义?
【信息来源】
- 来源: 证券时报 / 36氪 / 华尔街见闻 / Xpert.Digital
- 链接: OpenAI突然发布“AI浏览器”,谷歌微软颤抖 / OpenAI要掀翻 Chrome,从 “不复制粘贴” 开始 / OpenAI推出AI浏览器ChatGPT Atlas,直接与谷歌竞争 / OpenAI Atlas AI 浏览器 ️ AI 浏览器在数字未来竞争中的经济影响
6G智能建筑:当墙体“听懂”信号,人居空间如何被AI重构?
【AI内参·锐评】 6G智能建筑的崛起,预示着物理世界不再是通信的背景板,而是被AI赋灵的“具身智能”,将深刻重塑人与空间的互动逻辑,开启一场人居环境的“感知革命”。
【事实速览】 6G时代,智能超表面与“建筑无线友好性”概念将传统建筑转化为动态通信节点,通过AI、先进材料和设计整合,使墙体能主动优化信号。这解决了5G室内信号衰减瓶颈,重塑室内连接体验,并催生建筑与通信产业深度融合的万亿级市场。AI在捕捉人类移动模式、应对信道漂移方面发挥核心作用,预示着物理空间向“具身智能”进化。
【未来展望】 在6G的宏大愿景下,建筑将从“钢筋水泥的盒子”蜕变为能感知、会思考、自适应的智能生命体。未来3-5年,随着“建筑无线友好性”指标被标准化,智能超表面嵌入技术将规模化应用。这不仅意味着更低的基站功耗和更优的室内覆盖,更将催生**“建筑即服务”**的商业模式。每一栋建筑都可能成为智慧城市和物联网的关键节点,为自动驾驶、智能制造等提供无处不在的超可靠低延迟通信。建筑师、材料科学家、通信工程师和AI专家将形成高度交叉的团队,共同定义未来的智能空间,跨领域人才融合将成为新常态。
【开发者必读】 对于开发者而言,智能建筑是**“具身智能”在物理世界最直观的应用场景**。通信工程师需要重新思考网络基础设施与建筑的融合设计,将无线性能作为建筑设计的核心要素。AI开发者则需要关注跨尺度人类行为模式的建模,开发能在动态、不确定环境中进行“区域蠕变式激活”的低复杂度深度强化学习算法,以应对“信道概念漂移”。此外,如何利用生成式AI方法处理“不可量化概念”(如美学、行为学)以实现建筑设计“端到端”一键生成,同时兼顾功能与美学,将是新的创新蓝海。
【我们在想】 当建筑具备了“感知”和“响应”无线信号的能力,它不再是静默的背景,而是与人互动、主动优化的“智能躯壳”。这种“赋灵”是否意味着我们的居住空间将拥有某种形式的“意识”?它在优化连接的同时,是否也在无形中收集和分析我们的行为模式?这种人机共存的具身智能,将如何重新定义我们的隐私、自主性和人居伦理?
【信息来源】
- 来源: IEEE Wireless Communications / IEEE Transactions on Antennas and Propagation / NHS / 新智元
- 链接: Fundamental Wireless Performance of a Building / Wireless Friendliness Evaluation and Optimization for Sandwich Building Materials as Reflectors / Planning for the provision of wireless connectivity / Tidal-Like Concept Drift in RIS-Covered Buildings: When Programmable Wireless Environments Meet Human Behaviors / 墙体的AI革命,智能超表面如何让建筑「听懂」6G信号? / 智能超表面,6G室内覆盖,建筑无线友好性,AI信号优化,东北大学张继良
DeepSeek又“整活”!大模型玩起“看图说话”,上下文直接狂飙十倍,硅谷都“蚌埠住了”!
【AI内参·锐评】 DeepSeek-OCR不只是提升了上下文长度,它正在用一场“像素革命”,重塑AI对信息的底层感知逻辑,挑战传统Token范式,这可能是大模型通往“无限记忆”的里程碑式飞跃。
【事实速览】 DeepSeek开源新模型DeepSeek-OCR,并非传统OCR,而是将大量文字信息“压缩”成图片,让大模型通过“看图”理解内容,实现上下文窗口十倍扩容并大幅节省算力。该技术核心为DeepEncoder,通过“先局部感知、再压缩提炼、后全局理解”串联架构,将高分辨率图像高效转化为少量视觉Token。此举解决了大模型长上下文成本高昂和训练数据稀缺问题,并引发AI模拟人类“选择性遗忘”的哲学思考。
【背景与动机】 当前大语言模型(LLM)的上下文长度瓶颈,是制约其发展和应用的核心痛点。Transformer架构的注意力机制导致计算量随上下文长度呈指数级增长,算力与成本消耗巨大,使得“长记忆”成为奢侈品。DeepSeek的“反向OCR”技术正是为了从根本上解决这一“卡脖子”问题,通过高效的信息压缩,实现低成本、大规模的长上下文处理,从而突破LLM在知识密集型应用场景的限制。这不仅是技术优化,更是对LLM基础输入范式的深刻反思与重塑。
【开发者必读】 DeepSeek-OCR为大模型开发者提供了一套颠覆性的“视觉记忆”解决方案。首先,它极大地缓解了训练数据饥渴问题,单块A100 GPU每天可采集超过20万页文档,意味着海量“二维信息”(图表、插图)可被高效转化为训练数据。其次,对于需要处理超长文档(如法律文书、科研论文)的应用,该技术能将算力成本降低一个数量级,使得过去不可能的场景变为现实。开发者应积极探索如何将“上下文光学压缩”集成到现有的VLM/LLM工作流中,并思考如何进一步利用这种“像素即思维”的模式,来构建更高效、更具泛化能力的AI应用。
【我们在想】 当大模型开始用“看图说话”的方式理解世界,并且能模拟人类的“选择性遗忘”,那么AI的“记忆”和“认知”将走向何方?这种视觉化的信息处理,是AI趋向类人智能的关键一步,还是会带来我们尚未预料到的全新认知偏见? 如果AI可以“选择性遗忘”,谁来设定遗忘的规则,又该如何确保信息的公正性和完整性?
【信息来源】
- 来源: 新浪财经 / 华尔街见闻 / 36氪 / 观察者网
- 链接: DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字 / DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字 / DeepSeek的终极野心:把大语言模型的基本语言都改造成图像 / DeepSeek开源新模型
超越“开普勒之眼”:哈佛&MIT揭示AI通往“牛顿之思”的深层鸿沟
【AI内参·锐评】 哈佛与MIT的重磅研究撕开了AGI的遮羞布:当前AI的智能狂飙只是“开普勒之眼”的完美预测,而非“牛顿之思”的因果洞察,我们离真AGI还差一个世界的距离。
【事实速览】 哈佛与MIT研究揭示,当前AI模型(如LLM)在模拟轨道力学中虽能精准预测行星轨迹,却未能真正理解并推导出牛顿定律,仅依赖特定情境的“经验法则”。面对未知场景,模型甚至会编码出“错误的受力定律”,这暴露出AI在构建可泛化“世界模型”上的根本局限——仅拟合数据表层统计模式,缺乏深层因果理解能力,挑战了当前通过扩大模型规模实现AGI的路径。
【背景与动机】 这项研究直指当前AGI叙事中的核心矛盾:大模型究竟是“理解”世界,还是仅仅在进行“预测下一个词”的高级概率游戏? 在AI技术狂飙突进的表象下,学界对于模型“智能本质”的质疑从未停止。哈佛与MIT的研究,正是通过将AI置于最基础的物理定律场景,来 empirically 验证这一深层哲学拷问。其动机在于警示行业,在追求模型规模和预测精度的同时,不能忽视对深层因果理解和世界模型构建的探索,否则AGI将永远停留在“知其然不知其所以然”的表层。
【弦外之音】 这项研究与Yann LeCun等顶尖AI学者对于“AGI即将到来”论调的批评遥相呼应。LeCun曾尖锐指出,当前LLM的“理解”是一种“波将金理解”,缺乏像婴儿通过观察、预测和自我纠正来构建世界模型的**“流动智力”。哈佛&MIT的研究提供了强有力的实验证据,佐证了这一观点。这并非对LLM的全面否定,而是提醒我们,要实现真正具备科学发现能力和稳健泛化能力**的AI,必须从根本上突破现有架构的瓶颈,不能盲目沉迷于“堆量”的参数竞赛。
【投资者必读】 这项研究意味着AI产业的投资逻辑将面临从“效率驱动”向“智能本质驱动”的重大转折。仅仅追求更大模型、更多数据以提升预测精度的策略,其边际效益将递减。未来的投资热点,将更倾向于那些致力于解决AI深层理解、因果推理、以及构建通用“世界模型”的底层技术和新型架构。例如,联合嵌入预测架构(JEPA)等探索方向,旨在让AI像人类一样进行经验迁移和想象。能够让AI从“开普勒之眼”进阶到“牛顿之思”的企业,将在高附加值的科学研发、医疗诊断、复杂工程等领域取得颠覆性优势,这预示着一个更具挑战也更具突破潜力的AI新纪元。
【我们在想】 如果AI能够精准预测一切,却无法解释“为什么”,那么我们应该如何定义和信任其“智能”?在自动驾驶、医疗诊断等高风险场景中,缺乏因果解释的预测,其可靠性和伦理正当性如何保障? 人类文明的进步依赖于对深层规律的理解,当AI最终能从经验中提炼定律,它将是人类认知的拓展者,还是带来我们对“理解”一词的全新哲学困境?
【信息来源】
- 来源: 红杉汇 / MIT科技评论 / CSDN博客
- 链接: 哈佛&MIT:AI能预测,但它还解释不了“why” / 杨立昆:“AGI即将到来”完全是无稽之谈,真正的智能要建立在世界 ... / “大型语言模型的“波将金理解“:顶级AI学者质疑AGI实现路径-CSDN博客
像素即思维:DeepSeek-OCR如何通过视觉压缩重塑LLM的无限上下文与AI记忆范式
【AI内参·锐评】 DeepSeek-OCR的“像素即思维”,不仅是上下文效率的暴涨,更是对AI记忆和认知机制的底层哲学叩问:当机器开始“选择性遗忘”,它将如何理解世界?
【事实速览】 DeepSeek-OCR通过将文本渲染为图像进行视觉压缩,巧妙解决了大语言模型长上下文的算力瓶颈,实现了信息高效编码与低损耗解码,达到10倍以上压缩率和高精度。该创新颠覆了LLM传统文本输入范式,被誉为“AI的JPEG时刻”,并提出了模拟人类“光学遗忘”的AI记忆机制,为通往理论上的无限上下文和类人智能记忆系统开辟了全新路径。
【技术原理与创新点解析】 DeepSeek-OCR的核心是“上下文光学压缩”技术和其幕后功臣DeepEncoder。DeepEncoder是一个约3.8亿参数的串联架构,旨在解决高分辨率输入、低激活内存和高压缩比的矛盾:SAM-base感知器负责局部细节处理,16倍压缩器将海量原始情报压缩提炼成256条视觉token的“摘要简报”,最后由CLIP-large知识层进行全局注意力分析,理解长距离关系和全局语义。这种“先局部感知,再压缩提炼,后全局理解”的设计,使其在压缩率高达10.5倍时,OCR精度仍达96.5%,实现了前所未有的效率。它通过将文本信息高效地“视觉化”,用少得多的视觉Token代替海量文本Token,从源头解决了LLM的上下文计算复杂度和内存瓶颈。
【未来展望】 DeepSeek-OCR所引领的“像素即思维”模式,为AI通往**“理论上无限上下文”开辟了前所未有的路径。通过其多分辨率设计,AI可以模拟人类的“光学遗忘”:近期上下文高保真处理,远期上下文则以低分辨率、高压缩率形式保留核心要点,从而实现对历史信息的“模糊记忆”和高效利用。这不仅将彻底改变LLM的输入范式,更可能推动AI记忆系统向分层、动态、与重要性高度相关的类人智能发展。未来,结合语义理解和注意力机制,实现有选择性的压缩和遗忘**,将是构建真正AGI记忆系统的关键一步,使得AI能够以更接近人类的方式感知、理解并处理世界。
【我们在想】 DeepSeek的“像素即思维”和“光学遗忘”机制,无疑为AI的记忆和认知带来了革命性的可能。但当AI系统能够有选择性地“遗忘”信息时,谁来决定遗忘的标准和边界?这种机制是否会引发新的信息偏差或伦理风险?如果AI的记忆是可控和可编辑的,那么它所构建的“世界模型”将如何影响我们对事实、历史和真相的认知?这不仅是技术挑战,更是对“智能伦理”和“数字主权”的深刻拷问。
【信息来源】
- 来源: 华尔街见闻 / 腾讯科技 / IT之家 / 华尔街见闻 / 腾讯新闻 / 知乎
- 链接: DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字 / DeepSeek的终极野心:把大语言模型的基本语言都改造成图像 / DeepSeek 团队开源新模型DeepSeek-OCR:少量视觉token ... / DeepSeek OCR论文引爆网络!Andrej Karpathy:我很喜欢;马斯克 / DeepSeek开源新成果!把长文档“压缩”成图片,降低大模型处理成本 / 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
【结语】
今天的AI世界,正上演着一场前所未有的“范式革命”。OpenAI正试图重写数字世界的交互规则,用AI代理取代传统点击,引领“意图驱动”的互联网;6G智能建筑则让物理空间从障碍变为智能节点,用AI为墙体“赋灵”,重构人居体验。而DeepSeek的“像素革命”更是从底层颠覆了AI的认知与记忆模式,为无限上下文带来了曙光。
然而,在这股狂飙突进的表象之下,哈佛与MIT的冷静研究却敲响了警钟:当前AI的预测能力与因果理解之间,横亘着一道深不可测的鸿沟。我们拥有了“开普勒之眼”——能精准描绘现象,却依然缺乏“牛顿之思”——能洞察深层原理。
这提醒我们,AI的未来,绝非仅仅是模型规模的无限制膨胀,而是要在这股“表象的智能狂飙”中,深挖“本质的理解鸿沟”。真正的AGI,不会止步于“知其然”,更要实现“知其所以然”。从数字入口到物理空间,从数据输入到智能认知,这场范式革命的最终胜者,将是那些能在这场狂热与清醒、颠覆与重建之间,找到智能本质平衡点的拓荒者。AI的黄金时代才刚刚开始,但通往真智能的道路,才刚刚变得清晰且充满挑战。