来源:MacTalk
昨天下午去了趟百度,参加他们组织的 AI 开放日。在现场,看完百度文库和网盘发布的一系列 AI 新功能,我方才意识到,这两款国民级应用,早已经超脱之前的文档检索和个人资源存储的定义,发展成全新的一站式 AI 内容生产力平台。
其实这些年,我一直在用百度网盘和文库。特别是网盘,每年都会续费,它里面堆满了我过去的照片和文档,成为了我人生的重要资产。AI 方兴未艾的这两年,百度网盘和文库在原来的基础上,围绕泛内容创作和消费,推出了非常多的刚需 AI 功能。
举个例子,昨天 WWDC 上,苹果的视觉智能(Visual Intelligence)功能迎来全新升级。它能够自动识别用户截图里的信息,并根据场景,主动推荐下一步的操作。从这个特性中,我们能够看出来苹果的野心,他们希望给用户提供一种全新的人机交互方式。
有趣的是,百度文库和百度网盘也在进行这方面的探索。
活动上,我听到百度副总裁,文库事业部、网盘事业部负责人王颖讲,他们这两年时间,一直在思考用户到底需要什么样的人机协同。与这个思考相对应的,他们发布了全新一代的 AI 相机。相机对我们并不陌生,现在人手一台手机,手机中都自带相机的功能。
过去,我们理解的相机就是拍照片。拍人,拍物,拍山河湖海。但其实,随着 AI 对图像理解能力、推理能力、生成能力的增强,相机可以承载更多的功能。它不再只是记录生活的工具,更是我们工作和学习的助手。
比如说,拍一张文件或者合同,AI 可以自动扫描、识别、分类,提取关键信息生成电子档案。拍摄一份试卷,AI 能够擦除涂写过的笔迹,并自动整理错题。拍一张孩子画的简笔图,AI 也能识别内容并自动生成对应的创意绘本。相机这个入口,正在变成 AI 能力集成的超级中枢。
百度文库和网盘的 AI 相机囊括了非常多的功能。菜单中,它预设了拍合同、拍植物、拍试卷、拍人像、拍景点、拍证件等几乎所有我能想到的拍摄场景。和苹果的 Visual Intelligence 交互逻辑类似,AI 相机会在分析图片内容后,给我对应的操作建议。
刚才我随手拍了下桌子上的日历,真的是随手一拍。图片识别后,AI 相机会立刻显示出几个可选项,比如查找同款日历、文档扫描、文字提取等常用功能。更有意思的是,AI 还会分析日历上的内容,延展出一些探索入口,比如“如何在生活中认真度过每一天”“这句话对你有什么启发”。
如果这些推荐的选项都不是我想要的,那我还可以通过自然语言和这张图片互动。比如,让他帮我基于日历上的文字,写一段朋友圈的文案,或者扩成一篇文章。
当然,AI 相机也还能够直接进行修图。
体验下来,我最直观的感受就是,百度真的重新定义了“AI 相机”这个入口。它早已不是简单的拍照工具,而是把拍照、存储、搜索、修图、扫描、翻译、创作等各类能力整合到了一起。
百度另外还发布了 GenFlow 2.0。GenFlow 本质上就是一个多智能体协作的能力,和市面上常见的创作工具完全不一样。GenFlow 能做到的,不只是写一段文案那么简单,而是能在 AI 深度理解需求后,自动拆解和规划每一步任务,并主动调用对应的工具。
还是日历的例子,我们继续测试下。我告诉 GenFlow,帮我基于日历上的文字,生成一份 PPT。你可以看到 AI 的思考过程。它先回顾了刚才我们互动的背景信息,然后推测我可能的意图。紧接着,精准识别到图片中日历上的文字,并调用一个叫 PPT 大师的 Agent 完成了 PPT 的生成。
Gif 我加了速,整个过程大概等待了不到 2 分钟时间,GenFlow 就为我生成了一份 PPT。并且这份 PPT,我点击进去可以直接编辑,比如更换模板,调整局部的内容,全都可以在百度文库中一站式完成。虽然我每天都在体验前沿的 AI 工具,但说实话,这种流畅的体验,还是挺震撼的。
GenFlow 2.0 目前还在内测,昨天我已经第一时间申请了体验资格。等 2.0 正式发布,百度文库和网盘就能真正把“全模态输入、处理到输出”这件事做成一个完整的闭环。
这背后带来的变化其实挺直观的。以前用各种 AI 工具,无论多智能,始终有个让我觉得很割裂的地方:内容创作、消费和再创作,总得在不同产品、不同平台之间来回切换。比如,写完一段文案,想加个图表要跳到 PPT,图片需要处理还得开别的 App,最后各种文件还得自己手动拼一起,折腾得挺麻烦。
而且现在几乎所有 AI 产品,大家心里都清楚,生成的内容很难直接拿来就用。大多数情况下,还得自己二次编辑。
更尴尬的是,这些 AI 工具本身又很少提供足够的编辑和细化入口,结果只能被迫导出,再丢到别的软件里手动改。流程一多,最初节省下来的时间又被反复操作给吃掉了。
我逐渐理解了百度文库和网盘这套逻辑。他们的目标,其实是要构建一个从输入到输出都能系统化、完整交付的 AI 能力。这一切的底层,依赖的正是今年 4 月底李彦宏在 Create 大会上发布的内容操作系统沧舟 OS。
沧舟 OS 背后的核心思想,是把各种模态(比如文字、图片、语音、视频、网址等)全都打通,让用户无论从哪个入口输入信息,系统都能精准识别、理解需求,然后高效分配任务,把各类 AI 能力串联起来,最后输出一个成品。以前这些环节都是割裂的,现在沧舟 OS 试图把它们都连成一条线。
具体来说,沧舟 OS 的第一步,是尽可能降低门槛。无论用户是通过键盘、AI 麦克风、AI 相机、AI 视频等方式输入自己的需求,系统都能第一时间识别出来。
作为用户,根本不需要琢磨格式、不用反复转换内容,想到什么就可以用最顺手的方式告诉沧舟 OS,它都能理解。这就是刚才我说的全模态,全格式。
在全模态的输入基础上,更关键的是要有“全模态处理”能力。如果你做过内容创作就会明白,现实中我们的需求往往不是单一的,常常需要处理图片、文档、录音、视频等各种混合信息。
沧舟 OS 做的,就是把这些不同格式的内容先汇聚到一起,通过背后的调度系统和 AI 能力,自动拆解和分工。
举个例子,我丢进一堆照片、几段文字说明,还可能会发语音。系统先识别每种信息的内容和我的目标意图,然后自动调用图片识别、OCR、语音转写、文档解析等 AI 工具各司其职,把这些结果整合、补全,最终生成一个更接近成品的内容,比如一份结构完整、排版合理、插图齐全的 PPT。
除了多格式、多模态的内容处理能力,沧舟 OS 还能结合百度文库的公域知识库、网盘内经个人用户授权后的私有内容,以及用户平时的使用习惯和历史数据,来进一步辅助内容的理解、完善和生成。
比如,写行业报告时,不只是机械地处理输入的文档和图片,系统还能从文库中自动调取相关的权威资料,同时结合过往保存的项目文件和历史数据,给出更符合用户需求的结果。
另外,文库和网盘里本来就积累了大量单点 AI 能力,比如文档翻译、智能写作、图片处理、模板生成等等。过去用这些功能,往往得靠用户自己去找、自己来回切换。沧舟 OS 把这些能力统一起来,由系统根据当前任务自动组合和调用。
也就是说,用户不用再像拼积木那样手动操作,每次有需求时,系统会自己串联需要的功能,把流程走顺。像一个真正的操作系统那样。给他输入,然后等待预期的输出就行。
放眼整个行业,目前能做到这一步的 AI 内容产品其实不多。绝大多数还是“单点工具”,而百度文库和网盘是少数试图把底层架构做通,追求内容全链路、全场景打通的那一类。
我自己也在创业做内容创作类的产品,这次见识了百度的这一系列打法后,心里其实也在反复琢磨一个问题——泛内容创作的终局到底是什么样子?
所谓泛内容,其实就是我们日常各种零碎的内容需求,比如 PPT、绘本、朋友圈文案、报告、视频、图片这些。撇开极少数的专业创作者,其实大多数普通人的内容创作需求,也就集中在这些场景里。
百度选择把这类日常、频繁、刚需的内容创作和管理场景,全部装进文库和网盘这两个国民级产品体系里,用 AI 把分散的“点”串成了“线”。
这条路径并不是追求花哨功能,而是让用户能在同一个入口里,低门槛、高效率地把绝大多数内容需求解决掉,不用再到处拼拼凑凑。
其实这也反映出一个趋势:泛内容创作越来越像是一种基础设施,未来谁能真正降低门槛、简化流程、提升交付完整度,谁就能抓住最大众的那批用户。专业级创作工具依然有市场,但对于大多数人来说,能一站式搞定内容创作和管理,反而更重要。
百度文库和网盘,人家做的挺好的。我之前对这两款产品的理解,还是太浅了。
特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。