AI未来五年发展路径

张开发
2026/4/4 22:53:00 15 分钟阅读

分享文章

AI未来五年发展路径
AI的发展路径生成能力-推理能力-Agent能力-数字虚拟人-具身机器人-脑机接口。1生成现在生成都已经渐入佳境文本文本报告生成、代码生成如Claude Code语音语音生成图片图片生成如Nano banana视频视频生成如seedance2.0我很看好两个方向AI写代码主要现在国产模型不争气不给力、AI视觉现在字节的视觉识别和视频生成做的很牛。传闻DeepSeek选择了多模态。但愿它不是去做Nano banana、Seedance而是只做截图识别前端网站截图进行Coding生成、股票K线截图进行分析说明。2推理从2024年10月OpenAI发布基于思维链CoT技术的深度思考推理开始迅速发展。2025年2月国产开源DeepSeek-R1也把推理普惠到整个中国社会。不过总的来说推理能力的发展是最慢的。这三年推理能力并没有得到大的提升只是从理论方法思维链成熟到商业产品落地GPT-o1到推理速度提高DeepSeek做了很多内存和GPU的优化。大家感觉好像推理能力在进步其实是外挂工具起的作用如 Lean 定理器而不是推理能力起的作用。但是AI行业已经投入了太多年、投入了太多钱人们急切需要一些结果否则就很难让人继续持续投入很多钱了。所以现在大家都在聚焦发展Agent本质就是把现在AI的能力再加上外挂的能力赶快能做点啥就做点啥尽快转换为商业成果。我个人觉得虽然大模型的推理能力已经难以突破但是Coding专有大模型能力提升再加上Agent辅助基础模型提高意图理解能力-方案规划能力-多Agent任务分工协作能力再加上Agent的记忆模块和Skill模块可以使最终结果表现出来的推理能力再提升提升。3AgentAgent起源于深度研究第一步经过深度思考生成深度研究的方案第二步连接各个外部系统采集数据第三步AI生成代码对数据进行加工第四步生成研究报告WORD/PDF/PPT分析报告、EXCEL数据统计、可视化图表2025年2月商业闭源Agent Manus发布引发大家的热议。2026年2月免费开源Agent OpenClaw发布引发大家的热议。Agent的核心有三个1、分解任务-编排任务-指派任务-整合任务让多Agent分工协作2、用户个性化记忆3、调用高手写的Skill/上下文提示工程可以正确引导大模型产出期望的结果但是Agent也扩展了很多外部能力1、接入外部数据在线联网搜索、在线MCP/API调用、存取本地文件系统2、控制本地浏览器爬虫、模拟点击、登录/取数、填写表单数据3、控制本地软件在提示工程中直接调用软件功能CLI无须再生成代码调用API不过我个人感觉中国没有太多深度研究的需求。我倒是觉得基础大模型现在都能提供1M长上下文理解能力如何利用这些多轮会话中的长上下文来不断清晰化需求的意图目的、细化以及修正方案。现在Agent走走走就走歪路了就是不随着多轮会话的信息来修正自己的意图和方案。4数字虚拟人视觉生成技术让数字人拥有了可视化的形象。比如生成罗永浩的形象。语音技术让数字人拥有了开口说话、听人说话的能力。比如用罗永浩的声音来说话。多轮会话技术让数字人可以与用户连贯对话。深度思考技术可以让数字人回答更复杂的问题。Agent技术可以让数字人使用个性化记忆/个性化风格/个性化数据来交流。比如用罗永浩平时的知识、习惯用语、思考风格来交流。现在数字虚拟人主要用于AI影视以后可以用于AI游戏。5具身机器人具身机器人有两个脑一个大脑用于深度思考-规划-决策选择一个小脑用于控制机械手脚运动现在宇树机器人自己的小脑控制机器人的手脚运动已经比去年有很大进步。传闻宇树机器人也采用了DeepSeek-Omni进行思考。不过如果把这些技术放到无人机无人狗身上可能爆发的更快。6脑机接口脑机接口一半是人的生物电、脑电波信号人体的各种传感/感应器官一半是机器手脚运动、视觉采集、语音识别/语音合成。这两者还需要连通在一起方便残疾人、聋哑人。脑机接口聚焦做好人脑和机器的连通。聋哑人可以使用AI大脑的视觉识别能力、语音识别能力/语音合成能力。残疾人可以使用具身机器人的小脑控制机械手脚运动。这是真正的刚需比老年人需要具身机器人还刚需。但是要把人肉人脑和机器躯干机器脑连在一起协同在一起显然难度非常大。

更多文章