AI未来五年发展路径

张开发

• 2026/6/5 0:12:53 • 15 分钟阅读

分享文章

AI的发展路径生成能力-推理能力-Agent能力-数字虚拟人-具身机器人-脑机接口。1生成现在生成都已经渐入佳境文本文本报告生成、代码生成如Claude Code语音语音生成图片图片生成如Nano banana视频视频生成如seedance2.0我很看好两个方向AI写代码主要现在国产模型不争气不给力、AI视觉现在字节的视觉识别和视频生成做的很牛。传闻DeepSeek选择了多模态。但愿它不是去做Nano banana、Seedance而是只做截图识别前端网站截图进行Coding生成、股票K线截图进行分析说明。2推理从2024年10月OpenAI发布基于思维链CoT技术的深度思考推理开始迅速发展。2025年2月国产开源DeepSeek-R1也把推理普惠到整个中国社会。不过总的来说推理能力的发展是最慢的。这三年推理能力并没有得到大的提升只是从理论方法思维链成熟到商业产品落地GPT-o1到推理速度提高DeepSeek做了很多内存和GPU的优化。大家感觉好像推理能力在进步其实是外挂工具起的作用如 Lean 定理器而不是推理能力起的作用。但是AI行业已经投入了太多年、投入了太多钱人们急切需要一些结果否则就很难让人继续持续投入很多钱了。所以现在大家都在聚焦发展Agent本质就是把现在AI的能力再加上外挂的能力赶快能做点啥就做点啥尽快转换为商业成果。我个人觉得虽然大模型的推理能力已经难以突破但是Coding专有大模型能力提升再加上Agent辅助基础模型提高意图理解能力-方案规划能力-多Agent任务分工协作能力再加上Agent的记忆模块和Skill模块可以使最终结果表现出来的推理能力再提升提升。3AgentAgent起源于深度研究第一步经过深度思考生成深度研究的方案第二步连接各个外部系统采集数据第三步AI生成代码对数据进行加工第四步生成研究报告WORD/PDF/PPT分析报告、EXCEL数据统计、可视化图表2025年2月商业闭源Agent Manus发布引发大家的热议。2026年2月免费开源Agent OpenClaw发布引发大家的热议。Agent的核心有三个1、分解任务-编排任务-指派任务-整合任务让多Agent分工协作2、用户个性化记忆3、调用高手写的Skill/上下文提示工程可以正确引导大模型产出期望的结果但是Agent也扩展了很多外部能力1、接入外部数据在线联网搜索、在线MCP/API调用、存取本地文件系统2、控制本地浏览器爬虫、模拟点击、登录/取数、填写表单数据3、控制本地软件在提示工程中直接调用软件功能CLI无须再生成代码调用API不过我个人感觉中国没有太多深度研究的需求。我倒是觉得基础大模型现在都能提供1M长上下文理解能力如何利用这些多轮会话中的长上下文来不断清晰化需求的意图目的、细化以及修正方案。现在Agent走走走就走歪路了就是不随着多轮会话的信息来修正自己的意图和方案。4数字虚拟人视觉生成技术让数字人拥有了可视化的形象。比如生成罗永浩的形象。语音技术让数字人拥有了开口说话、听人说话的能力。比如用罗永浩的声音来说话。多轮会话技术让数字人可以与用户连贯对话。深度思考技术可以让数字人回答更复杂的问题。Agent技术可以让数字人使用个性化记忆/个性化风格/个性化数据来交流。比如用罗永浩平时的知识、习惯用语、思考风格来交流。现在数字虚拟人主要用于AI影视以后可以用于AI游戏。5具身机器人具身机器人有两个脑一个大脑用于深度思考-规划-决策选择一个小脑用于控制机械手脚运动现在宇树机器人自己的小脑控制机器人的手脚运动已经比去年有很大进步。传闻宇树机器人也采用了DeepSeek-Omni进行思考。不过如果把这些技术放到无人机无人狗身上可能爆发的更快。6脑机接口脑机接口一半是人的生物电、脑电波信号人体的各种传感/感应器官一半是机器手脚运动、视觉采集、语音识别/语音合成。这两者还需要连通在一起方便残疾人、聋哑人。脑机接口聚焦做好人脑和机器的连通。聋哑人可以使用AI大脑的视觉识别能力、语音识别能力/语音合成能力。残疾人可以使用具身机器人的小脑控制机械手脚运动。这是真正的刚需比老年人需要具身机器人还刚需。但是要把人肉人脑和机器躯干机器脑连在一起协同在一起显然难度非常大。

AI未来五年发展路径

最新文章

别再为SaaS多租户数据隔离头疼了！用MyBatis-Plus Dynamic-Datasource 3.3.1，5分钟搞定SpringBoot多数据库切换

2026届毕业生推荐的降AI率方案推荐

Real-Anime-Z部署教程：Linux服务器一键拉起7860端口WebUI服务

2026届毕业生推荐的十大降AI率工具解析与推荐

告别杂乱点云：PCDViewer地面滤波与智能标注功能详解（附城区车载点云处理实例）

#VCS# 编译选项+vcs+initreg+random实战解析：从后仿困境到高效验证

推荐文章

相关文章

分享文章

更多文章

7张图看懂Claude Code：从架构图解到工程实现

BaiduPCS-Web技术解密：构建高效百度网盘加速工具的前后端架构深度剖析

Vue3 + OpenLayers 项目实战：手把手教你搞定天地图、高德、百度等主流地图源的切换与集成

零基础搞定SCI论文！“NHANES · CHARLS”发表无忧训练营，买一送一，欢迎报名！

SEO_为什么你的网站SEO没效果？五大常见原因与解决办法

告别手动点点点：用Katalon Studio录制功能5分钟创建你的第一个Web自动化测试用例

2025届毕业生推荐的六大降AI率方案推荐

网站SEO优化的成本是多少_如何合理控制

从零构建ESP32 TWAI CAN库：驱动CyberGear微电机的实践指南

AI部署即训练入门到精通：微软最新论文精读，让大模型边用边学，收藏这篇就够了！

告别烧录验证！手把手教你用Modelsim搭建Xilinx A7 DDR3仿真平台（基于Vivado 2019）

嘉兴本地口腔科普，儿童、老人、中青年护牙攻略