
在刚刚闭幕不久的第四届数贸会上,“中国数谷”携系列成果和首创举措及具身智能高调亮相。今年以来具身智能概念越来越热了。在“中国数谷”展位的主题讨论中,答案愈发清晰。宇树科技副总经理杜鑫峰就提供了一种答案,具身智能是一种将人工智能融入机器人物理实体的人工智能技术,目的是使其具备从环境中感知和学习并与环境进行动态交互的能力。杭州高新科创集团科创合伙人王磊则带来了最新研判:未来我们需要智能体,去辅助或者代替人与真实世界的交互。我认为具身智能产品,就可以扮演这个角色。用通俗的话来说,在具身智能时代,搭载了多模态大模型的机器人,将有望变得“会感知”,“会思考”,可“自主行动”,代替人力完成部分劳动。“人形机器人是具身智能的一种有效载体,将是人工智能产业演变过程中的新型智能体。”王磊长期关注人工智能领域投融资事件,他对具身智能赛道十分看好。作为人工智能产业演进的关键方向之一,具身智能今年首次被写入《政府工作报告》。不过放眼全国乃至全球,具身智能尚处于规模量产和技术爆发的前期。
之前的机器人基本上都是单一场景、单一任务,而具身智能的目标是多场景、多任务,这是核心差异,有巨大的技术挑战。那么这个挑战为什么今天有机会突破呢?核心原因就在于大语言模型的出现。大语言模型为机器人带来了两项革命性能力:一是对物理世界的理解能力,二是强大的泛化能力,才让具身智能成为可能。具身智能(Embodied Intelligence)是人工智能与机器人学交叉的前沿领域,它强调智能体通过物理“身体”与环境交互,实现感知、决策和行动的闭环,并在此过程中不断学习和进化。其核心在于将认知能力与物理实体深度融合,使AI从“思考”走向“行动”。
特性 | 传统人工智能 (Traditional AI) | 具身智能 (Embodied Intelligence) |
核心形态 | 无物理实体(如软件、算法) | 有物理实体(如机器人、智能车) |
智能体现
| 依赖数据和算力进行识别、分析和生成 | 通过与物理环境的实时交互来涌现智能
|
交互方式 | 主要通过屏幕、键盘等接口 | 通过多模态传感器和执行器与环境直接互动 |
学习方式 | 依赖大量预训练数据 | 能在环境中试错、探索并自主学习 |
典型例子 | ChatGPT、图像识别系统 | 人形机器人、自动驾驶汽车、智能无人机 |
具身智能的发展并非一蹴而就。其概念最早可追溯至1950年图灵(Alan Turing)的论文《计算机器与智能》。到了20世纪80年代,机器人学家罗德尼·布鲁克斯(Rodney Brooks)提出了“包容式架构”和“行为式机器人”概念,强调智能源于身体与环境的实时交互,而非纯粹的符号推理,这为具身智能奠定了重要的理论基础。
具身智能如何工作。具身智能系统通常包含感知、决策、执行三个核心环节,形成一个连续的“感知-行动”循环。感知 (Perception):智能体通过多种传感器(如视觉摄像头、触觉传感器、激光雷达、麦克风等)获取周围环境的多种信息(多模态感知)。例如,机器人通过“眼睛”(摄像头)识别咖啡杯的位置,用“手”(触觉传感器)感受抓取力度以防打滑。决策 (Decision-making):智能体的“大脑”(通常由人工智能算法或大模型驱动)对感知到的信息进行融合、分析和理解,制定行动计划。例如,理解“将咖啡从厨房端到客厅”的指令,并规划出避开障碍物的路径。执行 (Execution):智能体通过控制器和驱动器(如电机、机械臂、轮子等)将决策转化为物理世界中的实际行动。例如,精准控制机械臂拿起咖啡杯,并平稳移动至目标地点。
主要技术路径。实现具身智能主要有两种技术思路:分层方法 (Layered Approach):将任务拆分为感知、规划和控制等模块,结构清晰,易于调试和模块化迁移,适合稳定性要求高的复杂任务。例如,OpenAI与Figure合作的Figure 01机器人就采用了类似的分层模型。端到端方法 (End-to-End Approach):依赖深度学习技术(如深度强化学习),通过一个神经网络直接从感知输入生成控制输出,更适合动态性强的任务,但对数据量和计算资源的需求更大。Google的RT-2模型是其中的代表。“模拟到现实”(Sim-to-Real)技术是端到端方法中的重要一环,智能体先在虚拟环境中进行大量低成本训练,再将学习成果迁移到现实世界中。
应用场景。具身智能正逐步从实验室走向现实,其应用场景非常广泛:工业制造与物流:在工厂中进行零部件搬运、精密装配、质量检测等。例如,优必选的Walker S人形机器人已能在工厂实训中进行智能搬运和精细化操作。医疗服务:辅助医生进行手术导航定位,或未来在康复训练、老年护理中发挥作用。家庭与服务:餐厅配送机器人、智能扫地机、未来可能进入家庭的陪伴和教育机器人。特种作业与安防:在消防、救援、爆破等高危或极端环境中替代人工作业。例如,四足机器狗可进入火场侦察和运送物资。智能交通:自动驾驶汽车、无人机等,通过与环境交互实现自主导航和任务执行。
发展现状与未来趋势。具身智能已成为全球科技竞争的新高地。2025年,它被首次写入中国的《政府工作报告》,成为国家重点培育的未来产业之一。深圳、上海、北京、广东等地也纷纷出台政策支持其发展。今年7月底上海市人民政府办公厅关于印发《上海市具身智能产业发展实施方案》的通知,主要目标为按照“模型驱动、应用示范、群链协同、开源生态”的总体思路,通过布局重大技术攻关、建设典型应用示范、构建产业特色集群、打造开源优质项目,到2027年,实现具身模型、具身语料等方面核心算法与技术突破不少于20项;建设不少于4个具身智能高质量孵化器,实现百家行业骨干企业集聚、百大创新应用场景落地与百件国际领先产品推广,我市具身智能核心产业规模突破500亿元。建立应用示范标杆。立足行业优势的以物流装配、工业制造、商业零售、医疗康养、家政服务等领域为牵引,开展场景征集与任务揭榜,探索具身智能应用新业态,对产业创新融合示范应用项目,按照核定项目总投资,给予最高20%且不超过1000万元支持。
未来的发展趋势主要集中在:感官更敏锐:提升视觉、触觉、听觉等多模态感知的精度和融合能力。协作更高效:实现多智能体之间的协同工作,以及与人类的自然、安全协作。身体更灵巧:研发更灵活、可靠、仿生的硬件载体,如高性能的“灵巧手”。大脑更聪明:将大型语言模型(LLM)等先进AI技术与机器人控制更深度的结合,提升理解和推理能力。伦理与安全更受重视:随着技术发展,数据隐私、算法公平、责任归属等伦理和社会问题将愈发重要,需要“伦理先行”。
挑战与思考。尽管前景广阔,具身智能的发展仍面临诸多挑战:技术瓶颈:如何在复杂动态环境中实现精确的感知、稳定的控制和高效的决策仍是难题,特别是仿人机器人的运动控制。成本高昂:高性能的传感器、执行器及研发成本使得许多具身智能产品价格昂贵,难以大规模普及。安全性可靠性:如何确保智能体在与人共同工作时绝对安全、行为可控且符合伦理规范,是必须解决的问题。生态系统不完善:行业标准、法律法规、保险服务、维修保养等配套生态仍需完善。具身智能代表了AI从虚拟世界走向物理世界的重要方向,通过赋予AI“身体”和“四肢”,使其能够与我们生活的世界进行直接、主动的交互,从而在更广泛的场景中创造价值。具身智能有望逐步深入各行各业和日常生活,成为推动社会进步的重要力量。
具身智能在发展过程中面临多个技术瓶颈,同时也涌现出许多值得关注的突破方向。下面我将从感知与认知、运动与控制、学习与决策以及硬件与集成等方面,梳理这些瓶颈和可能的突破路径。
技术维度 | 主要技术瓶颈 | 关键突破方向 |
感知与认知
| 多模态感知融合困难
| 发展多模态融合算法、跨模态推理与预期机制、仿生传感器(如类皮肤触觉传感器) |
环境动态适应性差
| 研发鲁棒性算法、“预训练-微调-在线蒸馏”框架以快速适应长尾场景 | |
物理空间理解与自身约束感知不足 | 构建空间-物理约束表征(如S-P Map技术)、具身大模型(如PhysVLM) | |
运动与控制
| 动态平衡与精细操作实现难 | 突破基于人臂运动特性的协调作业轨迹规划技术、非线性实时下肢协同控制技术 |
高能效比驱动与能量管理
| 攻关高能量密度微小电机及驱动技术、轻量化高强度材料、能量回收技术 | |
高动态运动控制
| 采用强化学习与自适应控制技术、全身运动控制策略(如模型预测控制与强化学习结合) | |
学习与决策
| 环境泛化与任务适应能力弱 | 构建具身智能基座大模型、世界模型、持续学习和“人在回路”的混合学习方法 |
安全可靠决策与长尾场景应对 | 引入神经符号系统融合因果推理、形式化验证、安全与伦理标准 | |
高效训练与迁移
| 构建高质量数据集与基准、Sim-to-Real技术、开源仿真平台(如“格物”) | |
硬件与集成 | 核心零部件性能与成本
| 研制高精密微型一体化关节模组、多模态传感器、国产高性能AI芯片 |
系统集成与软硬件协同优化 | 推动软硬件接口模块化和标准化、“端-边-云”算力协同、构建开放生态 |
深入理解瓶颈与突破。表格列出了主要的技术瓶颈和突破方向,以下是一些关键的解读:感知与认知的深化:具身智能需像人类一样多感官协同感知世界。这不仅意味着要融合视觉、听觉、触觉等多种信息,更要理解自身身体的物理限制(如机械臂的活动范围)。突破方向在于开发更先进的多模态融合算法和具身大模型,使机器人能更准确地理解环境与自身的关系,做出更合理的规划。运动与控制的精细化:让机器人像人一样自如运动和灵巧操作是巨大挑战。这涉及动态平衡、精细操作和高能效比。突破依赖于更先进的算法(如强化学习与模型预测控制结合)、更高效的驱动器(如高能量密度电机)和轻量化材料。
学习与决策的智能化:机器人在复杂多变环境中需快速适应并做出安全可靠决策。具身大模型和世界模型是提升其认知和预测能力的关键,持续学习和“人在回路”方法则让它们能不断进步。对于安全关键决策,需结合因果推理和形式化验证等方法确保可靠性。硬件与集成的协同创新:高性能的核心零部件(如传感器、关节模组、AI芯片)是基础。同时,软硬件的协同优化与标准化也至关重要,能降低成本、加速开发。推动发展的关键助力。除了具体技术,以下几点对推动具身智能发展同样重要:仿真平台的重要性:像“格物”这样的开源仿真平台,允许开发者在虚拟环境中低成本、高效率地训练和测试算法,加速技术迭代,是解决Sim-to-Real(从仿真到现实)挑战的重要工具。政策与生态的支持:政府层面的战略规划、研发基金支持、产业联盟构建以及行业标准制定,能为技术创新和产业化应用提供强大动力和保障。
总结与展望。具身智能的技术突破是一个系统工程,需要感知、认知、控制、硬件、算法等多方面的协同演进。目前我们正看到这些领域不断取得进展。虽然完全通用、类人水平的具身智能仍需时日,但在特定垂直领域(如工业分拣、仓储物流、康复医疗等)的规模化应用已初见端倪。未来,随着大模型等AI技术更深地赋能,以及软硬件生态的持续成熟,具身智能有望在更多场景中发挥作用,逐步从“机器替人”走向“人机协奏”。
具身智能在医疗领域的应用正从概念加速走向现实,它们不再是简单的自动化工具,而是逐渐成为能够感知、学习、决策和执行的“智能伙伴”。手术辅助与操作。这类应用主要利用机器人的高精度、高稳定性和疲劳耐受性,辅助或部分替代医生完成精细操作。
应用案例
| 核心功能与技术亮点
| 价值与意义
| 研发/应用机构 |
AI手术机器人平台
| 基于纯视觉解决方案(非额外传感器),整合视觉基础模型、强化学习和视觉伺服控制。能在活体动物实验上自主完成组织牵拉、纱布抓取、血管夹闭等操作。 | 有望成为外科医生的“第三只手”,减轻工作负担,提升手术效率并缩短患者手术时间,代表了手术机器人向高度自主化演进的方向。 | 香港中文大学
|
超声具身智能机器人
| 一条机械臂连接超声设备,可自主完成超声检查全流程,包括探头操控、参数调节、耦合剂放置,并能实时分析影像,生成规范化报告。 | 缓解基层医生不足,解决超声检查标准化、规范化难题,可提供24小时不间断服务,减少患者排队时间。 | 库柏特
|
脊柱创伤一体化骨科手术机器人 | 能在术前形成智能决策、术中精准导航定位。
| 成为骨科医生的得力助手,提升手术精准度。
| 联影智融
|
康复治疗与训练。这类应用重点关注持续、精准的重复性训练动作引导,以及与患者的情感交互。
应用案例 | 核心功能与技术亮点
| 价值与意义 | 研发/应用机构 |
傅利叶“具身智能康复港”
| 以GR-1(导诊、咨询、情感互动)、GR-2(凭借12自由度灵巧手和触觉传感器进行上肢康复与认知训练)人形机器人和ExoMotus M4下肢外骨骼机器人为核心,构建了覆盖导诊咨询、上肢康复、认知康复、下肢康复和远程康复等5个细分场景的一体化方案。 | 应对康复治疗师短缺问题,提升康复训练的效率与趣味性,并能通过量化数据为康复效果评估提供依据,提供情感陪伴。
| 傅利叶智能
|
人形机器人“湘江1号”
| 深度融合医疗健康垂类大模型(DeepSeek),掌握了温和灸、回旋灸、雀啄灸三种不同的艾灸手法,通过精准控温与动作规划实现理疗。
| 可在养老院等场景辅助康复理疗,并能理解老年人的模糊表达,提供情感陪伴,未来目标是将单台成本降至10万元以内以促进推广。 | 湖南超能机器人
|
医院物流与配送。这类应用主要替代人力完成重复性的物资运输工作,提升效率,降低医护人员工作负担。
应用案例 | 核心功能与技术亮点
| 价值与意义
| 研发/应用机构 |
易普森医院物流机器人
| 通过智能感知、多模态交互、AI算法和SLAM技术,实现在医院复杂环境下的自主导航、360度避障、自主乘梯、自主开门,完成药品、标本、手术器械、耗材等物资的自动配送。 | 7x24小时不间断工作,减轻医护人员的琐碎工作负担,优化医院物流管理流程,提升整体运营效率。其智能调度系统能协调多机器人协同工作。 | 易普森
|
诊断与检测辅助。这类应用通过自动化、标准化的执行,辅助医生完成部分诊断流程,提升效率与一致性。
应用案例 | 核心功能与技术亮点 | 价值与意义 | 研发/应用机构 |
超声机器人 | 如前文所述,其具备的自动扫描和影像分析能力,也为医生的诊断提供了有力的标准化数据支持。 | 减少医生操作负担,提供更一致的扫描结果,辅助诊断决策。 | 库柏特
|
展望。具身智能在医疗领域的这些应用案例,展示了其提升医疗服务效率、精度和可及性方面的潜力。它们能帮助缓解医护人员短缺压力、降低人为操作误差、执行重复性或危险任务,并通过量化数据辅助诊疗决策,甚至提供情感关怀。未来的发展可能会围绕以下几方面:技术更融合:与大型语言模型(LLM)、脑机接口(BCI)等前沿技术更深度结合。应用更拓展:从单一任务向多任务协同、全院级智慧化解决方案发展。生态更完善:需要解决技术标准、安全性、伦理规范、成本效益等问题,以推动规模化落地。
具身智能标准化建设是推动这项技术从实验室研究走向规模化产业应用的关键基石。它旨在为各类具身智能系统建立统一的技术语言、性能指标和安全准则,以确保其可靠性、兼容性及健康发展。为何需要标准规范。具身智能深度融合了人工智能与机器人技术,其“身体”(硬件)和“大脑”(算法)的复杂性以及与物理世界交互的不可预测性,使得标准化建设尤为迫切和重要。应对性能与可靠性挑战:具身智能机器人的核心零部件,如减速器、电机、高精度传感器等,其性能与可靠性直接影响整机表现。目前,国内产品在一些高端应用场景中,与国际顶尖水平相比,在产品系列完备性和实际使用环境中的性能匹配度上仍有提升空间。例如,国产减速器可能在实验室指标上达标,但在复杂工况下有时会出现漏油或精度下降等问题。建立统一的性能标准,有助于明确质量门槛,引导产业升级。
打破数据孤岛与实现互联互通:不同厂商的机器人往往采用不同的硬件接口、通信协议和软件架构,导致数据格式千差万别,模型难以复用,形成“数据孤岛”。标准化能够定义统一的数据接口和通信规范,就像为说不同方言的人们提供一门“普通话”,使得数据和模型可以在不同平台间高效流通与共享,降低研发成本。保障安全与明确责任归属:具身智能系统在真实环境中与人类共处,其安全性至关重要。历史上曾发生过机器人因识别错误而导致的安全事故。标准化建设通过制定安全设计规范、测试认证流程,为人机交互安全、机-物交互安全、机-机交互安全设立明确的红线和要求。同时,清晰的标准也有助于在发生意外时进行责任界定。
标准体系的关键维度。一个完整的具身智能标准体系通常涵盖多个层面,从基础部件到整体系统,再到实际应用和安全管理。
维度 | 关注重点 | 示例与作用 |
基础通用标准 | 术语定义、分类分级框架 | 如《人形机器人分类分级应用指南》将机器人按能力划分为L1-L4级,为行业提供统一的描述和比较基准。 |
技术与产品标准 | 核心零部件/整机性能、接口协议、数据规范 | 如“浦江X”平台致力于多模态数据的标准化生产与治理,确保关键部件和整机达到特定性能指标。 |
应用与场景标准
| 特定行业应用的功能、性能、安全要求
| 如《家庭陪伴机器人能力要求与评估规范》针对家庭环境制定标准,推动产品在工业、医疗等场景的合规落地。 |
安全与伦理标准 | 保障系统本体安全、交互安全、应用安全 | 涵盖功能安全、网络安全、数据隐私、人机协作安全距离等,确保技术发展符合伦理规范。 |
当前进展与未来方向。我国在具身智能标准化建设方面已经取得了积极进展。例如,中国信息通信研究院发布了《具身智能标准体系1.0》,提出了“四横三纵”的架构思路。同时,国内首个贯通数据采集、治理、训练、验证全链路的具身智能标准化数据集平台——“浦江X”(穹顶-DOME) 也已发布,旨在打破数据孤岛。此外,全国首批针对人形机器人的具身智能团体标准,如分类分级和应用指南等,也已正式推出。展望未来,具身智能标准化建设将更加注重与国际标准的接轨,积极参与和主导国际标准的制定以提升话语权。标准体系本身也需要伴随技术的快速迭代而持续演进,增强其适应性。同时,确保安全与伦理要求贯穿标准制定的全过程,实现“伦理先行”,将是推动具身智能健康发展的关键。
总而言之标准化建设为具身智能产业的健康发展铺设了轨道。它通过建立统一的技术规范、安全准则和评价体系,有效解决当前面临的性能、兼容性、安全性和数据互通等核心挑战,是推动具身智能从“盆景”式的实验室演示走向“森林”般的规模化产业应用的必由之路。
新质生产力与具身智能是当前推动产业变革与升级的两个核心概念。新质生产力代表以科技创新为主导,实现关键性突破、生产要素创新性配置、产业深度转型升级的高质量生产力形态;而具身智能作为人工智能与物理实体融合的前沿技术,正成为新质生产力在实体经济中落地的重要载体与引擎。下面这张表格可以帮你快速把握两者的核心关系:
关系维度 | 新质生产力的表现 | 具身智能的赋能作用 |
技术架构核心
| 以高科技、高效能、高质量为特征 | 通过“感知-决策-执行”闭环,将AI算法转化为实际生产力 |
生产力革新路径 | 摆脱传统增长路径,符合新发展理念 | 推动制造业从传统流水线转向柔性生产、定制化制造和灯塔工厂等新范式 |
产业组织形态
| 催生新产业、新模式、新动能 | 促成制造产业智能集群,通过平台化协作加速创新要素集聚共享 |
人机协作关系
| 强调创新驱动与人才支撑
| 实现从“人主机辅”到“人机共创”的转变,优化劳动力结构 |
政策与生态支撑
| 依赖国家战略引导、产业链协同与创新生态培育
| 在“人工智能+”行动等政策支持下,依赖“龙头企业牵头、高校院所支撑、产业链上下游协同”的创新联合体 |
具身智能如何具体赋能新质生产力。具身智能对新质生产力的推动,体现在其对传统产业运营模式和全球产业链布局的深刻改变。借助人机协同和智能化改造,制造企业正从传统流水线转向柔性生产、定制化制造和灯塔工厂等新范式,生产效率和资源配置效率显著提升。以工业机器人为代表的具身智能装备加速普及,我国工业机器人密度已远超全球平均水平,标志着制造业进入全面升级的新阶段。这些变化使得制造活动更趋近市场和要素优势地区布局,推动供应链体系向“短链”在地化、区域化模式演进。
产业智能集群:新质生产力的组织创新。具身智能还催生出制造产业智能集群这一新质生产力组织方式。它与传统产业园区相比有显著不同:通过平台化协作机制与开放式技术架构,加速创新要素集聚共享,提升企业间协作效率;打破过去核心技术依赖于单一主体的路径锁定,推动技术创新向多主体、跨领域联合转变;并在全球范围内激发多元创新动能,显著降低中小企业的技术进入门槛。我国布局的国家人工智能创新应用先导区,正是在高强度知识集聚、协同产业生态、弹性政策机制等方面探索人工智能与产业融合的新路径。
政策与生态协同:培育新质生产力的土壤。新质生产力的发展需要良好的政策环境与创新生态。国家战略引领:自2017年《新一代人工智能发展规划》起,中国逐步构建起“1+N”政策框架。2025年政府工作报告首次将“具身智能”列为未来产业重点发展方向,标志着政策重心向实体化智能的倾斜。地方产业实践:以北京、深圳为代表的地方政府率先响应,发布具身智能行动计划。广东凭借其完整的产业链,在机器人产业方面“家底”雄厚,2024年全省工业机器人产量占全国40%以上。深圳则通过发布应用场景清单,推动技术在数字文化、公共服务等73个场景中的应用。技术标准与伦理框架:发展具身智能不仅需要技术突破,还需要伦理先行,以确保其发展的安全性、公平性和可持续性,这包括在技术设计、数据隐私、算法公平、人机协作、责任归属等方面进行全面设计。
新质生产力与具身智能的结合,标志着生产力发展进入一个以智能化、融合化、人本化为特征的新阶段。具身智能作为使能技术,将前沿算法转化为实体世界的精准行动,直接驱动产业模式变革和效率提升;而新质生产力的内涵则为具身智能的发展指明了方向,即追求创新驱动、高质量增长和人机和谐。未来,随着技术不断突破、应用场景持续拓展以及产业生态日益完善,二者的深度融合将继续为经济社会高质量发展注入强劲动能。