拟人智能的困惑 / The Puzzlement of Anthropomorphic Intelligence

Article language 文章语言 記事の言語

臣之所好者,道也,进乎技矣。

“What I care about is the Way, which goes beyond mere skill.”

—— 庖丁 / Cook Ding


中文 | Embodied AI作为一门仍在形成中的科学,尚未拥有经过充分验证的普遍性信念。年后准备几篇以humanlikeness为卖点的投稿时,我对这一概念的认识论定位几度摇摆。

前文艺复兴式的元认知,会把人类以自身为认知锚点视为理所当然。然而作为当代人,如果从科学主义的第一性原理出发,humanlikeness有两种可能的解释:积极的解释是,它是一个好的代理目标,因为其背后的真实目标尚难被清楚表述;消极的解释是,它只是对本质与目标缺乏洞察时产生的错误直觉。眼下我们还无法判断哪一种更贴切。

从历史上看,一种AI原生的解释方式会从计算机视觉的human-centralism说起(某种意义上也可说是MMLAB式传统)。浅白地说,CV总是围绕人类在乎的感知客体展开:他人的面孔、行人的配饰、天气、远处的动物、危险的征兆。但这种AI原生叙述无法解释机器人学的机械设计传统。那条线索更久远:达芬奇式的美术与解剖设计,蒸汽时代带有齿轮响声的人偶故事,直到世纪初纯粹基于控制工程的humanoids。这些显然来自另一种性质的承诺。

因此我觉得可以提出一个有论辩价值的观念:具身AI中的人类中心主义,是一种非具体的认知先验,一种人们往往懒得认真检验的东西。我们假设人类的操作策略在人类环境中对通用物体交互是近优的。我们假设人手的形态编码了对学习有用的归纳偏置。我们假设从人类操作者收集的示范,可以有意义地迁移到非人类运动学上。这些都是经验性声明,却几乎没有被严格验证过。

当这种人类中心先验缺乏有力的engineering proof时,它就会受到engineering practice的挑战。有时候,让人去适应机器人的特点,本身就是一种经济学意义上的理性决策。当然,我想迂回地讨论这个问题,而不是基于当前observations给出武断结论。我预料这会牵出一些交错的话题:欧陆哲学、现象、心灵、身体、多指手。

EN | As a science still in formation, embodied AI does not yet possess universally validated beliefs. While preparing several submissions after the New Year with humanlikeness as their selling point, I found the epistemic status of the concept shifting beneath me.

Pre-Renaissance metacognition would have taken it for granted that the human cognitive anchor is the self. But as moderns, if we reason from the first principles of scientism, humanlikeness admits two interpretations. The positive interpretation: it is a good proxy objective because the true objective behind it cannot yet be clearly articulated. The negative interpretation: it is a mistaken intuition produced by insufficient insight into essence and purpose. For now, we cannot tell which interpretation is more apt.

Historically, an AI-native account would begin with human-centralism in computer vision, in a sense an MMLAB-style tradition. Put simply, CV has long been about perceptual objects humans care about: other people’s faces, pedestrian accessories, weather, distant animals, signs of danger. But that AI-native account cannot explain the mechanical-design tradition in robotics. That lineage reaches further back: Da Vinci-style artistic and anatomical design, steam-age stories of gear-clicking automata, and the purely control-engineering-based humanoids of the early 2000s. These clearly arise from a commitment of a different kind.

So I think one can advance a debatable but defensible claim: anthropocentrism in embodied AI is a non-specific cognitive prior, something people rarely bother to test carefully. We assume human manipulation strategies are near-optimal for general-purpose object interaction in human environments. We assume the morphology of the human hand encodes useful inductive biases for learning. We assume demonstrations collected from human operators transfer meaningfully to non-human kinematics. These are all empirical claims, and almost none have been rigorously verified.

When that anthropocentric prior lacks compelling engineering proof, it is challenged by engineering practice. Sometimes it is simply an economically rational decision to adapt humans to robot characteristics. I want to approach this question indirectly rather than deliver a blunt verdict from current observations. It brings together several topics: continental philosophy, phenomena, mind, body, multi-fingered hands, and Zhuangzi.

日本語 | Embodied AIは形成途上の科学として、十分に検証された普遍的信念をまだ持っていない。年明けにhumanlikenessを売りにした数本の投稿を準備する中で、この概念の認識論的な位置づけは何度も揺らいだ。

ルネサンス以前のメタ認知は、人間の認知アンカーが自己であることを自明視しただろう。しかし現代人として、科学主義の第一原理から考えるなら、humanlikenessには二つの解釈がありうる。積極的な解釈は、それが良い代理目標だというものだ。背後の真の目標をまだ明確に言い表せないからである。消極的な解釈は、それが本質と目的への洞察不足から生じる誤った直感だというものだ。現時点では、どちらがより適切かまだ判断できない。

歴史的に見れば、AI原生の説明はコンピュータビジョンにおけるhuman-centralism、ある意味ではMMLAB的伝統から始まる。平たく言えば、CVは長らく人間が気にかける知覚対象を扱ってきた。他者の顔、歩行者の装身具、天気、遠くの動物、危険の兆候。しかし、このAI原生の説明ではロボット工学における機械設計の伝統を説明できない。その系譜はさらに古い。ダ・ヴィンチ的な美術と解剖の設計、蒸気時代の歯車の音を響かせる自動人形の物語、そして二〇〇〇年代初頭の純粋に制御工学に基づくhumanoids。これらは明らかに別種のコミットメントから生じている。

したがって、私は一つの論争的だが擁護可能な見方を提出できると思う。具身AIにおける人間中心主義は、非具体的な認知プライアであり、人々がめったに丁寧に検証しないものだ。人間の操作戦略は、人間環境における汎用的な物体操作に対して近似最適であるという仮定。人間の手の形態は、学習に有用な帰納バイアスをエンコードしているという仮定。人間オペレーターから得たデモンストレーションは、非人間的運動学にも意味ある形で転移するという仮定。いずれも経験的主張であり、厳密に検証されたものはほとんどない。

この人間中心プライアが説得的なengineering proofを欠くとき、engineering practiceから挑戦を受ける。人間をロボットの特性に適応させること自体が、経済合理的な判断である場合もある。もちろん、私は現時点のobservationsから武断的な結論を下したいのではなく、むしろ迂回的にこの問題を論じたい。そこには、大陸哲学、現象、心、身体、多指ハンド、そして荘周といった話題が関わってくるだろう。


身体图式 / The Body Schema

中文 | 讨论这种认知先验,一个自然入口是梅洛-庞蒂的身体图式schéma corporel)。这个概念的精妙之处,在于它拒绝身心二分:身体不是心灵操控的工具,而是认知本身得以展开的场所。伸手拿杯子时不会做轨迹规划,身体已经知道。梅洛-庞蒂称之为“沉默的区域”(régions de silence),意指那些退出觉察的运动能力,恰恰因为它们过于可靠。

人类中心的灵巧操作,大体依循这样的信息流:human demo -> map to robot (retargeting) -> distillation (policy learning)。用身体现象学的话语重述,这几乎就是一个身体图式迁移实验。第一步建立在示范者数十年的motor habit之上。第二步尝试跨形态的翻译——或许物理形态学的翻译,也像语言翻译一样。顺着这个flow看去,策略学习也像某种“生长”。其中最深的问题在于:身体图式总由特定身体构成;换句话说,智能科学无法遵从一种本体虚无主义。

那么,我们在多大程度上可以说,humanoids with dexterous hands也具备某种与人类相似的身体图式?我会把这列为具身智能作为科学的一项本质追问,而不是工程和生意那一侧的问题。

EN | A natural entry point for discussing this prior is Merleau-Ponty’s body schema (schéma corporel). The elegance of the concept lies in its refusal of the mind-body split: the body is not an instrument manipulated by the mind, but the site where cognition itself unfolds. When you reach for a glass, you do not plan a trajectory; the body already knows. Merleau-Ponty calls these “regions of silence” (régions de silence): motor capacities that withdraw from awareness precisely because they are so reliable.

Human-centered dexterous manipulation broadly follows this information flow: human demo → map to robot (retargeting) → distillation (policy learning). Restated in the language of bodily phenomenology, this is almost a body-schema transfer experiment. Step one rests on the demonstrator’s decades of motor habit. Step two attempts a cross-morphology translation, and perhaps physical morphology translates the way language does. From this flow, policy learning also begins to look like a kind of “growth.” The deepest problem is that a body schema is always constituted by a specific body; put differently, the science of intelligence cannot subscribe to a kind of ontological nihilism.

So to what extent can we say that humanoids with dexterous hands also possess some body schema akin to ours? I would count that among the essential questions of embodied intelligence as science, not the questions that belong to engineering or business.

日本語 | このプライアを議論する自然な入口は、メルロ=ポンティの身体図式schéma corporel)である。この概念の精妙さは、心身二分を拒む点にある。身体は心が操る道具ではなく、認知そのものが展開される場である。コップに手を伸ばすとき、私たちは軌道計画をしない――身体がすでに知っているからだ。メルロ=ポンティはこれを「沈黙の領域」(régions de silence)と呼ぶ。あまりに信頼できるがゆえに意識から退いた運動能力のことである。

人間中心の巧緻操作は、おおむねこの情報フローに従う:human demo -> map to robot (retargeting) -> distillation (policy learning)。身体現象学の語彙で言い換えれば、これはほとんど身体図式の転移実験である。第一段階は、示範者の数十年にわたるmotor habitの上に成り立つ。第二段階は、形態を越えた翻訳を試みる段階であり、物理的形態の翻訳も言語翻訳に似ているのかもしれない。このflowから見れば、方策学習もまた一種の「成長」に見えてくる。最も根本的な問題は、身体図式は常に特定の身体によって構成されるということだ。言い換えれば、知能の科学は一種の存在論的ニヒリズムには従えない。

では、humanoids with dexterous handsもまた、人間に似た何らかの身体図式を持つと、どこまで言えるのか。私はこれを、具身知能を科学として考えるときの本質的な問いに数えたい。工学やビジネスの側に属する問いではない。


什么是AI的具身认知? / What Is Embodied Cognition for AI?

中文 | 我们几乎可以说,所有 AI 都已经具有某种具身性:它们运行在具体的硬件、存储和计算流程里。然而,AI 也很容易把自己理解成“像人一样”的代理,因为原始语料几乎都来自人类的第一视角。若说 AI 主要是在重组语言数据,那么它构造一个连贯“自我”的最直接方式,往往就是把自己想象成一个类人代理。

从这个角度看,基于synthetic data / traditional kinematic / dynamic simulation的数据生成,莫非也是一种trap,类似乔姆斯基生成语法的trap?做BimanGrasp时,我一直在想这个困惑。从原则上说,我们完全可以构造一种几乎不依赖拟人先验、只依赖大规模搜索与物理验证的数据生成程序;如果这条路走得通,拟人循环就未必是唯一入口。

如果暂时搁置拟人先验,我们其实有一个相当传统的范式(或者换个更时髦的说法):用基于物理heuristic的优化策略,加上基于数理方程/仿真器的verification,来进行数据生成。它的物理直觉朴素得像牛顿力学——引力与斥力。图形学里的SDF(signed distance field)正好模拟了接触力学的两面:

吸引——指尖表面靠近物体表面,最小化接触点到物体表面的距离:

Econtact=i=1NcSDFobj(pi)2E_{\text{contact}} = \sum_{i=1}^{N_c} \text{SDF}_{\text{obj}}(\mathbf{p}_i)^2

排斥——惩罚穿透(穿模),即SDF取负值的情形:

Epenetration=i=1Nsmax(0,  SDFobj(pi))2E_{\text{penetration}} = \sum_{i=1}^{N_s} \max\bigl(0,\; -\text{SDF}_{\text{obj}}(\mathbf{p}_i)\bigr)^2

再加上embodied agent自身的物理约束——关节限位、自穿透等惩罚:

Ejoint=j=1Nq[max(0,  qjqˉj)2+max(0,  qjqj)2]E_{\text{joint}} = \sum_{j=1}^{N_q} \Bigl[\max(0,\; q_j - \bar{q}_j)^2 + \max(0,\; \underline{q}_j - q_j)^2\Bigr]

Eself=kmax(0,  SDFhand(pk))2E_{\text{self}} = \sum_{k} \max\bigl(0,\; -\text{SDF}_{\text{hand}}(\mathbf{p}_k)\bigr)^2

对总能量 E=λ1Econtact+λ2Epenetration+λ3Ejoint+λ4EselfE = \lambda_1 E_{\text{contact}} + \lambda_2 E_{\text{penetration}} + \lambda_3 E_{\text{joint}} + \lambda_4 E_{\text{self}} 做梯度下降,就是grasp synthesis的核心loop。对BimanGrasp来说,还需要额外的inter-hand penetration term来处理双手之间的排斥。它几乎是纯粹的计算几何,Newtonian。这个想法当然不是BimanGrasp(双手抓取)的原创。单手抓取已有DexGraspNet珠玉在前,更早还能追溯到Hongkai Dai和Tedrake在2015年的IJRR。其后,思哲又把单双手抓取的Sim2Real统一进一个框架。我们欣喜地看到,human bias的minimalism也能产生很强的dexterous hand动作,虽然,not quite scalable yet.

EN | One can argue that all AI already has a kind of embodiment: it runs on concrete hardware, storage, and compute. Yet AI also tends to model itself as a human-like agent, because its original corpus is drawn almost entirely from the human first-person perspective. If AI mainly recombines linguistic data, then the most direct way for it to construct a coherent self is to imagine itself in anthropomorphic terms.

From this angle, could data generation based on synthetic data / traditional kinematic / dynamic simulation also be a trap, analogous to the trap of Chomsky’s generative grammar? I kept turning this over while working on BimanGrasp. In principle, we could construct a data-generation procedure that depends almost not at all on anthropomorphic priors, relying instead on large-scale search and physical verification. If that route works, then the anthropomorphic circle is not the only entrance.

If we bracket the anthropomorphic prior, what remains is a fairly traditional paradigm, or in a more fashionable phrasing, data generation through physics-heuristic-based optimization plus mathematical-equation/simulator-based verification. The physical intuition is as plain as Newtonian mechanics: attraction and repulsion. The signed distance field (SDF) from computer graphics captures both sides of contact mechanics:

Attraction — fingertip surfaces approaching the object surface, minimizing distance from contact points to the object:

Econtact=i=1NcSDFobj(pi)2E_{\text{contact}} = \sum_{i=1}^{N_c} \text{SDF}_{\text{obj}}(\mathbf{p}_i)^2

Repulsion — penalizing penetration (interpenetration), i.e. when SDF goes negative:

Epenetration=i=1Nsmax(0,  SDFobj(pi))2E_{\text{penetration}} = \sum_{i=1}^{N_s} \max\bigl(0,\; -\text{SDF}_{\text{obj}}(\mathbf{p}_i)\bigr)^2

Then come the embodied agent’s own physical constraints: joint limits, self-penetration penalties:

Ejoint=j=1Nq[max(0,  qjqˉj)2+max(0,  qjqj)2]E_{\text{joint}} = \sum_{j=1}^{N_q} \Bigl[\max(0,\; q_j - \bar{q}_j)^2 + \max(0,\; \underline{q}_j - q_j)^2\Bigr]

Eself=kmax(0,  SDFhand(pk))2E_{\text{self}} = \sum_{k} \max\bigl(0,\; -\text{SDF}_{\text{hand}}(\mathbf{p}_k)\bigr)^2

Gradient descent on the total energy E=λ1Econtact+λ2Epenetration+λ3Ejoint+λ4EselfE = \lambda_1 E_{\text{contact}} + \lambda_2 E_{\text{penetration}} + \lambda_3 E_{\text{joint}} + \lambda_4 E_{\text{self}} is the core loop of grasp synthesis. For BimanGrasp, an additional inter-hand penetration term handles repulsion between the two hands. This is almost pure computational geometry, Newtonian in spirit.

The idea is of course not original to BimanGrasp (bimanual grasping). For single-hand grasping, DexGraspNet set the precedent, and one can trace the line back further to Hongkai Dai and Tedrake’s 2015 IJRR paper. Later, Sizhe unified single- and bimanual-grasping Sim2Real in one framework. It is encouraging to see that a minimalism of human bias can already yield strong dexterous-hand behavior, though not quite scalable yet.

日本語 | すべてのAIはすでにある種の具身性を備えていると言える。実際には、具体的なハードウェア、記憶装置、計算資源の上で動いているからである。その一方で、AIは自分を人間に近いエージェントとして理解しやすい。原初のコーパスがほとんどすべて人間の一人称視点に由来するからだ。AIが主に言語データを組み替えているのだとすれば、まとまった自己像を作る最も直接的な方法は、自らを人間的なエージェントとして想定することになる。

この観点から見ると、synthetic data / traditional kinematic / dynamic simulationに基づくデータ生成もまた、チョムスキーの生成文法のtrapに似たtrapなのだろうか。BimanGraspに取り組みながら、私はこの困惑を考え続けていた。原則的には、擬人的なプライアにほとんど依存せず、大規模探索と物理的verificationだけに依拠するデータ生成手続きを構成できるはずだ。もしそのルートが成立するなら、擬人循環は唯一の入口ではない。

擬人プライアをいったん括弧に入れるなら、残るのはかなり伝統的なパラダイムである。あるいは、少し流行りの言い方をすれば、物理heuristicに基づく最適化と、数理方程式/シミュレータに基づくverificationによるデータ生成だ。その物理的直感はニュートン力学のように素朴で、引力と斥力に尽きる。コンピュータグラフィクスのSDF(signed distance field)は、接触力学の両面をうまく表現する:

引力――指先表面が物体表面に接近し、接触点から物体表面への距離を最小化する:

Econtact=i=1NcSDFobj(pi)2E_{\text{contact}} = \sum_{i=1}^{N_c} \text{SDF}_{\text{obj}}(\mathbf{p}_i)^2

斥力――貫通(めり込み)を罰する。SDFが負になる場合:

Epenetration=i=1Nsmax(0,  SDFobj(pi))2E_{\text{penetration}} = \sum_{i=1}^{N_s} \max\bigl(0,\; -\text{SDF}_{\text{obj}}(\mathbf{p}_i)\bigr)^2

さらにembodied agent自身の物理的制約――関節リミット、自己貫通などのペナルティ:

Ejoint=j=1Nq[max(0,  qjqˉj)2+max(0,  qjqj)2]E_{\text{joint}} = \sum_{j=1}^{N_q} \Bigl[\max(0,\; q_j - \bar{q}_j)^2 + \max(0,\; \underline{q}_j - q_j)^2\Bigr]

Eself=kmax(0,  SDFhand(pk))2E_{\text{self}} = \sum_{k} \max\bigl(0,\; -\text{SDF}_{\text{hand}}(\mathbf{p}_k)\bigr)^2

総エネルギー E=λ1Econtact+λ2Epenetration+λ3Ejoint+λ4EselfE = \lambda_1 E_{\text{contact}} + \lambda_2 E_{\text{penetration}} + \lambda_3 E_{\text{joint}} + \lambda_4 E_{\text{self}} に対する勾配降下が、grasp synthesisの核となるループである。BimanGraspでは、双手間の斥力を扱うinter-hand penetration termも追加される。これはほとんど純粋な計算幾何であり、精神としてはきわめてNewtonianである。

もちろん、この発想はBimanGrasp(双手把持)の独創ではない。単手把持にはDexGraspNetという先例があり、さらに遡ればHongkai DaiとTedrakeの2015年IJRRに至る。その後、思哲が単手・双手把持のSim2Realを一つのフレームワークに統一した。human biasのminimalismでも優れたdexterous handの挙動を得られるのは励みになるが、still not quite scalable yet.


数据的来处 / Where the Data Comes From

中文 | 从LLM的范式来看,也就是从人类语料中学习,我依然相信:拟人循环、师法人类,是scalable Embodied AI的一条归路。机器人继承任务结构,并在人类数据打开的吸引子内部发现自己的motor solution。这个思路,正是我最近工作试图开辟的通路之一(它应该会在不久后问世)。一个难以回避的问题是:非拟人先验是否可能更优?如果把一千万小时的章鱼操作数据交给soft robot,会发生什么?PI和Sunday Robotics的非人形成功案例,某种程度上就是这个实验的局部版本。我们还没有答案,甚至几乎还没有真正开始发问。等到拟人与非拟人的智能数据最终合流,Embodied AI也许才会发现新的scaling law;那正是我们的努力方向。

EN | From the perspective of the LLM paradigm, that is, learning from human corpora, I still believe that the anthropomorphic circle, learning from humans, is one destination for scalable Embodied AI. The robot inherits task structure and discovers its own motor solution inside the attractor opened up by human data. This is one path my recent work is trying to carve out, and it should surface before long. A hard question remains: could a non-anthropomorphic prior be better? What would happen if one gave a soft robot ten million hours of octopus manipulation data? The non-humanoid success stories from PI and Sunday Robotics are, in a sense, partial versions of that experiment. We do not yet have answers; indeed, we have scarcely begun to ask in earnest. When anthropomorphic and non-anthropomorphic intelligence data finally converge, Embodied AI may discover a new scaling law. That is the direction we are working toward.

日本語 | LLMのパラダイム、つまり人間のコーパスから学ぶという観点から見ても、私はなお信じている。擬人循環、人間に師事することは、scalable Embodied AIが到達しうる一つの帰路だと。ロボットはタスク構造を継承し、人間データが開いたアトラクタの内部で独自のmotor solutionを発見する。この筋道こそ、私の最近の研究が切り開こうとしている通路の一つであり、遠からず形になるはずだ。とはいえ、避けて通れない問いがある。非擬人プライアの方が優れている可能性はないのか。soft robotに一千万時間のタコの操作データを与えたら何が起こるのか。PIやSunday Roboticsの非人型の成功事例は、ある意味でこの実験の部分版を走らせている。私たちはまだ答えを持たず、そもそも本気で問い始めたばかりですらない。やがて擬人的データと非擬人的データが合流するとき、Embodied AIは新しいscaling lawを見いだすかもしれない。それが私たちの目指す方向である。


庖丁 / Cook Ding

中文 | 始臣之解牛之时,所见无非牛者。三年之后,未尝见全牛也。方今之时,臣以神遇而不以目视。扩散策略是无厚的刀刃。不枚举,不分解。练习把它塑造成能直接找到间隙的东西。技进乎道,或者说技艺超越其起始形式。

EN | When I first began, all I could see was the ox. After three years, I no longer saw the whole ox. Now I go by spirit and do not look with my eyes. A diffusion policy is a blade with no thickness. It does not enumerate; it does not decompose. Practice shapes it until it can find the gaps directly. 技进乎道 — skill exceeds its initial form.

日本語 | 始め臣の牛を解くや、見る所牛に非ざるは無し。三年の後、未だ嘗て全牛を見ず。方今の時、臣は神を以て遇い目を以て視ず。 拡散方策は厚みのない刃である。列挙しない。分解しない。練習がそれを形作り、隙間を直接見つけられるようにする。技は道に進む――技芸はその出発時の形式を超えていく。


蝶梦 / The Butterfly

中文 | 没有干净的结论,具身智能在这两年的演进是在师法人类和通过物理验证过滤掉physical error的循环。这个循环是有效的,而非正确的:人类先验之所以管用,是因为它把搜索空间约束到知识密集的区域,而不是因为人类形态本身最优。从见全牛到以神遇,这段历程不只是算法进步的叙事。它也是这个领域在不自觉间抵达了现象学半个世纪来反复论证的命题:运动智能是通过practice构成的bodily knowledge。我们在为机器建造身体图式,以自己的身体图式为种子。

EN | There is no clean conclusion here, and there may not need to be one. We are inside the anthropomorphic circle: BimanGrasp copies human bimanual strategies, SynPolDex copies human cognitive decomposition, and my own work happens to be a double exhibit. The circle is effective rather than correct: human priors work because they constrain the search space to knowledge-dense regions, not because human morphology is itself optimal. From seeing the whole ox to going by spirit, this trajectory is not merely a story of algorithmic progress. It is also a field arriving, without quite intending to, at a claim phenomenology has been making for half a century: motor intelligence is bodily knowledge constituted through practice. We are building body schemas for machines, seeded with our own. What emerges is neither human nor non-human; it takes shape in the gap between our demonstrations and their embodiment.

日本語 | きれいな結論はないし、おそらく必要でもない。私たちは擬人循環のただ中にいる。BimanGraspは人間の双手戦略を複製し、SynPolDexは人間の認知分解を複製し、私自身の仕事はちょうど二重のexhibitになっている。この循環は有効なのであって、正しいわけではない。人間プライアが機能するのは、探索空間を知識密度の高い領域に制約するからであり、人間の形態それ自体が最適だからではない。全牛を見ることから神で遇うことへ――この道程は、単なるアルゴリズム進歩の物語ではない。それはまた、一つの分野が無自覚のうちに、現象学が半世紀にわたり論じてきた命題へ到達する物語でもある。すなわち、運動知能とはpracticeを通じて構成されるbodily knowledgeであるという命題だ。私たちは機械のために身体図式を構築している。自らの身体図式を種子として。そこから出現するものは人間でも非人間でもなく、私たちのデモンストレーションと機械のembodimentのあいだの間隙で形をなす。


References

  1. Merleau-Ponty, M. (1945/2012). Phenomenology of Perception. Trans. D. Landes. Routledge.
  2. Dai, H., Majumdar, A. & Tedrake, R. (2018). “Synthesis and Optimization of Force Closure Grasps via Sequential Semidefinite Programming.” Springer Proceedings in Advanced Robotics (ISRR 2015), Vol. 2, pp. 285–305. DOI: 10.1007/978-3-319-51532-8_18.
  3. Wang, R., Zhang, J., Chen, J., Xu, Y., Li, P., Liu, T. & Wang, H. (2023). “DexGraspNet: A Large-Scale Robotic Dexterous Grasp Dataset for General Objects Based on Simulation.” ICRA 2023. arXiv: 2210.02697.
  4. Xu, Y., Wan, W., Zhang, J., et al. (2023). “UniDexGrasp: Universal Robotic Dexterous Grasping via Learning Diverse Proposal Generation and Goal-Conditioned Policy.” CVPR 2023, pp. 4737–4746. arXiv: 2303.00938.
  5. Wan, W., Geng, H., Liu, Y., et al. (2023). “从.” ICCV 2023. arXiv: 2304.00464.
  6. Zhang, J., Liu, H., Li, D., et al. (2024). “DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes.” CoRL 2024. arXiv: 2410.23004.
  7. Chi, C., Xu, Z., Feng, S., Cousineau, E., Du, Y., Burchfiel, B., Tedrake, R. & Song, S. (2023). “Diffusion Policy: Visuomotor Policy Learning via Action Diffusion.” RSS 2023; extended version in IJRR, 2024. arXiv: 2303.04137.
  8. Newen, A., De Bruin, L. & Gallagher, S. (Eds.) (2018). The Oxford Handbook of 4E Cognition. OUP.
  9. Dreyfus, H.L. (2002). “Intelligence without Representation.” Phenomenology and the Cognitive Sciences, 1(4), 367–383.
  10. Shao, Y. & Xiao, C. (2024). “Bimanual Grasp Synthesis for Dexterous Robot Hands.” IEEE Robotics and Automation Letters, 9(12), 11377–11384. DOI: 10.1109/LRA.2024.3490393. Presented at ICRA 2025.
  11. Shao, Y., Ding, Y. & Xiao, C. (2025). “SynPolDex: Synergizing Fingers via Bi-Level Policy Learning.” IEEE-RAS International Conference on Humanoid Robots (Humanoids), Seoul.
End
Travelogue游记旅行記
Lake湖畔