Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

논문 정보

  • Date: 2025-06-10
  • Reviewer: 전민진
  • Property: Robotics

Abstract

  • Generalizable bimaual policy를 만드는 것은 여러 challenge가 존재

    • large action space : 같은 task여도 한 팔로 할 때 보다 양팔로 할 때 더 다양하게 수행할 수 있음

    • the need for coordinated arm movements : 양팔의 task를 조정, 충돌을 피하도록 action이 구성되어야 함

  • 최근에 pretrained VLA를 기반으로 general bimanual policy를 만드는 연구들이 제안되어 왔으나 효과적이진 않음

    • bimanual data가 희소하고, 한 팔과는 근본적인 차이가 존재
  • text-to-video model과 light diffusion policy로 구성된 프레임워크를 구축, 각각의 모델을 FT해서 사용하는 방법론을 제안

    • mitigate ambiguity of language in single-stage text-to-video prediction : text-to-video prediction시 중간에 flow video를 생성, 해당 영상을 기반으로 로봇 영상을 생성하도록 하여 언어의 모호성을 줄임

    • reduce the robot-data requirement : text-to-video prediction의 경우 어느정도 pretrain되어있기 때문에 적은 bimanual dataset으로도 충분히 fitting가능

Introduction

  • bimanual manipulation은 embodied agent가 양손이 모두 필요한 복잡한 task를 수행하기 위해서 중요한 분야

  • single-arm manupulation과 달리, bimanual task의 경우 human-like coordination이 필요

    • 양팔 움직임에 대한 action space가 상당히 커짐

    • 양팔이 충돌 되지 않고, 전체 task에 맞게 각 팔의 역할이 적절히 분배되어야 함

  • 이전 bimanual policy는 다음과 같은 방법으로 학습

    • simulation을 사용해서 학습

    • small scale real-world data를 활용해 FT

    • human-objective primitives

    • RL with policy tranfer to learn a bimanual policy

  • 하지만 이전 방법론은 다음과 같은 한계가 존재

    • high-quality bimanual data가 희소해, generalization capabilities가 제한적

    • sim-to-real gap 존재 + (민진 경험) simulator속도가 개느림

  • VLA을 기반으로 한 방법론은 일반화가 가능하지만..

    • cross-embodied data를 섞어서 하나의 모델을 학습 ⇒ RDT, OpenVLA등 대부분의 VLA모델

    • unified action space를 정의, 한팔, 양팔 다 같이 pretraining ⇒ RDT

    • latent action space 사용, shared codebook 형태 ⇒ GROOT N1 & GO-1

⇒ unified action space로 표현하기 때문에, scratch부터 학습 필요

⇒ bimnaual의 multi-modality를 고려했을 때 data coverage가 낮음

  • 본 논문의 저자들은 heterogenous action을 직접적으로 다루지 않고, foundation model을 써서 bimanual policy를 구축해보고자 함

    • 이전에 영상을 통해서 trajectory를 uniformly하게 표현할 수 있다는 연구 결과가 존재

⇒ 자연어 기반 영상 처리 framework로 bimanual foundation모델을 가능하게 해보자!

(기존 text-to-video모델은 instruction following, generation 능력이 훌륭하다고 함 + motion semantic을 포착할 수 있고, 내재적으로 temporal dependency도 포착 가능)

  • 본 논문에서는 CogRobot를 소개, 기존 SOTA T2V model CogVideoX를 활용해서 bimanual policy를 구축

    • T2V모델에 초기 이미지와 task instruction을 넣어서 로봇 움직임에 대한 영상을 생성, 해당 영상의 프레임 goal state로 주고 diffusion policy로 구체적인 action space를 생성하는 구조

    • CogVideoX를 작은 bimanual dataset에 바로 FT할 경우 suboptimal한 결과가 나올 수 있음

⇒ 이를 위해서 중간에 optical flow를 생성, 이를 기반으로 최종 영상을 생성하도록 하는 구조를 사용

- text-to-flow : kinematic behavior과 로봇과 물체 사이의 interaction에 집중하여 optical flow를 생성

- flow-to-video : flow video,  instruction를 기반으로 detailed video를 생성

⇒ language instruction에서의 모호함을 줄이고(?), FT에 필요한 데이터의 양을 효과적으로 줄임

  • 본 논문의 contribution은 다음과 같음

    • T2V model을 활용한 bimanual foundation policy를 학습하는 프레임워크를 제안

    • T2V시, optical flow를 concise video representation으로 활용하여 적은 데이터로 FT이 가능한 two-stage paradigm 소개

    • high-quality bimanual manipulation dataset을 구축, simulation과 real robot에서 우리 방법론을 평가할 수 있는 dual-arm platorm을 구축

Preliminaries

  • 본 논문에서는 7 DoF realman robotic arm과 external camera를 사용해 dual-arm system을 구축
  • bimanual manipulation task T를 goal-conditined Partially Observable Markoc Decision Process(POMDP)로 formulate
  • VR device를 통해서 expert data를 수집 (Open-Television을 활용)

  • 수집된 데이터셋은 episodic data를 포함

    • video v, action sequence a, lanague description l

Proposed Methods

  • CogRobot에서, instruction-conditioned bimanual policy의 학습을 두 가지 스텝으로 분해

    • future obsercation trajectories를 예측 : o{t+1:t+N}=o{t+1},…,o_{t+N}

      • current observation o_t를 기반으로 specified goal l을 달성하기 위한 로봇 움직임 영상
    • predicted observation sequence(o{t+1:t+N}=o{t+1},…,o_{t+N})를 기반으로 executable low-level action을 생성

  • 최근 T2V model은 고품질의 realistic video를 생성하는 능력이 아주 굿 ⇒ 하지만 바로 bimanual에 FT하기엔 한계가 존재

    • dual-arm system은 coordination이 고려되어야 함

    • 데이터가 너무 적음 (부정확한 영상 생성 확률이 높음)

⇒ T2f, f2V로 나눠서 FT

  • T2f: pixel-level motion encode, future optical flow 예측

  • f2V : future flow로 video생성

  • 양팔 학습 데이터로는 RDT, ROBOMIND사용

Text-to-Flow Generation

  • vanilla CogVideoX로 로봇팔 초기 이미지 넣고 생성해달라고 하면 사람 손을 생성함

    • 초기 이미지보다 자연어 prompt에 더 집중하는 경향 존재
  • 본 논문에서 CogVideoX 2B, 5B를 단순하게 SFT하는 버전 혹은 2 stage(T2f, f2V)로 나눠서 학습하는 버전 두 가지 모두 실험

  • vanilla 모델을 그대로 쓰거나 단순 SFT만 할 경우엔 다음과 같은 문제 발생

    • physical hallucination : 로봇 팔을 사람 손으로 바꿔버림

    • task confusion : long-horizon task일 때(A-B-C), 다음 task가 B인지 C인지 헷갈려 함

    • vague instruction : 현실적으로 로봇팔이 작동할 수 없는 agressive traejctory를 생성(precision부족)

  • 이러한 문제를 해결하기 위해서 optical flow를 활용하는 방법론을 제안

    • RGB observation pair가 있을 때, 그 둘의 optical flow를 pixel단위의 displacement field로 계산
  • 즉, f는 각 픽셀별로 (u,v) 2차원의 벡터로 표현됨

  • 보통 로봇에서 두 obsercation의 차이는 robot arm의 움직임에서 기인하기 때문에, 해당 정보를 활용하면 kinematics, interaction with arm and object등에 대해 모델링이 가능

  • 하지만 2-optical flow와 3-channel RGB image사이의 modality차이 때문에, t2v모델로 raw optical flow를 바로 예측하게 학습하는건 어려움

    • 이전 논문에서는 추가적인 flow VAE를 scatch부터 학습하는 방법론이 필요했지만, 현재 세팅에서는 데이터 자체가 적기 때문에 적합하지 않음
  • optical flow를 flow video format으로 변환해 사용

  • 위의 transformation을 통해, flow generation task는 flow video에 대한 distribution을 학습하는 것으로 reformulated될 수 있음

    • pretrained CogVideoX를 사용, 학습 시 flow video를 latent z로 encode하는 VAE를 freeze

      • latent는 점점 noise를 더하면서 perturb됨

      • 각 denoising step k에서 모델은 noisy latent z를 받아서 상응하는 noise eps를 예측하도록 함

- **CogVideoX architecture**

Flow-to-Video Generation

  • text-to-flow model을 기반으로, flow-to-video model을 구축

    • 이전엔 low-level action input에 의존했다면, 해당 방법은 high-level semantic 정보를 받기 때문에, 로봇팔과 물체 식별에 도움이 됨
  • 해당 방식의 우수성을 보이기 위해서, instruction의 특정 단어를 선택, 해당 단어에 대한 cross-attention map을 추출해서 영상과 잘 mapping이 되는지를 봄

  • 해당 그림을 보면, language-only model의 경우(그냥 SFT) meaningful region을 식별하는데 실패하는 것을 볼 수 있음

  • flow video를 중간에 생성, 이를 기반으로 detailed vidoe를 생성함으로써, intruction과 visual input사이의 더 나은 alignment를 달성

  • 첫번째 단계에서 생성한 flow video를 잘 활용하여 detailed video를 생성할 수 있도록, flow video와 RGB vidoe를 channel dimension에 따라서 concat하는 방법론을 제안

    • 학습 동안, flow video v_F과 dual-arm trajectory video v는 VAE에 각각 encoding되고, z_f, z_v^0으로 나옴

    • flow generation의 절차와 동일하게, video latent z_v^0은 noise로 perturb되고(z_v^k), noisy latent는 flow latent와 content되어서 z^k=[z_v^k,z_f] 모델로 들어감

Diffusion policy from Videos

  • predicted video의 각 프레임을 target observation으로 사용해서 excutable low-level action을 생성

  • 학습 동안, goal step을 랜덤하게 추출, 노이즈를 활용해서 progressively perturb

  • Bimnaual의 challenge

    • data scarcity

    • expanded action space

    • diverse collaboration modality

    • simulation fidelity한계

    • 가격이 괜찮은 realj-world interface부재

  • 이전에 나온 연구

    • 저비용 teleoperation system(mobile aloha)

    • data augmentation(dexmimicgen)

    • human-object interaction primitive(YOTO)

    • key point를 통해 geometric constraint추출

    • attention으로 dual-arm mechanism 모델림

  • 이전 video generation 활용 연구

    • VidMan : OpenSORA를 OXE에 학습

    • 다른 애들은 robot action을 기반으로 world model를 구축

** optical flow를 썼다는게 본 논문의 핵심 차별점

Experiments

Experiment setup

  • Simulation setup

    • RoboTwin으로 평가
  • Real-world setup and data collection

    • 양팔을 책상 사이드에 마운트, front-facing camera만 사용해서 세팅

    • Vision Pro로 tele-operation

  • Architecthre Detail

    • text-to-flow, flow-to-video mdoel은 pretrained CogVideoX-2B로 초기화

    • 먼저 bimanual dataset 2개(RDT, RoboMIND)로 초벌 FT, 이후 각 평가 task의 demonstration에 대해서 추가 FT

    • 모든 비디오는 256x256, 17프레임으로 구성됨

    • text-to-flow model의 경우 FlowFormer++를 사용해서 각 비디오 클립에서 ground-truth optical flow를 추출

  • Baseline

    • DP(diffusion policy)(86M) : conditional denoising diffusion모델로 action을 생성하는 방식

    • RDT(2B) : 양팔 데이터셋으로 pretrain된 VLA모델

    • DP3 : point cloud기반 표현을 활용한 3d 기반 방법론

    • text-to-flow model, flow-to-video model, RDT는 mixed multi-task dataset에 학습되지만, downstream goal-conditioned policy와 다른 baseline은 single-task dataset에만 학습

      • 각 태스크는 100개의 demonstration으로 구성

      • RDT에서는 카메라로 D435사용(default), 나머지는 L515 사용

Main result in simulation setup

  • 각 태스크 별로 10개의 random seed를 활용해서 평가, 각 시드마다 10번 돌리고 평균냄
  • single camera를 사용하기 때문에 vanilla DP는 다른 추가적인 visual input(3d representation이나 multi-view images)을 사용하는 baseline보다 낮게 나옴

  • 하지만 future state를 예상하는 능력이 추가된 CogRobot의 경우 제한적인 image input으로도 높은 성능을 보임

Real-World experiments

  • 2가지 task로 평가

    • Lift bag : 양팔로 가방 드는 task

    • Pull box : 박스 안의 밧줄을 들어서 그걸로 박스를 가까이 가져오는 task(multi-stage task)

  • 각 task마다 사람이 100개의 demonstration을 직접 수집

  • 우리 방법론의 view adaptabilites를 평가하기 위해 각 태스크는 다양한 camera viewpoint에서 기록됨

  • 이 demonstration을 활용해서 RDT와 RoboMIND에 1차로 FT된 CogVideoX-2B모델을 추가로 FT

  • baseline으로는 DP만 활용

  • 실험 결과, 확실히 어려운 task(pull box)에서 CogRobot의 성능이 높게 나옴

    • video prediction model 을 high-level planner로 사용하는 것에 대한 장점을 보임

    • 위의 그림을 봤을 때, 실제 teleopration한 영상과 predicted video가 큰 차이가 나지 않음

Visualization and Ablation

  • Visualization

    • optical flow와 manipulation video를 시각화

    • 우리 모델 optical flow 잘 예측하더라!

  • Ablation

    • flow-guided video prediction과 그냥 SFT의 영상 생성 능력을 평가

    • CogVideoX-2B,5B를 같은 해상도, 비디오 길이를 사용해서 RDT와 RoboMIND를 합쳐서 학습

    • 평가시에는 RoboMIND validation set 5346개, RDT validation set 1757개로 평가

    • 4가지 metric을 사용

      • PSNR : 재생성된 이미지/영상이 얼마나 원본에 가깝게 복원되었는지를 픽셀 단위에서 측정

      • SSIM : 두 이미지간의 구조적 유사성을 측정(밝기, 대비, 구조) - patch단위로 비교

      • LPIPS : 두 이미지 간의 지각적 유사성을 딥러닝 feature space에서 측정(사전 학습된 CNN의 여러 레이어에서 feature 추출, 둘의 차이를 L2 norm으로 계산)

      • FVD : 영상 전체 시퀀스의 품질을 측정 - 영상 시퀀스를 feature space에 mapping, 분포간 거리를 측정

        • I3D등의 video model에서 feature추출, 실제와 생성 비디오의 gaussian 분포 간의 FVD계산

Conclusion

  • bimanual policy를 구축할 때 T2V 모델을 활용

  • 적은 데이터에서 효과적으로 T2V를 FT하기 위해 flow-guided framework를 제안

  • 방법론은 신박한데 평가가 아쉽다