Robot foundation model guide
로봇 파운데이션 모델·논문 가이드
Gemini Robotics, GR00T, MolmoAct, openpi, Skild AI처럼 로봇이 보고 판단하고 움직이는 모델을 논문·공식 발표·데이터 관점으로 연결해 읽는 허브입니다.
모델 흐름별 읽기
VLA, embodied reasoning, action policy, 월드 모델, 오픈 로봇 학습처럼 기술 축이 다른 글을 한곳에 모았습니다.
Gemini Robotics-ER 1.6 분석: 로봇에게 필요한 공간추론은 무엇이 달라졌나ER 1.6이 공간추론과 완료 판정을 어떻게 다루는지 봅니다.
Gemini Robotics 1.5 분석: 물리 에이전트 시대의 VLA와 ER 역할 분담VLA와 ER의 역할 분담을 먼저 이해합니다.
NVIDIA GR00T N1.6 분석: 휴머노이드 파운데이션 모델의 병목은 어디인가GR00T N1.6의 데이터 혼합과 모델 구조를 봅니다.
NVIDIA Cosmos 해설: 로봇 학습에서 월드 파운데이션 모델이 필요한 이유Cosmos가 합성 데이터와 월드 모델을 어떻게 묶는지 봅니다.
MolmoAct 2 분석: 오픈 로보틱스 모델이 현장 로봇에 주는 의미MolmoAct 2의 action expert와 latency를 봅니다.
MolmoBot 해설: 시뮬레이션 학습 로봇이 현실로 넘어오는 조건시뮬레이션 학습이 현실로 넘어오는 조건을 봅니다.
Physical Intelligence openpi 해설: π0 공개가 로봇 정책 학습에 남긴 변화openpi 공개가 정책 학습에 남긴 변화를 봅니다.
Skild AI 분석: 범용 로봇 브레인이 풀어야 할 세 가지 문제범용 로봇 브레인의 계층 구조를 봅니다.
LeRobot v0.5.0 분석: 오픈소스 로봇 학습 생태계가 커지는 방식LeRobot이 로봇 학습 표준화에 주는 의미를 봅니다.기술 축으로 비교하기
| 기술 축 | 대표 글 | 핵심 질문 |
|---|---|---|
| Embodied Reasoning | Gemini Robotics-ER 1.6 | 로봇이 행동 전 장면을 어떻게 해석하고 멈추는가 |
| VLA/Action Policy | Gemini Robotics 1.5, MolmoAct 2, openpi | 시각·언어 입력이 실제 행동으로 어떻게 변환되는가 |
| World Model | NVIDIA Cosmos, MolmoBot | 합성 데이터와 시뮬레이션이 현실 실패를 줄이는가 |
| Cross-Embodiment | GR00T N1.6, Skild AI | 다른 로봇 몸체로 정책을 얼마나 옮길 수 있는가 |