Modele językowe dużej skali w robotyce
Modele językowe dużej skali (LLMs) wykazują wyjątkowe zdolności do rozwiązywania skomplikowanych problemów dzięki technice zwanej „Chain-of-Thought” (CoT), która polega na rozbijaniu rozwiązań na konkretne kroki. Teraz naukowcy badają, czy modele podstawowe dla robotów mogą skorzystać z podobnej poprawy.
Wprowadzenie Embodied Chain-of-Thought Reasoning
Naukowcy z Uniwersytetu Kalifornijskiego w Berkeley, Uniwersytetu Warszawskiego i Uniwersytetu Stanforda przedstawili koncepcję „Embodied Chain-of-Thought Reasoning” (ECoT) dla modeli wizji, języka i działania (VLAs). ECoT zwiększa zdolności decyzyjne systemów sterowania robotów, umożliwiając im analizę zadań, podzadań oraz otoczenia przed podjęciem działań.
Polityki sterowania robotów
Celem polityk sterowania robotów jest umożliwienie im samodzielnego wykonywania złożonych zadań. Chociaż rozwinięto modele end-to-end, często nie radzą sobie one w nowych sytuacjach wymagających rozumowania i planowania. Modele VLAs pojawiły się jako obiecujące rozwiązanie, tworząc bardziej uniwersalne polityki sterowania robotami. VLAs bazują na zdolnościach wstępnie wytrenowanych modeli wizji i języka (VLMs), mapując obrazowe obserwacje i naturalne polecenia językowe na działania robotów.
Ograniczenia obecnych modeli VLAs
Jednak obecne VLAs brakuje zdolności rozumowania charakterystycznych dla LLMs. Uczą się one bezpośredniego mapowania obserwacji na działania bez pośrednich kroków rozumowania. Wprowadzenie techniki Chain-of-Thought do VLAs może przynieść wzrost wydajności poprzez trenowanie ich do tekstowego rozumowania na temat planów, otoczenia i ruchów, co pozwala na dokładniejsze i bardziej stabilne działania robotów.
Wyzwania w zastosowaniu CoT
Bezpośrednie zastosowanie technik CoT w robotyce napotyka jednak kilka wyzwań. VLAs opierają się na mniejszych, otwartych modelach VLMs, które nie są tak dobre w rozumowaniu jak większe LLMs stosowane w aplikacjach językowych. Dodatkowo, zadania robotów wymagają rozumowania nie tylko o zadaniu, ale także o otoczeniu i stanie samego robota.
Rozwój Embodied Chain-of-Thought
Aby sprostać tym wyzwaniom, naukowcy opracowali „Embodied Chain-of-Thought” (ECoT) dla VLAs. ECoT umożliwia robotom rozumowanie o swoich działaniach w kontekście percepcji otoczenia. Łączy ono semantyczne rozumowanie o zadaniach i podzadań z „ucieleśnionym” rozumowaniem o otoczeniu i stanie robota.
Generowanie danych treningowych
Aby umożliwić modelom VLA rozumowanie, naukowcy stworzyli pipeline do generowania syntetycznych danych treningowych. Proces ten obejmuje użycie wstępnie wytrenowanych detektorów obiektów, LLMs i VLMs do anotowania istniejących zestawów danych robotów informacjami wykorzystywanymi do rozumowania. Następnie używa się modelu Gemini Google do generowania końcowego łańcucha rozumowania. Model ten najpierw przekształca dane polecenie w bardziej szczegółową formę, a następnie określa sekwencję podzadań potrzebnych do osiągnięcia głównego celu.
Testowanie ECoT
Naukowcy przetestowali ECoT w zestawie do manipulacji robotycznej przy użyciu OpenVLA, zbudowanego na bazie Llama-2 7B i Prismatic VLM. Wyniki pokazały, że ECoT znacznie poprawiło wydajność modelu OpenVLA, zwiększając wskaźnik sukcesu zadania o 28% w porównaniu z modelem bazowym.