Modele językowe dużej skali w robotyce

Modele językowe dużej skali (LLMs) wykazują wyjątkowe zdolności do rozwiązywania skomplikowanych problemów dzięki technice zwanej „Chain-of-Thought” (CoT), która polega na rozbijaniu rozwiązań na konkretne kroki. Teraz naukowcy badają, czy modele podstawowe dla robotów mogą skorzystać z podobnej poprawy.

Wprowadzenie Embodied Chain-of-Thought Reasoning

Naukowcy z Uniwersytetu Kalifornijskiego w Berkeley, Uniwersytetu Warszawskiego i Uniwersytetu Stanforda przedstawili koncepcję „Embodied Chain-of-Thought Reasoning” (ECoT) dla modeli wizji, języka i działania (VLAs). ECoT zwiększa zdolności decyzyjne systemów sterowania robotów, umożliwiając im analizę zadań, podzadań oraz otoczenia przed podjęciem działań.

Polityki sterowania robotów

Celem polityk sterowania robotów jest umożliwienie im samodzielnego wykonywania złożonych zadań. Chociaż rozwinięto modele end-to-end, często nie radzą sobie one w nowych sytuacjach wymagających rozumowania i planowania. Modele VLAs pojawiły się jako obiecujące rozwiązanie, tworząc bardziej uniwersalne polityki sterowania robotami. VLAs bazują na zdolnościach wstępnie wytrenowanych modeli wizji i języka (VLMs), mapując obrazowe obserwacje i naturalne polecenia językowe na działania robotów.

Ograniczenia obecnych modeli VLAs

Jednak obecne VLAs brakuje zdolności rozumowania charakterystycznych dla LLMs. Uczą się one bezpośredniego mapowania obserwacji na działania bez pośrednich kroków rozumowania. Wprowadzenie techniki Chain-of-Thought do VLAs może przynieść wzrost wydajności poprzez trenowanie ich do tekstowego rozumowania na temat planów, otoczenia i ruchów, co pozwala na dokładniejsze i bardziej stabilne działania robotów.

Wyzwania w zastosowaniu CoT

Bezpośrednie zastosowanie technik CoT w robotyce napotyka jednak kilka wyzwań. VLAs opierają się na mniejszych, otwartych modelach VLMs, które nie są tak dobre w rozumowaniu jak większe LLMs stosowane w aplikacjach językowych. Dodatkowo, zadania robotów wymagają rozumowania nie tylko o zadaniu, ale także o otoczeniu i stanie samego robota.

Rozwój Embodied Chain-of-Thought

Aby sprostać tym wyzwaniom, naukowcy opracowali „Embodied Chain-of-Thought” (ECoT) dla VLAs. ECoT umożliwia robotom rozumowanie o swoich działaniach w kontekście percepcji otoczenia. Łączy ono semantyczne rozumowanie o zadaniach i podzadań z „ucieleśnionym” rozumowaniem o otoczeniu i stanie robota.

Generowanie danych treningowych

Aby umożliwić modelom VLA rozumowanie, naukowcy stworzyli pipeline do generowania syntetycznych danych treningowych. Proces ten obejmuje użycie wstępnie wytrenowanych detektorów obiektów, LLMs i VLMs do anotowania istniejących zestawów danych robotów informacjami wykorzystywanymi do rozumowania. Następnie używa się modelu Gemini Google do generowania końcowego łańcucha rozumowania. Model ten najpierw przekształca dane polecenie w bardziej szczegółową formę, a następnie określa sekwencję podzadań potrzebnych do osiągnięcia głównego celu.

Testowanie ECoT

Naukowcy przetestowali ECoT w zestawie do manipulacji robotycznej przy użyciu OpenVLA, zbudowanego na bazie Llama-2 7B i Prismatic VLM. Wyniki pokazały, że ECoT znacznie poprawiło wydajność modelu OpenVLA, zwiększając wskaźnik sukcesu zadania o 28% w porównaniu z modelem bazowym.

ECoT jest częścią szerszego wysiłku na rzecz integracji modeli podstawowych z systemami sterowania robotami. Dzięki zdolnościom przetwarzania dużych ilości nieoznaczonych danych z internetu, LLMs i VLMs mogą wypełniać wiele luk istniejących w obecnych systemach robotycznych. Ciekawie będzie obserwować, jak rozwija się ta dziedzina, gdy branża zmierza w kierunku modeli podstawowych zoptymalizowanych pod kątem systemów robotycznych.

Tags:ai, autonomiczne roboty, cot, ecot, modele, robotyka, sztuczna inteligencja, uczenie

AI ulepsza łatanie oprogramowania

Agent OpenAI: Skanowanie strony www i wyodrębnianie treści dla prompta (2024)

Wykorzystanie Embodied Chain of Thought (ECoT) w robotyce