RT-2 es un modelo de visión, lenguaje y acción (VLA) de vanguardia de Google DeepMind. Representa un importante avance en la robótica al cerrar la brecha entre las instrucciones del lenguaje natural y las acciones físicas que los robots pueden realizar.
- RT-2 puede procesar información tanto del mundo real (a través de cámaras u otros sensores) como de los vastos repositorios de texto e imágenes de Internet.
- Puede traducir instrucciones complejas como "poner la bola roja encima del cuadro azul" en una secuencia de acciones que un brazo robótico puede ejecutar.
- El enorme conjunto de datos de entrenamiento de RT-2 (que combina datos web con datos robóticos) le otorga una capacidad sin precedentes para generalizar y adaptarse a nuevas situaciones.
RT-2 puede abordar con éxito tareas y entornos invisibles, demostrando su capacidad para aprender y adaptarse.
brazo robótico realizando una tarea
RT-2 simplifica la instrucción del robot, alejándose de la codificación meticulosamente diseñada a mano hacia comandos de lenguaje más natural. Más allá de tareas simples, RT-2 abre la puerta a que los robots aborden problemas complejos del mundo real que requieren comprensión del lenguaje, la visión y la acción.
RT-2 se basa en el éxito de su predecesor, RT-1. Mejora significativamente el rendimiento en tareas robóticas nunca antes vistas, aumentando las tasas de éxito del 32% al 62%. Este avance se debe a la amplia formación previa sobre diversas fuentes de información web.
Blog de DeepMind: https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/
Artículos técnicos: https://robotics-transformer2.github.io/assets/rt2.pdf
No hay comentarios.:
Publicar un comentario