miércoles, 28 de febrero de 2024

¿Qué es Robotics Transformer 2 (RT-2)?

 


RT-2 es un modelo de visión, lenguaje y acción (VLA) de vanguardia de Google DeepMind. Representa un importante avance en la robótica al cerrar la brecha entre las instrucciones del lenguaje natural y las acciones físicas que los robots pueden realizar. 

- RT-2 puede procesar información tanto del mundo real (a través de cámaras u otros sensores) como de los vastos repositorios de texto e imágenes de Internet.
- Puede traducir instrucciones complejas como "poner la bola roja encima del cuadro azul" en una secuencia de acciones que un brazo robótico puede ejecutar.
- El enorme conjunto de datos de entrenamiento de RT-2 (que combina datos web con datos robóticos) le otorga una capacidad sin precedentes para generalizar y adaptarse a nuevas situaciones.

RT-2 puede abordar con éxito tareas y entornos invisibles, demostrando su capacidad para aprender y adaptarse.

brazo robótico realizando una tarea

RT-2 simplifica la instrucción del robot, alejándose de la codificación meticulosamente diseñada a mano hacia comandos de lenguaje más natural. Más allá de tareas simples, RT-2 abre la puerta a que los robots aborden problemas complejos del mundo real que requieren comprensión del lenguaje, la visión y la acción.

RT-2 se basa en el éxito de su predecesor, RT-1. Mejora significativamente el rendimiento en tareas robóticas nunca antes vistas, aumentando las tasas de éxito del 32% al 62%. Este avance se debe a la amplia formación previa sobre diversas fuentes de información web.






No hay comentarios.:

Publicar un comentario