Imagine robots impulsados por IA que puedan manipular nuestro entorno con la misma facilidad que un ser humano. Ahora esta realidad se está acercando, gracias al trabajo innovador de investigadores de la Universidad Carnegie Mellon y Meta AI. Han desarrollado un nuevo enfoque denominado Hybrid Actor Critical Maps for Manipulation, llamado HACMan para abreviar, que aborda un desafío importante en robótica, que es la manipulación sin prehensar, un conjunto de tareas que se extiende más allá del simple agarre y agarre. La manipulación no prensil, como empujar, derribar y deslizar, es una habilidad que los humanos dan por sentado, pero para los robots, es un gran obstáculo, especialmente en entornos donde los objetos son difíciles de sostener o los espacios son estrechos. Estas interacciones sutiles son cruciales. A pesar de la extensa investigación, las técnicas actuales luchan por abordar las complejidades de la geometría de los objetos, la retroalimentación táctil y la toma de decisiones secuenciales en tales tareas. Pero, ¿y si los robots pudieran dominar estas manipulaciones matizadas? Esa es la pregunta que llevó a la creación de HACMan.
Esta innovadora estrategia de aprendizaje por refuerzo está diseñada para realizar tareas complejas no prensiles y generalizar a través de diferentes geometrías de objetos con interacciones adaptables. Ofrece una solución emocionante que utiliza datos de Point Cloud para informar el proceso de manipulación. La magia de HACMan radica en sus dos importantes avances técnicos. En primer lugar, ofrece una representación de acción centrada en el objeto que se abstrae temporalmente y se basa en el espacio. Esto significa que el robot decide dónde hacer contacto y luego selecciona los parámetros de movimiento para su próximo movimiento. La posición de contacto está informada por la nube de puntos del objeto observado, dando a la acción una base geográfica firme. Sin embargo, este proceso da como resultado decisiones más abstractas temporalmente para el robot.
El segundo avance es la incorporación de un marco de aprendizaje de refuerzo crítico actor para promulgar la representación de la acción. Aquí, el espacio de acción se extiende a ambos lados de la división continua discreta. Los parámetros de movimiento se definen sobre un espacio continuo, mientras que la ubicación de contacto se determina en un espacio discreto, eligiendo un punto de contacto entre los de la nube de puntos del objeto. Esta configuración única permite a HACMan predecir valores clave en cada píxel sobre la nube de puntos del objeto, con la red de actores generando parámetros de movimiento continuo para cada píxel.
Los resultados son impresionantes, con HACMan con una tasa de éxito del 79 % en objetos no planos no vistos en simulaciones, lo que demuestra su capacidad para generalizar bien a clases no vistas. La tasa de éxito durante el entrenamiento fue más de tres veces mayor que la mejor línea de base, lo que demuestra el rendimiento superior de HACMan. Pero los investigadores no se detuvieron en las simulaciones. Llevaron HACMan al mundo real y usaron la transferencia SIM2real de disparo cero para probarlo en robots reales. Los resultados fueron igualmente alentadores, ya que los robots demostraron interacciones dinámicas de objetos a través de objetos invisibles de diferentes formas y objetivos no planos. Sin embargo, como todas las innovaciones, HACMan no está exento de desafíos. Se basa en el registro de nubes de puntos para estimar la transformación del objetivo del objeto, y la calibración de la cámara debe ser bastante precisa, además, la posición de contacto se limita a la parte visible del objeto.
A pesar de estas limitaciones, el equipo es optimista sobre el potencial de HACMan y prevé expandir el enfoque para incluir el agarre y otros comportamientos no prensiles. Mientras tanto, en el mundo actual que cambia rápidamente, la forma en que consumimos noticias se ha vuelto caótica y abrumadora, y es difícil obtener una visión completa de los temas importantes, razón por la cual estamos realmente entusiasmados con Ground News. Su sitio web y su aplicación de teléfono lo ayudan a navegar fácilmente por las noticias del día. Además, obtiene acceso a más de 50 000 fuentes de noticias en un solo lugar, lo que le permite comparar artículos, detectar sesgos en los medios, verificar sus puntos ciegos, leer cobertura global, personalizar su feed y comprender sus hábitos de lectura.
Por ejemplo, echemos un vistazo a esta última noticia sobre los comentarios de la Organización Mundial de la Salud sobre el sesgo y la desinformación en relación con el uso de la IA en la atención médica. Aquí puede ver la cantidad de fuentes que informan sobre la distribución de la factualidad del sesgo e incluso la propiedad de los medios de comunicación. También puede comparar los titulares para ver cómo cada lado está informando sobre la historia. Al usar Ground News, puede convertirse en un lector más informado y comprender los matices de las historias que está leyendo. Así que no pierdas la oportunidad de obtener una visión equilibrada y completa de las noticias.
Haga clic en el enlace a continuación para probar Ground News de forma gratuita o suscríbase para desbloquear el acceso ilimitado. Mientras tanto, un avance reciente está haciendo que la conversación con un asistente artificial se sienta tan natural y dinámica como conversar con un amigo. Este es el futuro en el que Google está trabajando empleando el aprendizaje por refuerzo para hacer que las interacciones con los asistentes humanos sean más atractivas y orientadas a objetivos. No se trata solo de dar una única respuesta, sino de realizar una conversación de varios turnos que se adapta en tiempo real. Así que vea cómo Google logró esta ventaja en el rendimiento humano en su creciente lucha por el dominio de la IA. El viaje hacia este futuro más interactivo no está exento de obstáculos. La creación de un sistema de diálogo a gran escala que pueda implementar RL en entornos del mundo real es un desafío formidable debido a la gran complejidad de modelar inmensos espacios de estado y acción y el diseño matizado de las funciones de recompensa.
La respuesta de Google a esto se encuentra en el corazón del mecanismo de respuesta del asistente, un administrador de diálogo que utiliza el aprendizaje de refuerzo de políticas. Aquí es donde las cosas se ponen interesantes. Para superar el problema de un gran espacio estatal, Google se basa en la magia de los modelos supervisados como Recurrent, Neural Networks y Transformers. Alimentaron el historial de diálogo, convirtiéndolo en una secuencia de interacciones entre usuarios y asistentes. A cambio, escupen una representación del estado del diálogo en un vector latente compacto y efectivo. Así es, incluso la totalidad de su historial de conversaciones se puede condensar en un pequeño vector. Pero, ¿qué pasa con el espacio de acción ilimitado, la infinidad potencial de palabras u oraciones que el asistente podría usar? Aquí Google vuelve a innovar. Limitan el espacio de acción a un conjunto de respuestas razonables que los proveedores de contenido generan en cada turno de conversación. Con esto, el espacio de acción cambia con cada estado, llevándonos al reino de los conjuntos de acción estocásticos.
Google aborda esto utilizando una variante de aprendizaje clave llamada acción estocástica. Aprendizaje clave, un popular algoritmo de aprendizaje de refuerzo fuera de la política que no requiere un modelo ambiental para evaluar y mejorar la política. Para poner todo esto a prueba, Google realizó un experimento utilizando el Asistente de Google para chatear con los usuarios sobre animales. Compararon el RL Dialog Manager con un modelo de transformador supervisado. ¿Los resultados? El RL Dialog Manager generó conversaciones más largas y atractivas, aumentó la duración de la conversación en un 30 % y mejoró las métricas de participación del usuario en respuesta a las preguntas del asistente, las respuestas cooperativas aumentaron en un 8 %.
Más intrigante aún, se descubrió que el Asistente de aprendizaje por refuerzo asumía más riesgos conversacionales al hacer preguntas pivotantes. La verdadera belleza del Asistente basado en el aprendizaje por refuerzo radica en sus capacidades de planificación dinámica. El Asistente terminó un 20% más de turnos con preguntas, invitando al usuario a elegir contenido adicional. También aprovechó de manera efectiva la diversidad de contenido utilizando un 26 % más de proveedores de contenido distintos por conversación que el modelo supervisado. Además, el Asistente de RL se inclinó más a participar en subconversaciones ricas en contenido, seleccionando un 31 % más de contenido relacionado con hechos.
Para ilustrar estos avances, considere dos ejemplos de conversaciones sobre animales. En uno, el modelo supervisado vuelve a los sonidos de animales después de que el usuario se niega a escuchar sobre el animal de hoy, con el objetivo de maximizar la satisfacción inmediata del usuario; sin embargo, el modelo RL emplea una estrategia diferente para optimizar la participación general del usuario, introduciendo contenido más diverso como Fun Facts . En general, el futuro de las conversaciones asistidas por IA está aquí, y se parece más a los humanos que nunca..