El nuevo sistema permite que el robot empuje objetos varias veces hasta que se recopile una secuencia de imágenes, lo que a su vez permite al sistema segmentar todos los objetos de la secuencia hasta que el robot reconozca los objetos. Los enfoques anteriores se han basado en un solo empujón o agarre por parte del robot para "aprender" el objeto.