Pünktlich zum 75. Geburtstags des Polaroid-Fotos hat Nvidia eine neue Technik vorgestellt, die mithilfe von AI-Berechnung aus 2D-Bildern eine 3D-Umgebung erstellen kann. Die Technik nennt sich Neural Radiance Fields (NeRF) und soll innerhalb weniger Sekunden mit mehreren Dutzend Bildern trainiert werden können.
David Luebke, der Vice President for Graphics Research, vergleicht die NeRFs mit Bitmap Bildern unter der Prämisse, dass traditionelle 3D-Darstellungen wie polygonale Netze mit Vektorbildern vergleichbar sind. Er sieht den Einsatzzweck der Technik vor allem im Schaffen von Avataren und Szenen für die virtuelle Welt, wie z. B. die dreidimensionale Aufnahme von Teilnehmern einer Videokonferenz oder auch um digitale 3D-Szenen zu rekonstruieren. Zu Demonstrationszwecken nutzte Nvidia im Rahmen der GTC 2022 eine Nachahmung eines ikonischen Fotos des Künstlers Andy Warhole und verwandelte das zweidimensionale Bild mithilfe von Instant NeRF in eine dreidimensionale Szene.
Zum Training von NeRF werden neuronale Netzwerke genutzt, die mithilfe der Eingaben trainiert werden. Dabei müssen dem neuronalen Netzwerk einige Dutzend Bilder aus verschiedenen Perspektiven um die entsprechende Szene zur Verfügung gestellt werden und die genaue Kameraposition muss ebenfalls eingegeben werden. Sollten Menschen oder andere bewegliche Objekte in den Bildern sein, sollten diese in extrem kurzen Abständen gemacht werden, da ansonsten aufgrund zu großer Differenzen zwischen den Bildern die entsprechenden Teile der 3D-Darstellung verschwommen sein werden. NeRF kann durch die vielen verschiedenen Winkel und Perspektiven Farben und Beleuchtungen aufgrund des Trainings vervollständigen und somit die 3D-Szene erschaffen.
Die NeRF zugrundeliegende Technik ist bei Nvidia schon lange bekannt, doch das Hauptproblem des langen Trainings und entsprechend langer Render-Zeiten hat die Technik oftmals sehr anspruchsvoll gemacht. Instant NeRF soll das ändern, indem das sog. Multi-Resolution Hash Grid Encoding zum Einsatz kommt, welches mithilfe eines kleinen neuronalen Netzwerks sehr schnell ordentliche Ergebnisse erzielen soll. Diese Technik wird von Nvidia-GPUs unterstützt und nutzt dazu die Tensor-Kerne. Praktische Anwendungen außerhalb des Compute-Bereichs sieht der Hersteller auch beim Training von Robotern oder selbstfahrenden Autos, die durch die zweidimensionalen Bilder mithilfe von NeRF Größen und Formen von realen Hindernissen bzw. sonstigen Objekten feststellen können.
Quelle: Nvidia