Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 1528

Oasis, GameGen-X : quand l’IA s’attaque aux moteurs de jeu vidéo

$
0
0
Oasis, GameGen-X : quand l’IA s’attaque aux moteurs de jeu vidéo

Les moteurs 3D qui animent nos jeux vidéo cèderont-ils bientôt la place à des rendus générés à la demande par des intelligences artificielles génératives ? Si le scénario parait encore peu crédible, plusieurs projets récents illustrent des avancées significatives en la matière, à l’image d’Oasis, le clone de Minecraft généré par IA de Decart.

Après quelques minutes en file d’attente, notre navigateur finit par nous afficher l’environnement d’Oasis : un décor à la Minecraft, dans lequel on peut immédiatement regarder autour de soi, se déplacer, creuser le sol ou générer un objet. Les interactions se font sans délai, mais le rendu visuel laisse à désirer, avec un affichage fenêtré en 360p limité à 20 images par seconde. La simulation est néanmoins parfaitement fonctionnelle et, surtout, les interactions avec le « jeu » se déroulent sans latence perceptible pendant les 120 secondes de test autorisées.

Un tour de force, si l’on considère que le rendu n’est pas assuré par un moteur de rendu, mais par un modèle d’IA générative. Très vite, des incohérences que l’on ne rencontrerait pas dans un environnement 3D calculé de façon traditionnelle se font sentir. Des objets disparaissent, des flous brouillent le champ de vision…

Mise en ligne le 31 octobre dernier, Oasis a attiré plus d’un million de curieux en un peu plus de trois jours. À la manœuvre, on retrouve une jeune startup de la Silicon Valley, Decart. Fondée en septembre 2023, elle a annoncé le même jour une levée de fonds de 21 millions de dollars, réalisée auprès du fonds Sequoia Capital.

Un flux vidéo généré en quasi temps réel

D’après Decart, Oasis serait ainsi le « premier modèle IA jouable et en temps réel de monde ouvert ». La société estime surtout que ce démonstrateur préfigure une nouvelle génération d’environnements virtuels : « Un jeu pourrait par exemple être complètement contrôlé par du texte, de l’audio ou d’autres modalités, plutôt que par des actions ».

Sur Github, Decart explique les fondamentaux de son modèle et compare sa construction à celle des grands modèles dédiés à la génération de vidéos tels que Sora, le projet dédié d’OpenAI. Elle met par ailleurs à disposition une version limitée à 500 millions de paramètres de son modèle, accompagnée du framework dédié à la prise en compte des entrées dans la phase d’inférence en local.

« Contrairement aux modèles bidirectionnels tels que Sora, Oasis génère des images de manière autorégressive, avec la possibilité de conditionner chaque image en fonction des entrées du jeu. Cela permet aux utilisateurs d’interagir avec le monde en temps réel », explique la société, qui précise s’appuyer sur la méthode d’entrainement hybride dite du Diffusion Forcing, élaborée par une équipe du MIT et rendue publique début juillet.

Entraînée sur un ensemble de vidéos capturées au sein de Minecraft et collectées par OpenAI, Oasis est logiquement sujette aux erreurs, du fait de sa nature autorégressive. Decart explique avoir traité le problème grâce à l’introduction d’une fonction de « bruit dynamique » (bruit au sens photographique du terme), capable de masquer temporairement les incohérences à l’inférence jusqu’à ce que les transformations ultérieures aient permis de générer les bons détails.

Une génération à 20 images par seconde

Forte de ces différentes optimisations, Decart affirme que son modèle est capable de générer un flux de sortie à 20 images par seconde, là où il faut plutôt quelques dizaines de secondes aux modèles de type Sora ou Runway pour générer une seconde de vidéo, souvent à partir d’infrastructures richement dotées en GPU.

Bien que les rendus photoréalistes d’un Sora n’ait rien à voir avec l’environnement pixelisé d’un Minecraft, la comparaison se veut une démonstration de la logique économique qui sous-tend les travaux d’Oasis. « Nous pensons que le prix de la mise en œuvre des modèles comme Oasis constitue le goulot d’étranglement caché qui empêche la diffusion de vidéos génératives en production », écrit ainsi la société, qui se dit aujourd’hui capable de servir cinq utilisateurs simultanés sur un cluster de huit puces H100 de NVIDIA avec une version à 100 milliards de paramètres de son modèle.

Sur ce volet, Decart attend beaucoup d’une de ses voisines, la startup californienne Etched, qui développe un ASIC dédié à Oasis, baptisé Sohu, lequel permettrait de passer de cinq à plus de 60 utilisateurs simultanés dans les mêmes conditions.

Les projets de recherche se multiplient

La 3D interactive sera-t-elle le prochain sprint des géants de l’IA ? En attendant de premières applications concrètes, les projets de recherche se multiplient. Fin août, une équipe associant des chercheurs de Google et de l’université de Tel Aviv ont ainsi présenté GameNGen, un équivalent de Doom lui aussi généré par IA, grâce auquel ils estiment démontrer qu’il est possible de faire tourner un jeu complexe en temps réel grâce à un modèle neuronal.

Leur modèle, qui exploite lui aussi le bruit dynamique, souffre de limitations bien identifiées dans l’article dédié à sa présentation scientifique (PDF), mais il augure, selon les auteurs, un nouveau paradigme, autorisant par exemple des « processus de développement plus accessibles et moins coûteux, dans lesquels les jeux pourraient être développés et édités via des descriptions textuelles ou des images servant d’exemples ».

Une autre équipe, venue de Hong Kong cette fois, s’est jointe à la danse, avec un article publié le 1er novembre dernier, consacré à GameGen-X, un modèle de monde ouvert interactif, entraîné cette fois sur la base d’extraits vidéo issus de 150 jeux vidéo différents, et passés au crible de GPT-4o. Une courte bande vidéo laisse augurer des visuels dignes d’un jeu vidéo récent, sans toutefois fournir la moindre indication quant à la richesse fonctionnelle.

Dilemme de l’innovation ?

Verrons-nous bientôt des jeux vidéo ou des environnements 3D générés à la demande, et donc débarrassés des limites qu’implique la programmation d’un moteur de rendu ? Et le sujet doit-il être envisagé comme une innovation de rupture ?

Interrogé à ce sujet, Tim Sweeney, patron d’Epic (éditeur de l’Unreal Engine, l’un des moteurs de référence du marché) s’est dit plus enclin à croire à une approche intégrée.

« Les ordinateurs sont déjà incroyablement doués pour les calculs numériques tels que la simulation physique et le rendu des pixels, tandis que l’IA est incroyablement douée pour l’apprentissage de modèles dans des ensembles de données massifs. Le défi consiste à comprendre comment les réunir aux bons endroits pour tirer le meilleur parti des deux : concevoir des moteurs qui exposent des paramètres efficaces en entrée pour l’IA, et une IA multimodale capable de travailler dans ces contextes et d’apprendre à manipuler les paramètres des algorithmes pour planifier et atteindre un objectif final ».


Viewing all articles
Browse latest Browse all 1528

Trending Articles