Craiyon – Tout savoir sur l’IA de génération d’images

Craiyon est une IA qui permet de générer des iamges à partir d'un texte, et basée sur la technologie DALL-E de OpenAI

Craiyon est une technologie qui génère des images en utilisant l’AI, lancée par le français Boris Dayma.

Craiyon : Qu’est-ce que c’est ?

Craiyon, auparavant appelé DALL-E mini, est un modèle d’IA capable de dessiner des images, à partir de n’importe quelle texte. Craiyon est un outil de génération automatisée d’images, dont, logiquement, les réseaux sociaux se sont mis raffoler, et qui est devenu viral.

Plus largement, en permettant de créer une illustration visuelle de très bonne qualité à partir d’une simple description texte, Crayion permet de rendre la génération automatique d’images accessible au plus grand nombre.

Précisément, l’outil génère une série de neuf images automatiquement à partir de requêtes écrites, sans limite dans le nombre de caractère dans le texte soumis à l’IA. Le résultat se présente dans une grille 3X3, comme ci-dessous.

Une image générée par la technologie Craiyon
Une image générée par Craiyon

Le résultat est souvent absurde, cocasse ou hilarant. Certains n’hésitent pas à entrer les recherches les plus improbables, comme «la Petite sirène qui mange des sushis», «Dora l’Exploratrice sur un site d’essais nucléaires», ou «Donald Trump dans Minecraft

Le Figaro

Une estimation parle de près de 50.000 images générées chaque jour, un chiffre colossal pour une feature gratuite.

Derrière Craiyon, c’est DALL-E mini (qui était l’ancien nom public) qui travaille, la version gratuite et ouverte au grand public de ce système créé par OpenAI en 2021. OpenAI dont la dirigeante Shivon Zilis faisait l’actualité hier pour d’autres (heureuses) raisons.

Pour l’instant, OpenAI limite l’accès à Dall-E à un échantillon de testeurs « triés sur le volet », et aurait mis en place « des garde-fous » pour empêcher que sa technologie ne soit employée à de mauvaises fins. Là où Craiyon est accessible à tous, sans limite ni restriction.

Boris Dayma : le fondateur de Craiyon

Victime de son succès, OpenAI a demandé à DALL-E mini de changer de nom, pour éviter qu’il y ait une confusion entre les deux projets, même s’ils se basent sur la même technologie.

Ainsi, DALL-E Mini est devenu le projet Craiyon.

Le Logo de Craiyon en 2022
Le Logo de Craiyon

Et derrière ce nom se trouve Boris Dayma, un français, diplômé de la prestigieuse école Centrale Marseille, et installé depuis dix ans à Houston, au Texas.

Le fondateur de Craiyon est passé par le CEA, avant de faire une longue expérience dans l’entreprise mondiale Technip, et il travaille aujourd’hui au sein de Melbor AI, depuis cinq ans.

C’est lorsque OpenAI a dévoilé le projet Dall-E, début 2021, qu’il a voulu « essayer de reproduire la même chose ». Il a profité d’un Hackaton pour lancer le projet, puis l’a amélioré :

«Ce hackathon permettait d’accéder à des ordinateurs puissants et au support technique des deux entreprises. D’autres personnes m’ont rejoint et nous avons fini par gagner la compétition.

Mais Dall-E Mini était loin d’être aussi bon qu’aujourd’hui, avec des images en basse résolution. J’ai continué à améliorer le modèle sur mon temps libre, et il a fini par arriver à un niveau qui l’a rendu viral»

Boris Dayma

A propos de Craiyon et de ses résultats prodigieux dans la génération d’images, Boris Dayma nuance tout de même, dans Le Figaro :

«Personne ne peut douter que les images créées proviennent d’un logiciel, c’est évident qu’elles sont artificielles»

Il admet d’ailleurs aisément les limites du modèle, comme par exemple celles d’un dessin réaliste de visage humains – un art technique notoirement extrêmement difficile :

«Le modèle fait des approximations grossières. Cela ne se remarque pas sur un arbre, mais cela se voit immédiatement sur un visage. Cette limitation technique est au final un avantage qui rend Craiyon plus sûr. Cela reste un divertissement.»

L’homme voit dans la mise à disposition la plus large, sans restriction, de Craiyon et sa technologie comme une nécessité :

«Il faut sensibiliser dès à présent le grand public à l’existence de cette nouvelle technologie, afin de développer l’esprit critique»

Boris Dayma

DALL-E : la technologie au-dessus de Craiyon

En permettant de créer une photo ou une illustration de haute qualité à partir d’une simple description textuelle, DALL-E 2 et sa version grand public, Crayion, promettent de révolutionner la génération automatique d’images.

Cnet

DALL-E est un logiciel de « génération d’images conditionnées par le texte », qui repose sur une intelligence artificielle (IA), elle-même entraînée avec des millions d’images scannées sur Internet, associées à leurs descriptions textuelles.

Ce volume INATTEIGNABLE à l’échelle humaine, et l’addition du scan des images et des descriptions, permet à l’algorithme d’absorber les concepts de chacune des images, pour les comprendre, et ainsi répondre au mieux aux demandes des utilisateurs de DALL-E.

Après une première version déjà très performante, OpenAI a steppé avec une nouvelle itération beaucoup plus performante, nommée DALL-E.

Concrètement, l’IA derrière DALL-E 2 se base sur deux modèles de deep learning.

D’abord, le CLIP : Contrastive Learning-Image Pre-training, ce qui donne en français « Apprentissage contrastif – Préformation d’image ». CLIP entraîne deux « réseaux neuronaux » parallèlement sur des images et sur les légendes associées. Le premier réseau apprend « les représentations visuelles dans l’image », pendant que le second apprend « les représentations du texte correspondant ».

Ce système permet à l’IA de s’entraîner à partir de critères les plus cohérents possibles – sans cela, on se retrouverait avec des images étranges, comme des moutons verts, dans le cas où le réseau neuronal penserait que les pixels verts sont une caractéristique liée aux moutons (souvent visualisés sur des images contenant de l’herbe).

Un point particulier est que CLIP n’a pas besoin d’avoir ses données d’apprentissage étiquetées en amont, et peut ainsi être entraîné sur « un nombre considérable d’images et de descriptions vagues trouvées sur internet ».

Ce qui permet à CLIP d’être beaucoup plus flexible qu’un système de classification d’images classique.

« Par exemple, si une image est décrite comme « un garçon qui fait un câlin à un chiot » et une autre comme « un garçon qui fait du poney », le modèle sera capable d’apprendre une représentation plus robuste de ce qu’est un « garçon » et comment il est lié à d’autres éléments dans les images. »

Ben Dickson – Techtalks

Le second modèle de deep learning utilisé est celui de la « diffusion » :

l’IA part d’un « bruit » (des données aléatoires), et apprend à modifier itérativement ce « bruit » pour revenir à une image. Pour faire simple, il s’agit d’une sorte « d’auto-encodeur », un système qui transforme les données qu’on lui fournit en une « représentation intégrée », et qui apprend ensuite à reproduire les données d’origine à partir des informations intégrées.

Cnet

Grâce à la combinaison de ces deux modèles de deep learning, la technologie DALL-E 2 peut-être « générative », à savoir qu’elle apprend automatiquement avant de produire en se basant sur ses connaissances. Ses immenses connaissances.

Ainsi, et c’est sa force, la technologie DALL-E génère des images de toute pièce, en se basant sur une connaissance suffisante pour proposer quelque chose de crédible, à minima, voir de totalement réaliste. Plus fort, les images générées ne sont pas de simples « coup de crayons », il s’agit d’images complexes, en couleur, pouvant representer aussi bien la cible texte demandée qu’un arrière-plan adapté.

« Les modèles génératifs sont un domaine de recherche en plein essor, qui a fait de grands progrès ces dernières années. Ils ont été utilisés pour une vaste gamme de tâches, notamment la création de visages artificiels, de deep fakes, ou de voix synthétisées. Mais ce qui distingue DALL-E 2 des autres modèles génératifs, c’est sa capacité à maintenir la cohérence sémantique des images qu’il crée »

Ben Dickson – Techtalks

A l’origine, lorsque Elon Musk et Peter Thiel créent OpenAI en 2015, le projet développe « un système capable de générer des articles de presse, des oeuvres de fiction et du code informatique à partir de la reconnaissance du texte ».

Fort d’un moteur nommé GPT ultra-performant, « capable de traiter un nombre colossal de paramètres », OpenAI avance pour passer du texte à l’image, en 2020, et DALL-E voit le jour.

Si les résultats de Crayion et son DALL-E mini sont déjà exceptionnels en soit, ceux de DALL-E 2 sont incomparables, se rapprochant de créations artistiques humaines de manière bluffante.

Retrouvez Ariel Paper sur les réseaux :


Derniers articles dans cette catégorie :