Stable Diffusion de Stability AI : Un générateur d’images plus puissant, avec moins de limites

Tout savoir sur Stable Diffusion de Stability AI, un programme de génération d'image à partir de texte.

Stable Diffusion de Stability AI veut concurrencer la technologie Dall-E 2 d’Open AI, et les outils Craiyon ou Midjourney, avec moins de limites…

Stable Diffusion est une idée de Emad Mostaque, l’actuel CEO. Diplômé d’Oxford d’un master en mathématiques et en informatique, Mostaque a d’abord été analyste dans plusieurs fonds.

En 2019, il a cofondé Symmitree dont le but est :

Briser la pauvreté en réduisant le coût de l’accès aux smartphones et à l’internet grâce aux dernières technologies et à un peu de magie financière.

Et en octobre 2020, Mostaque lance Stability AI, motivé à la fois par une fascination personnelle pour l’IA et par ce qu’il a qualifié de manque d’ »organisation » au sein de la communauté open source de l’IA.

Pour TechCrunch, le dirigeant explique :

« Personne n’a de droit de vote à l’exception de nos 75 employés – pas de milliardaires, de grands fonds, de gouvernements ou quiconque ayant le contrôle de l’entreprise ou des communautés que nous soutenons.

Nous sommes complètement indépendants. Nous prévoyons d’utiliser nos capacités de calcul pour accélérer l’IA fondamentale et open source ».

Emad Mostaque
Emma watson générée par Stable Diffusion de Stability AI en aout 2022
Emma Watson par Stable Diffusion

Stable Diffusion de Stability AI

Stable Diffusion est un modèle text-to-image qui permettra à des milliards de personnes de créer des œuvres d’art époustouflantes, en quelques secondes.

Stability AI

Cette startup propose une IA semblable à celle de Dall-E 2, de OpenAI.

DALL-E 2, le puissant système d’intelligence artificielle « text to image » d’OpenAI, peut créer des images dans plusieurs styles, avec un réalisme humain saisissant. Aussi, Dall-E 2 a une limitation importante et volontaire : un filtre, qui l’empêche de générer des images de personnalités publiques, et des contenus spécifiques (nudités, etc…).

La startup Stability AI, basée à Londres, a annoncé le 10 août 2022 la mise à disposition d’un système similaire à DALL-E 2, nommé Stable Diffusion, pour un millier de chercheurs, avant un lancement public dans les semaines à venir.

Stable Diffusion est le fruit d’une collaboration entre Stability AI, RunwayML, des chercheurs de l’université de Heidelberg et les groupes de recherche EleutherAI et LAION.

Concrètement Stable Diffusion génère des images de 512×512 pixels, en quelques secondes à quelques minutes, à partir d’un texte. Comme d’autres tools déjà bien connus du marché.

L’outil est conçu pour fonctionner sur la plupart des GPU grand public. De fait, Stable Diffusion peut fonctionner sur des cartes graphiques disposant d’environ 5Go de VRAM, soit la capacité de cartes milieu de gamme (comme la GTX 1660 de Nvidia).

« Stable Diffusion permettra à la fois aux chercheurs et bientôt au public de l’exécuter dans un éventail plus large de prérequis matériels, démocratisant ainsi la génération d’images. Nous sommes impatients de voir l’écosystème ouvert qui émergera autour de ce modèle et d’autres modèles pour vraiment explorer les limites de l’espace latent. »

Le modèle de Stable Diffusion a été testé à grande échelle, avec plus de 10 000 bêta-testeurs via son serveur Discord, qui ont créé et créent encore environ 1,7 million d’images, par jour. 

Stable Diffusion s’appuie sur les travaux de recherches de OpenAI bien sûr, mais aussi Runway et Google Brain (une des divisions de recherche et développement de Google spécialisées dans l’intelligence artificielle).

LAION 5B : Une base de données de 5,6 milliards d’images comme outil d’entrainement

Avec Hugging face et Doodlebot, Stability AI a financé la création de LAION 5B, une base de données open-source de 250 tera, contenant 5,6 milliards d’images extraites d’Internet.

LAION, qui signifie Large-scale Artificial Intelligence Open Network, est une organisation à but non-lucrative dont l’objectif est de mettre l’IA, les bases de données et le code à la disposition du public.

La société a également travaillé avec LAION pour créer un sous-set de LAION 5B nommé LAION-Aesthetics, qui contient 2 milliards d’images filtrées par l’IA et classées particulièrement « belles » par les testeurs de Stable Diffusion. La première version de Stable Diffusion était basée sur LAION-400M, le prédécesseur de LAION 5B, qui est aussi connu pour contenir des images à caractères sexuelles.

Notre protocole de filtrage n’a supprimé que les images NSFW détectées comme illégales, mais l’ensemble de données a toujours du contenu NSFW marqué en conséquence dans les métadonnées. Lorsque vous naviguez librement dans l’ensemble de données, gardez à l’esprit qu’il s’agit d’un ensemble à grande échelle, non organisé , extrait d’Internet à des fins de recherche, de sorte que les liens collectés peuvent conduire à un contenu gênant et dérangeant. Par conséquent, veuillez utiliser les liens de démonstration avec prudence . Vous pouvez extraire un sous-ensemble « sûr » en filtrant les échantillons tirés avec NSFW ou via un filtrage CLIP plus strict.

Laion

LAION-Aesthetics tente de corriger ce problème, sans que les informations sur le succès complet ou partiel ait été rendu public.

Le système Stable Diffusion a été entraîné sur des paires texte-image, pour apprendre les associations entre les écrits et les images associées, comme la façon dont le mot « oiseau » peut faire référence non seulement aux aigles bruns, mais aussi aux corbeaux noirs et aux perroquets multicolores, ainsi qu’à des notions plus abstraites.

Au moment de son exécution, Stable Diffusion, comme DALL-E 2, décompose le processus de génération d’images en un processus de « diffusion ».

Il commence avec du bruit pur et affine l’image au fil du temps, en la rapprochant progressivement d’une description textuelle donnée, jusqu’à ce qu’il n’y ait plus de bruit du tout.

TechCrunch

Les deux distributions de Stable Diffusion

Stability AI sera ainsi la première à publier un modèle de génération d’images d’une fidélité presque aussi élevée que celle de DALL-E 2.

Bien que d’autres générateurs d’images boostés à l’IA soient disponibles, notamment Midjourney, NightCafe et Pixelz.ai, aucun d’entre eux n’a ouvert son environnement.

D’autres, comme Google et Meta, ont même fait le choix de garder leurs technologies secrètes, ne permettant qu’à certains users de les piloter, pour des cas d’utilisation déterminés.

La startup Stability AI prévoit deux approches pour rendre Stable Diffusion disponible au grand public.

Comme d’autres, elle hébergera son système dans le cloud, derrière des filtres réglables, ce qui permettra donc aux gens de continuer à l’utiliser pour générer des images, sans avoir à faire fonctionner l’infrastructure hardware eux-mêmes.

Et une option dédiée aux entreprises, pas encore bien définie.

Stability AI gagnera de l’argent en formant des modèles « privés » pour les clients et en agissant comme une couche d’infrastructure générale, a déclaré Mostaque – probablement avec un traitement sensible de la propriété intellectuelle.

La société affirme avoir d’autres projets commercialisables en cours de réalisation, notamment des modèles d’IA pour générer de l’audio, de la musique et même de la vidéo.

TechCrunch

« Nous fournirons plus de détails sur notre modèle commercial durable bientôt avec notre lancement officiel, mais il s’agit essentiellement du playbook commercial des logiciels open source : services et infrastructure à l’échelle », a commenté le CEO Emad Mostaque.

« Nous pensons que l’IA prendra le chemin des serveurs et des bases de données, avec des systèmes ouverts battant les systèmes propriétaires – en particulier compte tenu de la passion de nos communautés. »

Stable Diffusion, et l’absence de limites ?

Même si les résultats de Stable Diffusion ne sont pas encore parfaitement convaincants, la création libre et ouverte de fausses images de personnalités publiques ouvre une boîte de Pandore mal-estimée.

Et le fait de rendre les éléments bruts du système librement disponibles (voir le github) ouvre la porte aux acteurs malveillants, qui pourraient les entraîner sur des contenus inappropriés, comme la pornographie et la violence.

Avec la version hébergée de Stable Diffusion – celle disponible via le Discord dédié – Stability AI ne permet pas tout les types de génération d’images.

Les conditions d’utilisation interdisent certains contenus obscènes ou sexuels (mais pas les silhouettes peu vêtues), les images haineuses ou violentes (telles que l’iconographie antisémite, les caricatures racistes, la propagande misogyne et misandrique), les messages contenant du matériel protégé par des droits d’auteur ou des marques déposées, et les informations personnelles telles que les numéros de téléphone et de sécurité sociale. Mais si Stability AI a mis en place un filtre de mots-clés dans le serveur similaire à celui d’OpenAI, qui empêche le modèle de même tenter de générer une image qui pourrait violer la politique d’utilisation, il semble être plus permissif que la plupart.

TechCrunch

Stability AI n’a pas de politique contre les images de personnalités publiques. On peut donc supposer que les deepfakes vont être produits (massivement ?) avec, bien que le modèle ait parfois du mal à traiter les visages, comme Craiyon entre autres, introduisant des « artefacts » bizarres sur l’image, qu’un artiste Photoshop expérimenté aurait rarement. Des yeux de travers, une bouche étrange, un sourire comme malsain, etc…

« Les modèles de référence que nous publions sont basés sur des recherches générales sur le Web et sont conçus pour représenter l’imagerie collective de l’humanité comprimée dans des fichiers de quelques gigaoctets.

En dehors du contenu illégal, le filtrage est minimal, et c’est à l’utilisateur de l’utiliser comme il le souhaite.« 

Stability AI

Ainsi, les testeurs du serveur Discord utilisent Stable Diffusion pour générer une série de contenus interdits par d’autres services de génération d’images, notamment des images de la guerre en Ukraine, des femmes nues, une invasion chinoise imaginaire de Taïwan et des représentations controversées de figures religieuses comme le prophète Mahomet.

Il ne fait aucun doute que beaucoup de ces images sont contraires aux règles de Stability AI, mais l’entreprise compte actuellement sur la communauté pour signaler les violations.

Et beaucoup portent les signes distinctifs et révélateurs d’une création algorithmique, « comme des membres disproportionnés et un mélange incongru de styles artistiques« . Mais d’autres sont largement crédibles à première vue, comme cette série d’image de Boris Johnson tenant plusieurs armes.

Une série d'images de Boris Johnson avec des armes générée par Stable Diffusion
Boris Johnson généré avec des armes par Stable Diffusion

Et la technologie va continuer à s’améliorer, sans doute.

Le CEO de Stability AI soutient que, en rendant ses outils librement disponibles, cela va permettre à la communauté de développer des contre-mesures.

« Nous espérons être le catalyseur pour coordonner l’IA open source mondiale, à la fois indépendante et universitaire, afin de construire une infrastructure, des modèles et des outils vitaux pour maximiser notre potentiel collectif. C’est une technologie étonnante qui peut transformer l’humanité pour le meilleur et qui devrait être une infrastructure ouverte pour tous. »

Emad Mostaque

Mais, bien sûr, tout le monde n’est pas d’accord, et les récents exemples d’IA publiques et ou toxiques sont nombreux. Avec d’abord, récemment le fiasco du chatbot de Meta : Quelques jours seulement après avoir été lancé sur le web son chatbot BlenderBot 3, Meta a été contraint de répondre à des articles, « selon lesquels le bot faisait fréquemment des commentaires antisémites et répétait de fausses affirmations sur la réélection de l’ancien président américain Donald Trump il y a deux ans. »

Latitude, l’éditeur de AI Dungeon, a rencontré un problème de contenu similaire. Certains joueurs du jeu d’aventure, qui est alimenté par le système de génération de texte GPT-3 d’OpenAI (et dont la spécificité est d’être en mode texte), ont observé qu’il faisait parfois apparaître des thèmes sexuels, voir de la pédophilie. Face à la pression logique d’OpenAI, Latitude a du mettre en place un filtre, et bannir automatiquement les joueurs qui suscitaient délibérément des contenus interdits.

« GPT-4chan », un modèle d’IA entraîné sur l’un des forums de discussion tristement toxiques de 4chan, a été publié par le chercheur en IA Yannic Kilcher sur Hugging Face début 2022. Sauf que GPT-4chan a appris à produire des discours de haine racistes, antisémites et misogynes. Face au tollé, l’équipe de Hugging Face a d’abord « verrouillé » l’accès à GPT-4chan, avant de le supprimer complètement, mais pas avant qu’il ait été téléchargé plus de mille fois.

Stable Diffusion contient peu de filtres d’atténuation, à part le filtrage de base des ensembles de données d’entraînement.

Mais qu’est-ce qui va empêcher quelqu’un de générer, dans un exemple volontairement extrême, des photos pornographiques d’actrices ou d’acteurs mineurs ? Rien en fait.

Mais Emad Mostaque assume que c’est le but.

« Un pourcentage de personnes est simplement désagréable et bizarre, mais c’est l’humanité. En effet, nous pensons que cette technologie sera prévalente, et l’attitude paternaliste et quelque peu condescendante de nombreux aficionados de l’IA est erronée en ne faisant pas confiance à la société …

Nous prenons des mesures de sécurité importantes, notamment en formulant des outils de pointe pour aider à atténuer les préjudices potentiels à travers la libération et nos propres services. Avec des centaines de milliers de personnes développant ce modèle, nous sommes convaincus que le bénéfice net sera immensément positif et qu’au fur et à mesure que des milliards de personnes utiliseront cette technologie, les inconvénients seront annulés. »

Emad Mostaque
Taylor Swift par Stable Diffusion de Stability AI
Taylor Swift, par Stable Diffusion (Stability AI)

Retrouvez Ariel Paper sur les réseaux :


Derniers articles dans cette catégorie :