Guide détaillé : Créer des images avec l'IA

En un coup d'œil

L'intelligence artificielle générative transforme les idées mises à l'écrit en images, offrant des perspectives créatives illimitées.

Elle fonctionne grâce aux prompts : des descriptions textuelles qui guident l'algorithme dans la création d'images uniques.

Les images d'Arborescence étant conçues avec l'IA, ce guide a été pensé pour vous transmettre notre passion et nos secrets.

Que diriez-vous de pouvoir visualiser instantanément n'importe quelle idée ?

Un paysage onirique, un personnage imaginaire, une scène surréaliste, un logo. L'intelligence artificielle (IA) générative rend cela possible en transformant vos mots en images. Cette révolution créative a été permise par des algorithmes innovants qui associent le langage humain aux formes, couleurs, styles et compositions visuelles.

Midjourney excelle dans cette transformation créative, c'est la raison pour laquelle ce modèle a été choisi pour le guide. Contrairement aux logiciels traditionnels qui exigent des compétences techniques, l'IA requiert une autre qualité : la capacité à décrire vos idées à l'écrit. Une seule limite : votre créativité !

Le saviez-vous ?

Toutes les images d'Arborescence sont conçues avec Midjourney. Nous utilisons également d'autres outils (avant ou après l'IA) : Procreate (dessin digital) et Canva (graphisme).

Elles sont en accès libre pour tous les lecteurs.

Ce guide détaillé contient tous les secrets pour créer vos propres images avec l'IA !

Comprendre l'IA générative

L'IA générative fonctionne comme un artiste invisible qui aurait analysé des milliards d'œuvres d'art, photographies et illustrations. Non seulement elle est capable de rattacher un mot à son visuel, mais elle comprend aussi les associations : "coucher de soleil" évoque des oranges et des roses, "forêt mystérieuse" suggère des verts sombres et des jeux d'ombres.

Le prompt : votre pinceau textuel

Le prompt constitue votre principal outil créatif. Cette description textuelle guide précisément l'algorithme. Plus votre description est détaillée et structurée, plus le résultat correspond à votre vision. Pensez au prompt comme au brief que vous donneriez à un illustrateur : chaque consigne influence le résultat, avec une possibilité d'amélioration infinie.

L'accès à Midjourney

L'IA Midjourney est accessible via Discord ou sur le site officiel :

Idéalement, essayez les deux afin de choisir l'interface qui vous convient.

Le processus de création

Conseil préalable : Il existe un mode "fast" et un mode "relax". Le premier est plus rapide, mais il utilise des crédits (limités). À l'inverse, en activant le mode /relax vous pouvez créer librement.

La création débute par une entrée (prompt) : décrire l'image que vous souhaitez obtenir. L'algorithme génère alors quatre versions correspondant à différentes interprétations de votre texte. Cela offre un panel enrichi de choix créatifs.

Sous les images, apparaîtront des choix :

U1, U2, U3, U4 : Agrandir (upscale) l'image ;
V1, V2, V3, V4 : Variations de l'image ;
Relancer : Icône de droite sur la ligne U.

Pour se repérer facilement :

1 : image en haut à gauche
2 : image en haut à droite
3 : image en bas à gauche
4 : image en bas à droite

Plusieurs options s'offrent alors à vous :

Relancer le prompt : Si les images se rapprochent du résultat attendu mais ne conviennent pas, relancez le prompt.
Réécrire le prompt : Si elles s'en éloignent, il est recommandé de rédiger un nouveau prompt ou de l'améliorer.
Remix mode : Ce mode est idéal pour des résultats qualitatifs et précis. Il vous permet de modifier le texte au fur et à mesure, pour l'affiner, l'enrichir, le corriger. C'est également parfait pour progresser et comprendre l'algorithme.
Créer des variations : Si l'une des quatre images vous plaît, vous pouvez aller plus loin en créant des variations (quatre nouvelles images) inspirées de cette image :
- Strong : Variations importantes tout en gardant la base de l'image originale. Cette option est idéale pour les premiers essais et explorer vos idées. Vous pouvez la mettre par défaut dans /Settings (réglages) ;
- Subtle : Variations légères qui conservent l'esprit général et la composition. Cette option permet d'affiner les images proches du résultat final : les couleurs, le style, les détails, la lumière, la qualité, etc.
Upscale : Si une image convient, vous pouvez l'agrandir pour l'enregistrer. L'agrandir signifie ajouter des pixels supplémentaires dans l'image et la "lisser" (retrait du bruit). Si vous souhaitez que l'image soit plus détaillée ou améliorer véritablement sa qualité, corrigez cela avec "variation (subtle)" avant de l'agrandir.
- Les versions 6.1 et suivantes permettent de créer des variations après l'agrandissement. Elles offrent aussi deux options d'agrandissement :

- Upscale (subtle) : agrandissement ordinaire ;

- Upscale (creative) : l'IA agrandit l'image en la modifiant légèrement (comme une variation subtile), de façon aléatoire tout en respectant le prompt. C'est une voie intéressante lorsque l'image se rapproche du résultat mais que vous ne parvenez pas à l'atteindre. Vous pourrez par la suite l'affiner avec des variations et le mode remix.

Maîtriser les prompts simples

Principe de base

Commencez par décrire une scène simple et le style visuel. Cette approche vous familiarise avec l'algorithme : comment interprète-t-il vos descriptions ?

Elle est également idéale pour se lancer dans une image sophistiquée : vous obtiendrez une base que vous pourrez enrichir, détailler, affiner et personnaliser grâce au remix mode.

Conseil : L'IA Midjourney est plus performante lorsque le texte est écrit en anglais. N'hésitez pas à utiliser cette langue ou à utiliser un traducteur si le prompt est sophistiqué.

Astuce : Vous pouvez utiliser /describe pour télécharger une image et demander à Midjourney de proposer quatre descriptions afin de comprendre comment les rédiger.

Structure de prompt simple

/Imagine prompt: Scène simple, style

Quelques styles à expérimenter :

Photographie réaliste, portrait, paysage
Illustration, aquarelle, peinture à l'huile
Dessin au crayon, encre de Chine, croquis
Collage, abstrait, vintage, minimaliste

Essayez plusieurs styles pour une même scène afin de comprendre comment l'algorithme interprète vos descriptions. Cela permet aussi de stimuler la créativité : « visualiser votre pensée » dans un autre style peut faire émerger de nouvelles idées.

Structurer et affiner

Affinez vos prompts en décrivant précisément les éléments et leurs caractéristiques spécifiques. La ponctuation est votre alliée pour délimiter chaque composant.

Importance de la ponctuation

La ponctuation permet d'organiser vos idées avec précision : ce qui s'appliquera à la totalité de l'image, à un groupe spécifique, à un élément du groupe, etc. Les virgules suffisent la majorité du temps, mais pour les prompts complexes ou surréalistes, il est recommandé d'exploiter la ponctuation afin de gagner du temps.

Parenthèses ou crochets : isolent les caractéristiques d'un élément ;
Virgules : séparent les éléments d'un groupe avec leurs caractéristiques ;
Points-virgules : délimitent les groupes d'éléments avec leurs caractéristiques ;
Points : délimitent vos descriptions (scène, style, ambiance…).

La ponctuation est utile lorsque l'image contient plusieurs éléments. Par exemple, pour une scène où l'on voit une femme avec un parapluie turquoise, vous devez attribuer la couleur turquoise au parapluie.

La virgule permet de dissocier les éléments (femme, parapluie) du groupe (la femme et le parapluie) pour leur attribuer des caractéristiques.

En l'absence de ponctuation, l'IA appliquera la couleur de façon aléatoire à n'importe quel élément de l'image (vêtements, parapluie, ciel...) ou fera du turquoise la couleur dominante de l'image.

Le point est utile pour séparer les descriptions : la première phrase peut comprendre la description de la scène, la seconde le style, la troisième les précisions et à la fin, les exclusions (--no), le format (--ar …), la version (--v …).

Quelques techniques complémentaires

Vary Region : Cette fonctionnalité permet de modifier exclusivement une partie de l'image. Agrandissez votre composition, puis sélectionnez une zone pour que l'IA génère quatre nouvelles versions de cette zone. Il est recommandé d'affiner le texte pour lui permettre de comprendre ce qui est attendu. Il ne faut pas avoir peur d'apporter des précisions inhabituelles comme « une main réaliste avec cinq doigts ».

Exemple : lorsque l'image contient une personne, il arrive qu'un défaut apparaisse (morphologie inadéquate comme une main déformée ou encore, une peau lisse comme dans une illustration). Cela permet de le corriger, sans altérer le reste de l'image.

Pour les humains, il convient de bien observer les détails pour éviter ces problèmes : dents, mains, pieds, peau, yeux, bras, etc. De façon générale, il faut toujours être attentif aux détails, c'est généralement là que se cachent les anomalies.

--no word : Pour corriger un élément dans l'image, il existe une autre astuce. En ajoutant --no word à fin du texte, vous pouvez exclure quelque chose : une couleur, un objet, une ambiance, etc. Exemple : --no red obligera l'IA à exclure la couleur rouge. Plus le prompt est simple, plus l'IA s'octroie la liberté d'enrichir l'image de détails aléatoires qui ne vous plairont pas nécessairement.

Zoom Out : Une fois l'image agrandie une première fois, vous pouvez modifier le plan de l'image. Par exemple, si l'image se focalise sur un visage, utilisez Zoom Out 1.5x pour un portrait et Zoom Out 2x pour voir la personne entière.

/prefer suffix : Pour gagner du temps, vous pouvez enregistrer un texte qui s'ajoutera automatiquement à vos prompts. Cette option est très utile si vous créez plusieurs images pour un même projet ou si vous avez un style bien précis afin d'uniformiser vos créations.

Par exemple, vous pouvez déterminer le style, les tons, la qualité, le fond, le format et la version de Midjourney. Par la suite, vous n'aurez plus qu'à décrire la scène.

Blend : Ce mode permet d'importer deux (jusqu'à 5) images et de les fusionner pour en créer une nouvelle, avec la possibilité d'inclure un prompt. C'est une autre façon de concevoir une image et elle est très utile pour les images de niveau avancé :

Exemple pour un collage : Un collage comprend plusieurs éléments (ex : graphiques et/ou artistiques, photographies, illustrations, morceaux de journal, naturels comme des feuilles…). Sa création implique ainsi de décrire les différents éléments un à un, et d'expliquer comment les fusionner dans une image unique. Plus il y a d'éléments, plus l'IA peine à comprendre ce qui est attendu. Le mode blend est alors idéal : il permet de créer un à un ces éléments (images) avant de les fusionner.

Exemple pour le surréalisme : Le surréalisme met également l'IA en difficulté ! Plus l'image est surréaliste, plus il est délicat et long d'obtenir un résultat satisfaisant. Ici, le mode blend peut être utilisé pour « déconstruire » avant de « reconstruire ». Vous pourriez créer une image pour la texture, une image pour les couleurs, une image pour les jeux de lumière et une image pour la scène avant de les fusionner en complétant avec un texte. Cela permet d'obtenir des résultats surprenants et bien souvent, plus qualitatifs qu'en se limitant exclusivement à un prompt.

Créer des images enrichies

Amoureux des mots et perfectionnistes, libérez vos qualités !

Chaque terme que vous utilisez a son importance : l'algorithme transforme littéralement vos mots en éléments visuels. Ainsi, plus vous apportez de précisions et choisissez les mots justes, plus les résultats sont qualitatifs.

Vous pouvez ainsi sculptez chaque détail de votre image en décrivant précisément les lumières, les textures, les couleurs, les émotions et bien plus encore ! Exploitez également les paramètres techniques de Midjourney pour un rendu encore plus personnalisé.

Les caractéristiques que vous décrivez permettent de déterminer avec précision chaque élément de l'image : individuellement et/ou l'ensemble. Par exemple, vous pouvez choisir une atmosphère poétique et des couleurs pastel pour la globalité, puis préciser que l'élément au cœur de votre scène a une couleur vibrante et orienter la lumière sur lui afin qu'il ressorte.

Exemples de caractéristiques :

Couleurs : indigo, cyan… ; pastel, vibrantes, douces, noir et blanc, froides…
Textures : granuleux, fibreux, lisse, gluant, doux, velouté, gras, sec, humide…
Aspects : brillant, lumineux, mat, reflets, ombres, sombre…
Matières : cuir, roche, céramique, verre, bois, velours, métal, papier…
Emplacements : droite, haut, centre… de… ; au premier plan… ; derrière…
Humains / Animaux : humeur, gestuelle, position, action, émotion…
Atmosphères : poétique, pluvieux, inspirant, joyeux, macabre, dramatique…
Lumières : dorée, tamisée, naturelle, dramatique, diffuse, cinématographique…
Contrastes : élevé, faible, doux, HDR…
Styles : minimaliste, artistique, détaillé, réaliste, BD, photographie…
Effets : bokeh, reflets, illusion d'optique, particules, vapeur, 3D…

Vous pouvez appliquer les caractéristiques d'un élément à un autre élément qui dans la réalité ne pourrait en bénéficier. Par exemple, une feuille d'arbre en velours ou un océan de peinture. Les possibilités sont infinies, c'est ce qui rend cet outil extraordinaire pour stimuler la créativité et se libérer des limitations traditionnelles !

Paramètres techniques avancés

Les paramètres avancés doivent être insérés à la fin du prompt pour être valides. Ils permettent de préciser le format ou encore, la version de l'algorithme.

Choisir un format :

--ar 16:9 : paysage cinématographique

--ar 3:4 ou 4:5 : portrait classique

--ar 1:1 : carré, format par défaut

--ar 9:16 : format smartphone vertical

Choisir une version :

L'algorithme a beaucoup évolué au gré des années. Si les premières versions comprenaient de nombreux défauts, les trois dernières sont très intéressantes :

--v 5.2 : excellente base créative, idéale pour les concepts artistiques et surréalistes

--v 6.1 : textures riches et détaillées, parfaite pour les illustrations complexes

--v 7.0 : réalisme optimal, recommandée pour les photographies hyperréalistes

Bon à savoir : En mode remix pouvez changer de version pendant le processus créatif. Chacune possède des spécificités, des atouts et des défauts que vous pouvez ainsi exploiter.

Par exemple, c'est la version 5.2 qui a été utilisée pour concevoir notre image surréaliste. Elle offre plus de souplesse et liberté créatives. Une fois la base obtenue, la version 6.1 a été sélectionnée pour l'enrichir de détails et corriger les défauts. Et enfin, la version 7.0 pour rendu plus naturel et réaliste, tout en préservant le surréalisme.

Astuce : Le passage d'une version à l'autre peut conduire à une modification importante. Il arrive même que la nouvelle version ne comprenne pas ce qui se trouve dans l'image. Pour éviter ce problème, il est recommandé de changer de version avec une variation « subtle » (et non « strong »).

Stylize, la liberté octroyée à l'IA :

Par défaut, le stylize est réglé sur Medium. Cela signifique que lorsque vous écrivez un prompt l'IA peut l'interpréter avec une certaine liberté en déterminant de façon aléatoire les couleurs, le style, la scène, etc. Ce réglage peut être modifié en ajoutant à la fin :

--s 50 : la liberté offerte à l'IA est réduite (low), de sorte qu'elle doit exécuter le prompt sans aller au-delà. Cela est utile pour les prompts sophistiqués.

--s 750 : à l'inverse, l'IA aura ici une grande liberté (very high), avec des résultats intéressants pour le surréalisme et l'art.

Le nombre qui suit --s, c'est à dire, le niveau de liberté, est libre ! Vous pouvez ainsi le moduler comme vous le souhaitez.

Cette option est également disponible dans les réglages : low, med, high, very high.

Lancez-vous !

À présent, vous avez toutes les clés en main pour créer vos propres images.

Commencez avec un prompt simple : une scène dans le style qui vous attire. Observez comment l'algorithme interprète vos mots, essayez plusieurs styles puis affinez progressivement. Plus vous pratiquez, plus vous développez l'intuition des mots qui produisent les effets désirés.

Très belle expérience créative à vous !