© Unsplash

De l’évolution des peintures rupestres à l’écriture, il a fallu des millénaires. Le voyage de retour pourrait être à portée de main. 

La communication humaine a commencé par les images. Bien avant le premier mot écrit, nos ancêtres peignaient des scènes sur les parois des grottes—non pas comme décoration, mais comme systèmes de communication visuelle transmettant des idées complexes sur la chasse, les structures sociales et les croyances spirituelles. Ces premières images étaient directes, expérientielles, et universellement compréhensibles au sein de leurs communautés.

Avec le développement des civilisations, les limites de la communication purement visuelle sont devenues évidentes. Comment peindre la justice ? Comment dessiner le concept de demain, ou le sentiment de regret ? Le monde invisible, les concepts abstraits, les relations humaines et les états d’esprit exigeaient un nouvel outil. Le langage écrit a émergé comme la solution de l’humanité, permettant de discuter de l’invisible et du conceptuel avec une précision inédite.

Ce saut évolutif s’est accompagné d’un compromis. Si l’écriture a libéré la pensée abstraite et le raisonnement complexe, elle a relégué l’image au second plan. Les images sont devenues des icônes, puis des hiéroglyphes, puis des caractères, jusqu’à n’être plus qu’illustrations du texte. Au fil des siècles, nous avons enrichi nos vocabulaires textuels tandis que notre alphabet visuel est resté relativement primitif.

Le piège de la photographie de stock

peintures rupestres Lascaux

Aujourd’hui, l’IA générative reflète cette limite historique. Lorsque nous demandons aux IA actuelles de visualiser des concepts abstraits comme « innovation » ou « durabilité », nous obtenons les clichés ennuyeux de la photographie de stock : une ampoule pour l’idée, une poignée de main pour le partenariat, une feuille verte pour la conscience environnementale. Ces symboles artificiels, créés pour des usages commerciaux plutôt que pour une communication enrichie, représentent l’extrémité la plus pauvre de l’expression visuelle humaine.

Ce n’est pas un échec technique de l’IA, mais un problème de données d’entraînement. Les IA actuelles apprennent à partir des déchets visuels de notre culture commerciale, plutôt qu’à partir de la riche tradition de communication visuelle naturelle de l’humanité. Elles reproduisent les raccourcis visuels de la publicité et de la photo de stock plutôt que de puiser dans les systèmes non verbaux sophistiqués que nous utilisons chaque jour.

Capture d’écran d’une banque d’images

Rappelons que 65 % de la communication humaine est non verbale. Chaque conversation contient des couches de gestes, de relations spatiales, d’expressions faciales et d’indices environnementaux qui transmettent du sens avec une précision remarquable. Nous arrangeons spontanément des objets pour expliquer des idées, nous utilisons nos mains pour décrire des relations, et nous modulons nos expressions pour communiquer des états émotionnels nuancés. Cela constitue un vaste langage visuel que nous n’avons encore que très peu systématisé.

Dans notre rapport au monde, cela prend une dimension encore plus cruciale. Le monde « nous parle visuellement », et nous prenons des décisions en fonction de ce que nous voyons. Nous recevons sans cesse des signaux non verbaux de notre environnement que nous lisons comme un langage et qui nous permettent de le comprendre. La photographie en capture une partie, étendant cette lecture visuelle au-delà de notre champ immédiat, dans nos voyages, nos journaux ou nos magazines.

Un nouveau paradigme d’entraînement

La solution ne réside pas dans de meilleurs algorithmes, mais dans de meilleures données. Et si, au lieu d’entraîner les IA sur des images commerciales, nous les entraînions sur la façon dont les humains communiquent réellement par l’image ? Si nous capturions le riche corpus d’expressions visuelles du quotidien : les gestes d’un enseignant pour expliquer un concept complexe, les mises en scène spatiales que l’on crée pour raconter une histoire, ou encore les aménagements de l’environnement qui traduisent des idées abstraites ? Comment traversons-nous une rue ? Comment plantons-nous et entretenons-nous un jardin ?

Cette approche déplacerait l’IA de la reproduction de symboles artificiels vers la compréhension des véritables schémas de communication visuelle humaine. Plutôt que de générer des métaphores éculées, l’IA apprendrait à reconnaître et à répliquer les signaux visuels subtils que nous utilisons naturellement pour comprendre et communiquer des abstractions. Exactement comme nous enseignons aux voitures autonomes à « lire » leur environnement uniquement via des capteurs visuels comme les lidars.

Les implications dépassent largement l’amélioration des images de stock. Il s’agit potentiellement du développement d’un nouveau langage visuel, capable de traiter les concepts abstraits qui nous avaient poussés vers l’écriture, mais ancré dans nos capacités naturelles de communication visuelle.

Le retour à une communication visuelle première

Nous entraînons les voitures à apprendre à partir de ce qu’elles voient. Photo : Velodyne Lidar

Cette évolution pourrait permettre une inversion historique : un retour à une communication centrée sur l’image, mais avec un niveau de sophistication rivalisant, voire surpassant, celui du texte. Au lieu de lire de longs développements pour expliquer des concepts complexes, nous pourrions communiquer par images générées, aussi immédiates qu’un mammouth peint sur une paroi, mais dotées de la profondeur conceptuelle que l’écriture a mis des millénaires à développer.

Imaginez des visuels capables de communiquer « la tension entre liberté individuelle et responsabilité collective » ou « l’expérience émotionnelle du déplacement technologique » avec la clarté et la rapidité des images, mais sans perdre la nuance que ces concepts exigent. Il ne s’agit pas de remplacer le texte, mais d’élargir notre répertoire expressif pour inclure la visualisation d’abstraction, un pas au-delà des emojis.

Les applications potentielles traversent les secteurs : contenus pédagogiques rendant les notions complexes immédiatement compréhensibles, communication interculturelle transcendant les barrières linguistiques, outils thérapeutiques aidant à exprimer des états émotionnels difficiles, ou encore communication d’entreprise transmettant des concepts stratégiques avec une clarté inédite.

Le défi culturel

4 exemples d’utilisation du prompt : « La tension entre liberté individuelle et responsabilité collective », générée par une IA. Nous pouvons certainement faire mieux

L’obstacle principal n’est pas technique, mais culturel. Développer ce langage visuel sophistiqué suppose de dépasser les clichés visuels de la culture commerciale pour atteindre une véritable littératie visuelle. Cela signifie entraîner les IA sur les schémas authentiques de communication visuelle humaine tout en développant des cadres de signification visuelle capables de fonctionner au-delà des frontières culturelles.

Le défi ressemble aux débuts du langage écrit : des communautés doivent forger un sens partagé des images, créer des systèmes d’apprentissage de la lecture visuelle, et établir une grammaire et une syntaxe visuelles. À la différence des millénaires qu’a nécessité le langage écrit, nous avons désormais les outils pour accélérer ce processus de manière spectaculaire.

Implications pour les industries créatives

Pour les photographes, les graphistes et les communicants visuels, cela représente à la fois une disruption et une opportunité sans précédent. Le modèle actuel, fondé sur le symbolisme commercial et les clichés culturels, deviendra probablement obsolète. Il faudra alors des professionnels capables de comprendre les schémas profonds de la communication visuelle humaine et de travailler avec les IA pour inventer de nouvelles formes d’expression.

Le défi créatif se déplacera : produire non pas des images séduisantes, mais des communications visuelles porteuses de sens. La réussite ne dépendra pas de la maîtrise des conventions existantes, mais de la capacité à en créer de nouvelles, alliant intuition humaine et capacités génératives de l’IA.

Une révolution de la communication

Les emojis sont-ils un premier pas ? Photo : Planet Volumes/Unsplash

Nous nous trouvons à un moment historique unique : nous possédons la capacité technique de revenir à une communication visuelle première, tout en conservant la sophistication conceptuelle que l’écriture a rendue possible. La question n’est pas de savoir si cette transformation aura lieu, mais à quelle vitesse nous pourrons développer la littératie visuelle et les cadres culturels nécessaires pour la faire fonctionner.

Les implications dépassent la technologie de communication pour toucher aux questions fondamentales de l’expression humaine, de la transmission culturelle et de l’avenir même de la littératie. À mesure que nous avançons vers ce futur visuel, nous ne développons pas seulement de meilleures IA : nous pourrions libérer une forme de communication humaine plus intuitive, immédiate et universelle, capable de remodeler nos idées, la manière dont nous les partageons, construisons la compréhension et créons du lien.

Les peintres de Lascaux n’auraient jamais imaginé que leur système visuel de communication céderait un jour la place à l’écriture. Nous approchons désormais du moment où leur médium, enrichi par l’intelligence artificielle et ancré dans l’expression visuelle authentique de l’humanité, s’apprête à reprendre sa place au centre de la communication humaine.

Paul Melcher
Si cet article vous a intéressé...Faites un don !
Et pour ne rien louper, abonnez vous à 'DREDI notre lettre du vendredi