Arts Générés 2 – La technologie du pillage de masse

Pour bien comprendre les différents scandales qui secouent les sphères IA, que ce soit pour le graphisme, le rédactionnel, la musique ou les vidéos, il faut en saisir les bases technologiques. Le terme prétendu Intelligence Artificielle est un abus de langage posé par facilité par un marketing avide en investissements extérieurs. A ce jour, ce qu’on appelle une IA n’a guère plus d’intelligence que le thermostat de votre fer à repasser. On lui prête une capacité de raisonnement qui en fait ne tient qu’à ses capacités à manipuler des quantités de données au delà des facultés humaines. Mais ces manipulations restent mathématiques, qu’elle se fassent par un seul ou une ribambelle d’algorithmes travaillant de concert.

Concrètement l’illusion d’intelligence des IA actuelles tient exclusivement par des imbrications d’algorithmes qui sont juste capables de se réajuster pour s’optimiser dans des domaines précis. Ils peuvent aussi travailler de concert entre modules spécialisés ; on parle alors d’IA multimodales. Leur combinaison les rend extrêmement performants pour des tâches avec des résultats attendus. Notez bien le terme Attendus. C’est ce qui va trahir l’absence d’intelligence des systèmes actuels.

Dans l’absolu on peut donc avoir toutes sortes d’agents IA qui ont été programmés pour des tâches précises. Résumer des textes. Supprimer les respirations dans de l’audio. Trouver les passages les plus dynamiques sur des vidéos. Et donc pour ce qui nous concerne fabriquer de A à Z une image finale d’une simple description textuelle. Ce que nous dénommons IA est souvent la somme d’agents IA qui interagissent tant en entrées pour comprendre nos requêtes, qu’en analyse pour regrouper les données concernées, puis en calculs pour effectuer les opérations demandées. A aucun de ces stades il n’y a le moindre signe d’intelligence, si ce n’est que ces algorithmes peuvent peaufiner à la volée leur réglages pour leurs réponses tant en qualité que vitesse pour la prochaine requête utilisateur similaire.

Réaliser ce genre de performance implique impérativement de mettre à disposition de ces agents IA des quantités colossales de données. Un volume qu’une vie humaine entière ne suffirait pas à assimiler. Et que plusieurs siècles de civilisations ne suffiraient pas à créer vu la vitesse à laquelle les systèmes ingurgitent nos informations. On en a la preuve aujourd’hui puisque toutes les entreprises IA actuelles ont usé de la profusion de contenus qu’offre internet pour créer chacune leurs bases spécialisées, ou Seeds comme j’aime à les appeler. Le web est une vaste bibliothèques constituée de nombre documents plus ou moins spécialisés, un champs de blé qu’il suffit de faucher pour créer depuis zéro tout un tas de bases de données orientées. C’est là qu’on revient au Machine Learning qui depuis les années 2010 ratisse l’internet sans qu’on ne sache trop que faire de toutes les informations récoltées.

Les systèmes Machine Learning et LLM sont en fait les moissonneuses qui alimentent les noyaux IA actuels. Pour de l’image par exemple, elles récoltent sans distinction croquis, illustrations, photos pour ensuite les soumettre à des agents capables de les classer tant par sujet, aspect, contenu, couleurs, styles, etc. L’indexation est la clé du système, d’ailleurs souvent vérifiée en arrière plan par des « petites mains du web sous payées » en charge de valider ou pas les choix hésitants de l’automatisation. Un mensonge de plus de la tech qui voudrait vous faire croire que tout ce classement se fait parfaitement (faux !) comme par magie (re-faux !).

Les conséquences de l’indexation sont nombreuses. Elles vont sérieusement peser sur la finesse des résultat potentiels proposés par les IA. Plus grave, elles vont aussi donner certains penchants aux IA en observant par séries leurs résultats rapportés. C’est ainsi que différents scandales ont déjà été montés en crèmes au sujet d’IA xénophobes ou qui souhaiteraient exterminer l’humain. Rappel : l’IA n’a aucun raisonnement humain, ne porte aucune trace de notre intelligence ; elle traite sur commande pour ramener du résultat sans en juger la portée ou l’interprétation finale. Les penchants qu’on peut leur reprocher sont directement imputables à la qualité d’indexation qu’on leur aura attribué. Car en fait TOUS les résultats rapportés par des IA sont la somme de moyennes attendues plutôt que de réelles interprétations et remises en question.

Les entreprises IA des début 2020 ne sont que la culture d’un charlatanisme qui voudrait, par pur intérêt marketing & investisseurs, prêter à du logiciel de l’interprétation réelle. Mais surtout qui se cachent bien de rappeler d’où viennent ses sources. Car les bases fabriquées par les LLM ont été dans 99% des cas construites dans la plus grande illégalité sur le vol des données laissées par les autres entreprises et utilisateurs sur le Net. Nous sommes devant le plus gros braquage de l’humanité et les coupables se baladent chaque jour tranquilles de salon en salon, de réunions investisseurs en spots de pubs manipulateurs, sans l’ombre d’une inquiétude.

Pour l’image nous avons tous été bernés. Les professionnels en première ligne, car le web était supposé leur servir de vitrine pour partager et faire connaitre leurs talents. Les particuliers aussi puisque vos propres photos et dessins partagés sur réseaux sociaux ont servi la plupart du temps à reconstruire des modèles d’ethnies par exemple, ou cartographier en détails des endroits de la planète mal documentés. Les abus sont milliards et au moment où j’écris ces lignes, aucune proposition n’a été faite par ces fameux pionniers de l’IA pour dédommager les personnes lésées. Un travail peut être offert en partage, il n’est pas pour autant gratuit. Derrière ce sont souvent des heures, des mois, des années de travail pour fabriquer les contenus. Par des gens qui ne sont pas des automatismes mais bien souvent de réels spécialistes qui ont passé des années à se perfectionner cumuler de l’expérience. Et recoupent leur travaux pour afficher au plus exact le contenu final.

Pour les IA textuelles on estime la taille de leur base de données à plusieurs dizaines de trillions d’articles.

Pour les IA texte vers image les bases des systèmes les plus perfectionnés cumulent en moyenne plusieurs milliards de visuels recensés

Pour les IA texte vers vidéo les chiffres actuels dépassent déjà le milliard de clips utilisés et s’oriente à l’exponentiel niveau heures référencées

Nous assistons bien au plus grand braquage que notre civilisation ait connu et RIEN n’est fait.

Pourtant nous verrons dans le prochain chapitre que les IA génératives sont, malgré les contestations de puristes sérieusement bornés, de belles opportunités pour tous les créateurs graphiques déjà expérimentés. Et la fin de ma phrase précédente a un sérieux poids dans la validité de ce que j’affirme. Mon conseil : apprenez et continuez d’apprendre ; on en sait jamais trop.

Ce contenu a été publié dans News par K.. Mettez-le en favori avec son permalien.

A propos K.

Dompteur de pixels depuis 1984. Disponible pour vos travaux de créations graphiques, photographies, compositing, pour la décoration tant que pour le commercial. No limits.