L’arrivée de l’intelligence artificielle (IA) générative suscite de nombreuses interrogations. Usage, pertinence, transparence… chacun s’interroge. Quant à la propriété intellectuelle liée aux contenus, elle occupe et préoccupe bon nombre de juristes, mais aussi d’éditeurs, auteurs, journalistes ou autres agences de communication. Quels sont les enjeux et les challenges pour les ayants droit et les utilisateurs ? Quels sont les risques ? Quelles sont les limites ? Peut-on tout publier ? Qui veille et surveille ?... Autant d’interrogations qui ont fait l’objet de la Matinale de la FNIM du 28 février 2024, organisée à la fois dans les locaux du Roof Top Grenelle, à Paris, et en visioconférence. Un débat mené en présence de Sandra Chastanet, directrice Ayants droit & Affaires internationales au sein du Centre Français d’exploitation du droit de Copie (CFC), et Guillaume Crisafulli, directeur Licences & Développement des marchés numériques, également au CFC. Une Matinale animée par Pierre-Henri Freyssingeas, président de l’agence Henri 8 et président d’honneur de la FNIM.
Le secteur de l’intelligence artificielle (IA) générative connaît un essor sans précédent. « Il devrait représenter 42 milliards d’euros en 2023, soit le double de 2022 », a rappelé d’entrée de jeu Guillaume Crisafulli, directeur Licences & Développement des marchés numériques, au sein du Centre Français d’exploitation du droit de Copie (CFC). Et ce n’est qu’un début : l’IA pourrait atteindre un chiffre d’affaires annuel de plus 200 milliards d’euros d’ici à 2030. La dynamique est en marche. Et ce d’autant que ce nouveau secteur se structure rapidement autour d’entreprises du numérique déjà très présentes sur des marchés adjacents, tel que celui de la fourniture de services de cloud. Dans un tel contexte, l’Autorité de la concurrence a décidé de s’autosaisir pour avis, afin d’analyser le fonctionnement concurrentiel. Ses conclusions sont attendues dans les prochains mois. D’ici là, à la question « ces IA s’entrainent-elles avec les œuvres protégées ? », Guillaume Crisafulli acquiesce. Changement d’époque. Le directeur Licences & Développement des marchés numériques du CFC parle même de « rupture avec le modèle économique des GAFAM ». « Avec l’émergence de plateformes qui ont besoin de données pour démarrer, le contenu devient une matière première », explique-t-il. Les métiers de la création et de l’information se retrouvent donc en première ligne. « Car les navigateurs – à l’instar de ChatGPT ou de Arc avec « Browse for me » et Perplexity dopés par l’IA – font désormais la recherche à notre place. Nous ne sommes plus obligés de parcourir des dizaines d’onglets avant d’obtenir une réponse », poursuit Guillaume Crisafulli. Le moteur de recherche d’hier s’appuie sur les Large Language Models (LLM) d’aujourd’hui. Des moteurs de réponse qui modifient les règles du jeu en SEO. « Les stratégies traditionnelles axées sur les mots-clés et les liens entrants perdent du terrain au profit d’une approche « moteur de réponse » centrée sur la pertinence et la qualité du contenu. Désormais, l’objectif est de se positionner non seulement dans les premiers résultats de recherche, mais également dans les réponses directes fournies par ces moteurs. Cela implique une compréhension approfondie des intentions de recherche des utilisateurs et la capacité de répondre à leurs questions de manière concise et informative », souligne Guillaume Crisafulli.
Google Med PaLM 2 répond à des questions « comme un médecin »
La quête de la « position zéro », où un extrait de contenu est affiché en tête des résultats de recherche, devient donc une priorité stratégique. Ce que permet, par exemple, Gemini, dont les capacités de filtrage, de compréhension et de raisonnement lui permettent de parcourir des centaines de milliers de documents en quelques secondes. Avec cet outil, « il devient possible de créer une publicité en 2 clics et de l’adapter en temps réel », selon Guillaume Crisafulli. Quant à Google Med PaLM 2 - déjà testé dans des hôpitaux aux États-Unis -, ce système peut récupérer des connaissances médicales, les raisonner et répondre à des questions « comme un médecin ». Rappelons que Pathways Language Model (PaLM) a été formé sur un corpus de 780 milliards de jetons, comprenant des pages web, des articles Wikipédia, du code source, des conversations sur les réseaux sociaux, des articles de presse et des livres. Soit un mélange de contenus protégés par le droit d’auteur ou non. Tout aussi performant : le chatbot Articulate Medical Intelligence Explorer (AMIE). Optimisé pour le dialogue diagnostique, il a obtenu des résultats comparables, voire supérieurs, à ceux des « vrais » médecins dans le diagnostic des affections respiratoires et cardiovasculaires. Guillaume Crisafulli cite également Perplexity.ai : « Créé en août 2022, il a déjà levé 100 millions de dollars. Et depuis janvier 2024, il reçoit des financements d’investisseurs tels que Jeff Bezos (fondateur d’Amazon), Tobias Lütcke (PDG de Shopify) ou encore de Susan Wojcicki (ancienne dirigeante de YouTube). » Dans cette même veine, Nvidia, leader du calcul informatique qui a parlé très tôt sur les cartes graphiques pour les jeux vidéo, puis sur l’IA – Nvidia commercialise les processus faisant tourner la majeure partie des LLM -, affichait 60,9 milliards de dollars de revenus en 2023, soit plus du double de 2022. C’est également la 3e capitalisation boursière américaine, après Google et Apple. Enfin, Google Search Generative Experience (SGE), disponible en 4 langues, se déploie déjà dans 120 pays… sauf en Europe, protection des droits d’auteur oblige. Ce que Sandra Chastanet, directrice Ayants droit & Affaires internationales au sein du CFC, compare à « un nouveau champ de bataille » au cœur du développement de l’IA.
Un cadre européen attendu d’ici à 2026
À l’heure où 100 millions de personnes utilisent chaque semaine ChatGPT, qu’en est-il de la propriété intellectuelle ? Est-il possible de continuer à entretenir sa propre culture ? Le ministre de l’Économie, des Finances et de la Souveraineté industrielle et numérique, le pense. Présent à Cannes en février dernier, pour la WAICF, salon dédié à l’IA, Bruno Le Maire a réaffirmé la volonté européenne de créer « un marché unique de la donnée », pour garantir la souveraineté technologique de l’Europe face à l'hégémonie américaine ou chinoise. Le ministre a même été jusqu’à positionner la France en tant que « première nation en Europe sur l’IA ». Reste que de nombreux challenges se posent, tant côté éditeurs de contenus que côté utilisateurs. Pour les éditeurs, Sandra Chastanet évoque la désintermédiation, la baisse de revenus, la concurrence et la « tokenisation » des données, en référence aux « jetons » qui composent les contenus et servent de base à l’entraînement des modèles d’IA. « Nous assistons à une nouvelle disruption, où le contenu disparaît derrière les réponses données par l’IA », ajoute-t-elle. La question du partage de la valeur des services créés à partir des contenus média, déjà au cœur des débats avec les GAFAM, se pose avec d’autant plus d’urgence. La directrice Ayants droit & Affaires internationales du CFC reprend : « La nécessité d’un modèle économique pérenne, s’appuyant sur le droit d’auteur et le droit voisin s’impose. Les acteurs de l’IA, qui s’y opposent majoritairement, y ont pourtant intérêt s’ils veulent sécuriser des services fiables basés sur des contenus de qualité et éviter, ainsi, le « garbage in, garbage out ». » Quant aux utilisateurs, « nous perdons le lien avec eux », reconnait Sandra Chastanet. Conséquence : quid de la qualité des contenus ? Mais aussi de l’identification des sources, de la sécurisation des droits et autre fiabilité des « outputs » ? L’Europe s’est emparée de cette problématique. Un règlement doit être soumis au vote du Parlement européen courant avril 2024, pour une entrée en vigueur en 2026. Ce que dit ce texte ? Il pointe la nécessité d’obtenir les autorisations des ayants droit qui ont réservé leurs droits, l’obligation de transparence en termes de sources utilisées et la création d’un Bureau européen de l’IA, en vue d’établir des modèles de rapports de sources et vérifier la politique de droits d’auteur des fournisseurs d’IA. Pour l’heure, au niveau mondial, on navigue entre contentieux et accords. Ainsi, plus d’une dizaine de contentieux sont actuellement en cours outre-Atlantique. À l’instar du New York Times qui a attaqué ChatGPT pour avoir restituer des articles entiers. Même scénario entre Getty Images et Stability : le premier reproche au second de reproduire des photos sans autorisation et sans les sourcer. Côté accords passés, citons l’agence AP qui a donné son feu vert pour l’entraînement d’OpenAI sur ses archives. Quant au groupe Axel Springer, il a signé un accord avec OpenAI pour l’utilisation de certains de ses contenus.
Développer ses propres services d’IA générative pour sécuriser son environnement
« L’objectif du moment consiste à trouver un cadre équilibré et ouvrir la discussion avec tous les nouveaux acteurs de l’IA », explique Sandra Chastanet. La directrice Ayants droit & Affaires internationales du CFC parle d’une collaboration « possible » entre ayants droit et acteurs de la tech. Elle évoque également des « licences collectives » pour valoriser les utilisations par IA en pérennisant des droits d’auteur, en misant sur la transparence des sources ou encore en labellisant des IA respectueuses des contenus qu’elles utilisent. Autre piste : le développement de services d’IA générative créés par les éditeurs eux-mêmes. Ainsi le groupe Elsevier a-t-il imaginé Scopus AI pour sécuriser son environnement. Même dynamique chez Lefebvre Dalloz, dont le service d’IA a été baptisé GenIA-L. « les débats sur IA et propriété intellectuelle sont complexes », reconnaissent Sandra Chastanet et Guillaume Crisafulli. L’aspect le plus important qui en ressort étant « la transparence ». Autrement dit : faire état de l’utilisation de l’IA, lorsque c’est le cas. À l’instar de la mention « photo retouchée », inscrite sur l’affiche d’une campagne publicitaire. Sandra Chastanet parle aussi d’IA « en responsabilité », où les modèles ont été entrainés et perfectionnés sur des données autorisées. À ce titre, elle cite en référence Reporters Sans Frontières, qui – dès 2023 - s’est doté d’une charte quant au « bon usage » de l’IA. Enfin, pour conclure cette Matinale de la FNIM, deux représentants de l’ESCP-Caducées, association formée par les étudiants du Mastère Spécialisé en Management Pharmaceutique et des Biotechnologies (MSc) de l’ESCP Business School, ont posé leur regard sur l’IA. Respectivement président et responsable du pôle partenariats de l’association, Julien Ducloux-Baudinière et Maxime Bennett ont convenu que l’IA fait désormais partie de l’enseignement proposé à l’ESCP : « Nous apprenons à l’utiliser, à rédiger les meilleurs prompts, mais surtout à prévenir et informer dès que l’IA est sollicitée dans le cadre d’un travail mené. » De bons réflexes à dupliquer et surtout à généraliser.