Catégories
Justice:

IA générative : le recours collectif américain contre Google Bard (et d’autres outils d’IA) pour web scraping

IA-generative-le-recours-collectif-americain-contre-Google-Bard
IA-generative-le-recours-collectif-americain-contre-Google-Bard
Image de Alexandra_Koch de Pixabay

Le recours collectif américain contre Google Bard (JL c. Alphabet Inc, tribunal de district américain du district nord de Californie, n° 3 :23-cv-03440)

Dans un article récent, nous avons analysé un recours collectif déposé aux États-Unis contre Open AI pour utilisation non autorisée d’œuvres protégées par le droit d’auteur pour la formation d’outils d’IA générative tels que ChatGPT (ici) (« Generative AI » ou « Gen AI »). Nous avons également noté qu’il ne s’agissait pas du seul recours collectif intenté aux États-Unis contre Open AI, puisqu’un recours collectif parallèle était fondé sur une prétendue violation de données (ici). Un autre recours collectif a récemment été déposé contre Google (notamment par le même cabinet d’avocats qui a promu les recours collectifs contre Open AI) devant le tribunal de district des États-Unis – District Nord de Californie pour un prétendu web scraping (c’est-à-dire couvrant à la fois les aspects du droit d’auteur et de la vie privée) en la formation de ses outils d’IA, Bard, Imagen, MusicLM, Duet AI et Gemini (ici).

De tels recours collectifs peuvent être considérés comme faisant partie de l’évolution du paysage réglementaire dédié à l’IA générative. En fait, dans les systèmes juridiques (comme aux États-Unis) où l’approche réglementaire s’est jusqu’à présent fondée sur des lois non contraignantes et sur la définition de principes (ici mais voir aussi ici pour une récente proposition législative visant à réglementer l’IA aux États-Unis), plutôt que sur des règles et des prescriptions strictes (comme dans l’UE, qui a l’intention d’introduire une loi sur l’IA basé sur le modèle européen de législation sur la sécurité des produits), le résultat de ces recours collectifs sera très pertinent pour répondre à certains des principaux points d’intérêt liés à l’introduction d’une technologie disruptive telle que l’IA générative. En ce qui concerne l’aspect juridique du modèle économique de l’IA générative, de tels recours collectifs seront utiles pour clarifier : (1) si et comment la formation du LLM (Large Language Model) peut être basée sur des ressources disponibles sur Internet et si des utilisation équitable doctrine peut être invoqué pour une telle formation ; et (2) si et dans quelle mesure un transfert substantiel des risques de violations du droit d’auteur découlant des entrées et des sorties sur les utilisateurs eux-mêmes est admissible, une pratique que les producteurs de Gen AI adoptent via des clauses spécifiques dans leurs conditions générales (voir l’article 3). « Votre contenu » dans les conditions d’utilisation d’OpenAI du 14 mars 2023).

Les allégations factuelles des plaignants

Ce recours collectif a été déposé le 11 juillet 2023 devant le tribunal de district des États-Unis du district nord de Californie par huit demandeurs identifiés uniquement par leurs initiales pour des raisons présumées de sécurité et de confidentialité – parmi lesquels un auteur à succès et journaliste d’investigation du New York Times, un acteur et un professeur, avec les autres simples utilisateurs des services Google en jeu, en leur nom et en celui d’autres parties au recours collectif (collectivement, les « demandeurs »), contre Google DeepMind, Google LLC et Alphabet Inc ( collectivement, les « défendeurs »). Les plaignants exigent un procès devant jury pour obtenir une réparation équitable et divers types de dommages (y compris des dommages réels, légaux, punitifs et exemplaires) en résultat et en conséquence de la conduite illégale des défendeurs.

Dans le raisonnement des plaignants, le développement de l’IA par Google a commencé en 2017, lorsqu’il a introduit le réseau neuronal « Transformer », un cadre révolutionnaire qui sous-tend le LLM. Le LLM est «la technologie sous-jacente qui alimente les chatbots IA dans l’industrie de l’IA» (§I.62). Tous les produits de Google sont construits avec cette technologie et utilisent prétendument du matériel privé, personnel et/ou protégé par le droit d’auteur (collectivement, les « Produits »). Les produits Google les plus importants sont : (i) Bard, qui est un chatbot basé sur l’IA générative et l’apprentissage automatique développé par Google, en tant que concurrent direct de ChatGPT créé par OpenAI et publié en version bêta aux États-Unis en mars 2023 ; (ii) Imagen, qui est une IA générative de texte en image ; (iii) MusicLM, qui est une IA générative dotée de capacités de conversion texte-musique ; (iv) Duet AI, un outil d’IA générative qui aide les utilisateurs à rédiger dans Docs et Gmail, à générer des images dans Slides, à créer des résumés automatiques de réunions dans Meet, et bien plus encore ; et (v) Gemini, encore en développement, qui est présenté comme un modèle d’apprentissage automatique multimodal très efficace, capable de décoder de nombreux types de données à la fois, de la même manière que les humains utilisent différents sens dans le monde réel.

Pour développer ses produits, le modèle d’IA de Google a été pré-entraîné sur environ 1,56 billion de mots de «données de dialogue public et texte Web» tiré d’Infiniset, un amalgame de différents contenus internet minutieusement sélectionnés pour améliorer les capacités conversationnelles du modèle (§ I.76) (voir ici et ici). De plus, l’origine des données utilisées pour entraîner LaMDA (ici), le modèle linguistique derrière Google Bard, inclut l’ensemble de données C4. L’ensemble de données C4, créé par Google en 2020, est extrait de l’ensemble de données Common Crawl, qui est un ensemble de données open source et «une collection massive de pages Web et de sites Web composée de pétaoctets de données collectées sur douze (12) ans, y compris des données brutes de pages Web, des extraits de métadonnées et des extraits de texte» (§ I.78 et ici). L’ensemble de données Common Crawl appartient à une organisation à but non lucratif, qui met les données à la disposition du public gratuitement – mais il est destiné à être utilisé à des fins de recherche et d’éducation et, selon les plaignants, il n’a jamais été destiné à être transformé en un outil de recherche. Produit d’IA à usage commercial (voir ici et ici).

Violations du droit d’auteur et autres allégations juridiques

Selon les allégations des plaignants, le web scraping des défendeurs à des fins de formation LLM violait leurs droits d’auteur et, en outre, impliquerait un détournement non autorisé et généralisé d’œuvres protégées par le droit d’auteur, s’étendant à un large éventail d’industries qui dépendent de la création de contenu créatif. La capacité des Produits à reproduire les styles d’écriture d’auteurs spécifiques, à recréer la musique et les paroles de musiciens spécifiques et à dupliquer les œuvres de producteurs de contenu en ligne, ainsi que la capacité à résumer et à reproduire des éléments protégés par le droit d’auteur, découlent du fait que ces éléments ont été copiés par les prévenus sans autorisation et injectés dans le LLM sous-jacent dans le cadre de ses données de formation (§ IB107).

Un tel comportement serait encore plus dangereux pour les industries culturelles, car, malgré l’existence de nombreux moyens légaux d’acquérir des données de formation, les accusés ont plutôt choisi de piller Internet à la recherche d’œuvres protégées et l’impact qui en résulte n’a pas seulement porté atteinte aux droits des créateurs. mais il a créé un environnement qui pourrait finalement décourager la créativité et l’innovation. Cela pourrait également saper le marché commercial des livres et des œuvres déjà créés ; en effet, à la demande, les Produits sont capables non seulement de résumer des livres en détail, chapitre par chapitre, mais aussi de régénérer le texte des livres (§ IB110-111).

Par ailleurs, selon les allégations des plaignants, la pratique du web scraping ne peut être considérée comme relevant de la notion de «utilisation équitable« , un aspect critique de la loi sur le droit d’auteur conçu pour permettre une utilisation limitée de matériel protégé par le droit d’auteur sans autorisation à des fins telles que des commentaires, des critiques, des reportages d’actualité et des rapports scientifiques (voir McGucken contre Pub Ocean Limited, 42 F.4th 1149 (9th Cir.2022)). La collecte et l’utilisation massives par les défendeurs de matériel protégé par le droit d’auteur, sans possibilité pour les titulaires des droits d’auteur de se désinscrire, iraient au-delà de l’interprétation juridique de « l’utilisation équitable » (voir VHT et Zillow Group918 F.3d 723, 743 (9e Cir.2019) ; Église mondiale de Dieu contre Phila. Église de Dieu, Inc.., 227 F.3d 110, 1118 (9e Cir. 2000) («copier une œuvre entière milite contre une conclusion d’usage loyal.« ).

En plus des violations présumées du droit d’auteur, dans le raisonnement des plaignants, le web scraping des défendeurs a violé et continue de violer les intérêts de propriété des plaignants («Les tribunaux reconnaissent que les internautes ont un intérêt patrimonial sur leurs informations et données personnelles (…) qui inclut le droit de posséder, d’utiliser, de tirer profit, de vendre et d’empêcher d’autres personnes d’accéder ou d’exploiter ces informations sans consentement ni rémunération.» (voir § IB161 rappelant le précédent Calhoun contre Google, qui reconnaît l’intérêt de propriété sur les informations personnelles). Les défendeurs n’ont pas réussi à s’inscrire en tant que courtiers en données en vertu des lois applicables de Californie (ici). En omettant de le faire avant de gratter Internet, les défendeurs n’ont pas accordé à tous les membres du groupe le droit de supprimer leurs renseignements personnels recueillis par les défendeurs, ni le droit de refuser l’utilisation de ces informations, qui ont été utilisées pour construire les produits. Les demandeurs soutiennent qu’un tel comportement reproduirait celui de Clearview. Clearview a créé des produits d’IA en utilisant la technologie de reconnaissance faciale. Pour créer son produit, Clearview a récupéré des milliards de photos accessibles au public sur des sites Web et des plateformes de médias sociaux. Les pratiques illégales de scraping de Clearview ont fait l’objet d’amendes administratives et de procédures réglementaires aux États-Unis et au Royaume-Uni (voir ici et ici).

Mesures demandées contre les Produits

Les plaignants ont demandé à titre d’injonction contre l’utilisation des Produits les mesures suivantes (§ 205) :

  1. Création d’un organisme indépendant de leaders d’opinion (le « Conseil de l’IA ») qui sera chargé d’approuver les utilisations des Produits avant, et non après, le déploiement des Produits pour lesdites utilisations.
  2. Mise en œuvre de protocoles de responsabilité qui tiennent les défendeurs responsables des actions et des résultats des produits.
  3. Mise en œuvre de mesures de cybersécurité efficaces pour les Produits, telles que déterminées par l’AI Council.
  4. Mise en œuvre de protocoles de transparence appropriés exigeant que les prévenus divulguent de manière claire et précise les données qu’ils collectent.
  5. Les défendeurs doivent être tenus de permettre aux utilisateurs du Produit et aux internautes ordinaires de se retirer de toute collecte de données.
  6. Les défendeurs seront tenus d’ajouter des mesures technologiques de sécurité aux produits.
  7. Les défendeurs doivent être tenus de mettre en œuvre, de maintenir, d’examiner régulièrement et de réviser si nécessaire un programme de gestion des menaces conçu pour surveiller de manière appropriée les réseaux d’information des défendeurs à la recherche de menaces.
  8. Création d’un fonds monétaire (le « Fonds monétaire AI » ou « AIMF ») pour indemniser les membres du groupe pour les fautes passées et actuelles des défendeurs.
  9. Désignation d’un administrateur tiers (l’« Administrateur AIMF ») pour administrer l’AIMF aux membres du groupe sous la forme de « dividendes de données » à titre de compensation juste et équitable pour les données volées dont dépendent les Produits.

Conclusion

Par rapport aux recours collectifs contre Open AI, ce recours collectif semble être dirigé encore plus précisément vers la question centrale des outils Gen AI – leur prétendue formation via des ressources rendues publiques sur Internet et/ou protégées par les lois sur le droit d’auteur – combinant des potentiels problèmes juridiques sur les fronts de la propriété intellectuelle et de la confidentialité (sans parler des biais des algorithmes). Quel que soit le résultat de ces recours collectifs, cela semble être une opportunité opportune pour les parties de clarifier et pour les juges d’évaluer la légitimité des outils de Gen AI sur la base d’une analyse approfondie du fonctionnement technique et de la composition des ensembles de données de formation. Le fait que tel soit l’objectif principal du recours collectif semble être soutenu par les propositions présentées par les plaignants pour un système de gouvernance pour tous les modèles Gen AI.