Les IA alimentées par des livres piratés : il faut bien les nourrir, après tout !

En mars dernier, Nvidia, bien connue des passionnés de jeux vidéo pour ses cartes graphiques, a été accusée de violation de copyright. Sa plateforme NeMo, utilisée pour développer des intelligences artificielles, aurait intégré des ouvrages protégés par le droit d’auteur dans son entraînement. La société se défend en affirmant qu’il s’agit de dommage collatéral.

Table des matières

Piratage Littéraire : Les Géants de la Tech Accusés d’Exploiter des Ouvrages Protégés

Trois auteurs ont révélé que leurs œuvres faisaient partie d’un immense corpus de textes piratés utilisé pour entraîner des intelligences artificielles. En effet, plus la base de données est étendue, mieux l’IA fonctionne. Toutefois, pour les ayants droit, cette utilisation non régulée équivaut à un vol pur et simple de leur travail.

Des poursuites judiciaires ont été intentées contre des entreprises telles qu’OpenAI, Microsoft, Meta et plus récemment Nvidia, toutes accusées d’avoir utilisé Books3, un ensemble de près de 200 000 ouvrages protégés, extraits du site pirate Bibliotik.

Face à la médiatisation de ces affaires, les entreprises ont présenté des excuses, bien que les dommages aient déjà été causés. Des sociétés spécialisées dans la lutte contre le piratage ont aidé les éditeurs à retirer les bibliothèques illégales pour éviter d’autres préjudices.

Cependant, d’autres bases de données illégales continuent d’exister, comme le révèle récemment le groupe anti-piratage néerlandais BREIN, avec la suppression d’un ensemble de données néerlandais, selon Torrent Freak.

Affaire Nvidia : Les Auteurs Accusent de Violation de Copyright, une Réaction de la Firme en Cours

En mars dernier, Brian Keene, Abdi Nazemian et Stewart O’Nan ont lancé une action collective contre Nvidia, l’accusant de violation de copyright et réclamant des compensations pour l’utilisation non autorisée de leurs œuvres. Quelques semaines plus tard, une seconde plainte a été déposée, Nvidia contestant les accusations tout en admettant l’utilisation du jeu de données Books3.

Nvidia affirme que l’utilisation de données protégées par le droit d’auteur pour entraîner ses intelligences artificielles entre dans le cadre de l’usage équitable, surtout si le modèle ne reproduit pas directement les œuvres. Les auteurs, cependant, accusent la société de s’être servie de livres piratés pour développer son modèle commercial d’IA, et réclament des dommages-intérêts.

Cette semaine, une déclaration commune des parties a été soumise à un tribunal californien, établissant un calendrier préliminaire pour l’affaire. Une phase de découverte est prévue jusqu’en octobre de l’année prochaine, avec un éventuel procès devant jury envisagé pour novembre 2026. Nvidia prévoit également de déposer une requête en jugement sommaire dans un an, soulignant l’importance de régler rapidement la question de l’usage équitable.

Nvidia Défend l’Utilisation de Livres Protégés comme « Domaine Public » : Une Controverse sur le Copyright

Nvidia a récemment avancé un argument surprenant dans sa défense : selon la firme, les ouvrages utilisés pour entraîner ses IA ne sont constitués que de « faits et d’idées non protégés », et seraient donc considérés comme étant dans le domaine public. Cette affirmation semble contredire tant le Code de la Propriété Intellectuelle en France que la législation sur le copyright aux États-Unis.

En droit, l’expression d’une idée — sa forme et sa formulation — est protégée, mais pas l’idée elle-même. Cependant, les modèles d’IA de Nvidia n’ont pas la même approche. Lors de leur entraînement, les machines n’effectuent aucune lecture ni compréhension d’intrigues. Elles se contentent de créer des corrélations statistiques, intégrées au modèle de langage en apprentissage.

En d’autres termes, Nvidia et ses IA n’utilisent pas les livres comme le ferait un humain, ni ne les reproduisent ; les machines analysent les faits et idées pour développer une IA complexe. La société soutient que cela relève de l’usage équitable, ou « Fair Use », une notion parfois controversée et souvent utilisée pour justifier des exceptions au copyright, même lorsqu’elle est sujette à interprétation.

Nvidia Se Défend : L’Utilisation des Livres par l’IA comme Exemple de l’Usage Équitable

Nvidia affirme que ses intelligences artificielles, qui établissent des comparaisons plutôt que de copier directement des données, n’enfreignent pas les droits d’auteur. Selon ses avocats, le fait que les IA ne reproduisent pas le contenu des livres mais en analysent les faits et les idées constitue un usage équitable, pleinement protégé par la législation.

Ils soulignent que la théorie des plaignants impliquerait que les règles grammaticales ou les faits fondamentaux puissent être protégés par le droit d’auteur, ce qui n’a jamais été le cas.

Avant que les tribunaux ne se prononcent sur la légitimité de l’usage équitable dans ce contexte, Nvidia évoque le procès de longue durée entre l’Authors Guild et Google Books. La cour d’appel avait jugé que la numérisation de livres pour créer une base de données consultable était conforme aux critères du Fair Use, établissant ainsi la légalité de Google Books.

L’Usage Équitable en Question : Les Prochains Jugements Cruciaux pour l’Industrie de l’IA

L’argument de l’usage équitable n’est pas nouveau : d’autres entreprises confrontées à des accusations similaires ont également invoqué des précédents judiciaires pour se défendre. Le verdict de ces affaires sera crucial pour l’avenir des bases de données et des contrats de licences commerciaux proposés par les éditeurs.

Les enjeux sont d’autant plus complexes que les applications des modèles et technologies d’IA varient considérablement. Ce qui peut être jugé comme un usage équitable dans un contexte pourrait être considéré comme une violation du droit d’auteur dans un autre.

Répercussions dans l’édition et l’IA

Cette semaine, un tribunal fédéral californien a autorisé la poursuite d’un procès pour violation du droit d’auteur intenté par des artistes visuels contre DeviantArt, Midjourney, Runway AI, et Stability AI. Les accusations portent sur la violation des droits d’auteur concernant les images et les résultats générés par ces outils.

Étant donné l’importance des parties en jeu et les dommages potentiels, ces affaires pourraient occuper les tribunaux pendant plusieurs années. Même après des verdicts définitifs, des appels sont probables, et certaines questions pourraient finalement atteindre la Cour suprême.

En attendant, les actions de Nvidia et d’autres entreprises d’IA seront attentivement surveillées par les spécialistes du droit d’auteur. Parmi les récentes accusations, il a été rapporté que Nvidia aurait utilisé des vidéos et des transcriptions de YouTube pour entraîner ses modèles d’IA, une pratique qui suscite également des préoccupations juridiques.

Découvrir tous les événements liés à l’édition ici

Crédit image : www.craiyon.com

Les IA alimentées par des livres piratés : il faut bien les nourrir, après tout !

Piratage Littéraire : Les Géants de la Tech Accusés d’Exploiter des Ouvrages Protégés

Affaire Nvidia : Les Auteurs Accusent de Violation de Copyright, une Réaction de la Firme en Cours

Nvidia Défend l’Utilisation de Livres Protégés comme « Domaine Public » : Une Controverse sur le Copyright

Nvidia Se Défend : L’Utilisation des Livres par l’IA comme Exemple de l’Usage Équitable

L’Usage Équitable en Question : Les Prochains Jugements Cruciaux pour l’Industrie de l’IA

Répercussions dans l’édition et l’IA

Jean d’Ormesson à l’honneur : un timbre commémoratif pour célébrer le centenaire de sa naissance

La SGDL crée un prix pour la liberté d’expression et l’attribue à Boualem Sansal

Rentrée littéraire 2025 : Emmanuel Carrère dévoile Kolkhoze, un hommage intime à sa mère Hélène Carrère d’Encausse

Affaire Kamel Daoud : une nouvelle audience judiciaire fixée au 10 septembre