Pages

lundi 23 octobre 2023

La brevetabilité des technologies de traitement du langage, par Martin Huynh

J'ai le plaisir d'accueillir aujourd'hui Martin Huynh. Martin est responsable du service Propriété Industrielle au sein du département Propriété Intellectuelle de Dassault Systèmes, premier éditeur de logiciels français leader des jumeaux virtuels. S’intéressant aux sujets combinant propriété intellectuelle et logiciel, il intervient notamment au CEIPI sur la brevetabilité des inventions mises en œuvre par ordinateur. Il est aussi l’auteur d’un amicus curiae dans le cadre de la décision G1/19 sur la brevetabilité des inventions liées à la simulation.


IA génératives, NLP, LLM et GPT

Il y a quelques semaines se tenait le salon Big Data & IA à Paris. Cette édition illustrait parfaitement la montée en puissance des Intelligences Artificielles Génératives, du Natural Language Processing (NLP), des Large Language Models (LLM) et des Generative Pre-trained Transformer (GPT). De nombreux acteurs présents ont intégré ces technologies à leurs solutions en l’espace de quelques mois seulement. Il existe relativement peu de doctrine sur la brevetabilité même de ces technologies dont le développement fulgurant n’échappe à personne, surtout depuis leur accessibilité à tous vulgarisée par le célèbre Chat GPT. Beaucoup de professionnels en brevet estiment que ce type d’invention est difficile voire impossible à breveter, surtout auprès de l’Office Européen des Brevets (OEB), encore plus que pour d’autres domaines relevant des inventions mises en œuvres par ordinateur (IMO).

Directives d’Examen de l’Office Européen des Brevets

Les parties pertinentes des Directives en vigueur (notamment G-II-3.3.1 « Intelligence artificielle et apprentissage automatique » + G-II-3.6.4 « Systèmes de gestion de bases de données et recherche d'informations ») dressent effectivement un tableau assez défavorable pour des inventions relevant du NLP et des LLM, expliquant en grande partie l’impression générale sur la discrimination pesante sur ces technologies relayée collectivement par bon nombre de professionnels des brevets.

Sauf que… depuis, la décision G1/19 de la Grande Chambre de Recours du 12 mars 2021 est susceptible d’apporter un éclairage nouveau sur le contour de la brevetabilité des IMO et les orientations à donner. Bien que la décision concerne initialement la brevetabilité dans le domaine de la simulation, il est admis que de nombreux enseignements de G1/19 sont généralisables à toutes les IMO, donc y compris le NLP et les LLM bien que non spécifiquement traités par G1/19. Toutefois, cette décision n’a eu aucun impact sur les parties des directives précitées lesquelles n’ont pas été modifiées ou mises à jour depuis les dernières éditions en mars 2022 ou mars 2023, publiées après G1/19, et installant ainsi un peu plus cette discrimination. De plus, toutes les décisions citées sont antérieures à la décision G1/19 du 12 mars 2021. Une analyse à la lumière de G1/19 semble donc être pertinente.

G1/19 : principes de non-privilège et de non-discrimination dans les catégories d’IMO

Selon G1/19, « Aucune catégorie d'inventions mises en œuvre par ordinateur ne peut être exclue a priori de la protection par brevet. » (G1/19 §140). La Grande Chambre de Recours précise que ce principe doit être appliquée de sorte qu’aucune catégorie d’IMO ne doit être « privilégiées au sein de la catégorie plus générale des inventions mises en œuvre par ordinateur, sans pour autant qu'il y ait de base légale qui explique un tel privilège. » (G1/19 §141). Il en est de même pour les discriminations sans base légale (G1/19 §142). Ainsi, considérer en préjugeant non brevetables des inventions relevant du NLP ou des LLM est contraire au principe édicté dans G1/19. Pour ces inventions y compris, « il doit être déterminé au cas par cas s'il est satisfait aux critères classiques de technicité, tels qu'applicables aux inventions mises en œuvre par ordinateur. » (G1/19 §141). Cela implique notamment la mise en pratique d’approche telle que COMVIK (T641/00), éprouvée et admise, pour l’examen des inventions dites mixtes, c’est-à-dire combinant des caractéristiques techniques et des caractéristiques non-techniques.

Technicité : caractère technique et objectif technique

Il est souvent reproché au NLP et au LLM de traiter des données cognitives, notamment des mots et des phrases, autrement dit des données s’adressant à la perception humaine. Cependant, bien qu’effectivement de nature cognitive, lors de leur traitement par un système d’IA, ces données ne font plus appel à la perception humaine mais sont des données traitées par le système d’IA sans intervention humaine. La doctrine de la chaine technique rompue ("broken technical chain fallacy") souvent citée pour les inventions en présence de contenu cognitif, contenu souvent jugé non technique, ne devrait donc pas systématiquement s’appliquer dans la mesure où aucun effet (non technique) dans l’esprit de l’utilisateur ne vient rompre la chaine technique.

La décision G1/19 n’a pas plus éclairci la définition du terme « technique » pourtant déterminante pour l’examen de la brevetabilité des IMO, et ce volontairement afin de tenir compte de l’évolution de la technologie comme elle s’en justifie à plusieurs reprises : « […] la notion de technicité doit rester ouverte » (G1/19 §88) ou « Les critères utilisés dans les questions, comme celui du "problème technique" ou de l'"effet technique allant au-delà de la mise en œuvre de la simulation", ne sont pas des exigences qui ont été définies par le législateur, mais ont été établis par la seule jurisprudence. Ces critères doivent pouvoir encore évoluer à mesure que la technologie avance, et d'autres critères doivent même pouvoir se faire jour s'ils conduisent à des interprétations plus pertinentes du droit. » (G1/19 §65). Une évolution du champ de la technicité serait utile pour prendre en compte certaines réalités technologiques.

La technologie évoluant nécessairement plus rapidement que le droit applicable, il n’est pas étonnant de considérer qu’il faudra encore des années voire des décennies avant que le caractère technique de certaines technologies dites nouvelles et évoluant très rapidement, telles que le NLP ou les LLM, soit banalement reconnu. La reconnaissance suffisante de la technicité du NLP et des LLM est encore loin.

En attendant, il est souvent autant difficile d’expliquer à l’OEB la technicité d’une invention dans le NLP ou les LLM que d’expliquer à des inventeurs data scientists que leur invention n’est pas technique…

Et la suite ?

Je n’estime pas avoir apporté une solution toute faite pour parvenir à la délivrance d’un brevet dans ces domaines techniques mais au moins d’avoir contribué au débat sur leur brevetabilité. Je trouve simplement cette discrimination collective sur les technologies basées sur le langage regrettable voire dommageable. Ces technologies sont certes plutôt difficiles à breveter en l’état actuel des choses. Difficile mais pas impossible. Pour y parvenir, le plus grand défi consistera surtout à raisonner au-delà du cadre légal actuel trop obsolète des Directives ou la jurisprudence et donc oser déposer des demandes de brevet relevant du domaine du NLP et des LLM et de les défendre.

21 commentaires:

  1. Catherine CASPAR23 octobre 2023 à 09:34

    Merci et bravo pour cet article. Oui, il faut oser déposer des demandes et se battre si besoin jusqu'au stade du recours pour enrichir la jurisprudence. L'approche Comvik est équitable mais souvent appliquée de manière beaucoup trop restrictive par rapport au but qu'elle sert, qui, rappelons-le, est de déterminer si l'invention ne découle pas de manière évidente de l'état de la technique selon l'article 56 CBE.

    RépondreSupprimer
  2. Au-delà du caractère technique inhérent aux algorithmes d’intelligence artificielle de type LLM, se pose la question de leurs vecteurs d’apprentissage. En effet, dans la décision T161/18, point 2.2, la chambre de recours 3.5.05 a considéré qu’en absence de divulgation des vecteurs d’apprentissage, le réseau neuronal ne pouvait être reproduit par l’homme du métier et conséquemment la demande de brevet souffrait d’insuffisance de description (Cf. A83 CBE). Les vecteurs d’apprentissage peuvent représenter un volume conséquent (e.g. plusieurs Gb) et se pose donc la forme de la divulgation de ces vecteurs dans la demande de brevet.

    RépondreSupprimer
  3. Ce qui me chagrine concernant les demandes portant sur des IA (RN, LLM, GPT et compagnie) concerne autant

    1) Le far-west de la brevetabilité (et l'impossibilité de se conformer à des pratiques acceptées par l'OEB en la matière) ; sans guidelines claires sur ce qui est toléré, on reste dans le flou, et il est très difficile de conseiller des clients qui n'ont pas les reins suffisamment solides pour déposer "pour voir". C'est d'ailleurs ce pour quoi je loue l'ambition de Dassault Systèmes de faire des tests.
    Mais nombre de "petits" clients (startup notamment) ne peuvent guère prendre ce risque.

    2) La question de la suffisance de description, soulignée par l'anonyme de 10:28. Souvent, les demandes de brevet se bornent à décrire succinctement le type de réseau neuronal, mais pas le contenu et la nature concrète des données d'apprentissage ni la "cuisine" ayant permis d'obtenir un réseau neuronal qui fonctionne et résout bel et bien le problème technique.

    Les RN/LLM/GPT concernent, à l'instar des inventions en biologie, des inventions sur des systèmes extraordinairement complexes dont on ne peut capter qu'une portion (la fameuse "boîte noire"), et il me semblerait logique de demander une même exhaustivité dans la description qu'en biologie.
    Éventuellement avec un dépôt de "matière" informatique façon dépôt de matière biologique.

    RépondreSupprimer
  4. Dans la mesure où une application utilisant les techniques en cause a un effet technique sur la vie « réelle » elle est susceptible d’être brevetée. G 1/19 ne dit rien d’autre en matière de simulation.

    COMVIK traite de la manière d’appréhender l’activité inventive de telles inventions, mais ne traite pas de la suffisance de description.

    Le problème majeur auquel sont confrontées ces inventions est la suffisance de description. La seule mention de la corrélation ne suffit pas. Pour ces systèmes, la connaissance des données d’apprentissage est nécessaire car seule celle-ci permet de définir le résultat recherché ou l’effet obtenu.

    En tenant compte de G 1/03 et T 2001/12 la formulation des revendications joue aussi un rôle très important qui ne peut pas être ignoré.

    Si un effet n’est pas revendiqué, mais que la description ne montre pas comment celui-ci peut être obtenu, l’objection à soulever est une objection d’activité inventive et nous en revenons à COMVIK.

    Si un effet est revendiqué et que la description ne montre pas comment celui-ci peut être obtenu, l’objection à soulever est une objection d’insuffisance de description.

    Outre le caractère technique, présent ou pas, la formulation des revendications est au moins aussi importante.

    Un dépôt de matière informatique à l’instar d’un dépôt de matière biologique ne semble pas s’imposer. Toutes les données nécessaires doivent être divulguées dans la demande telle que déposée.

    D’un autre côté, les données étant un bien très précieux, il y a fort à parier que les déposants seront très réticents à mettre à la disposition des tiers ces données. Sans données

    La multiplication des possibilités évoquées dans l’article, fort bien écrit, représente aussi un danger sur le plan social. Nous risquons d’être confrontés à des résultats dont nous ne pouvons pas savoir comment ils ont été obtenus, notamment en l’absence des données d’apprentissage.

    Indépendamment de ce qui peut se passer au niveau des brevets, c’est aussi au législateur d’agir de manière générale avant qu’il ne soit trop tard.

    RépondreSupprimer
  5. @Descartes : Je souscris à votre point de vue, à deux petites nuances près.

    L'assertion "Toutes les données nécessaires doivent être divulguées dans la demande telle que déposée." n'est pas applicable en pratique, quand le corpus d'entraînement pèse plusieurs giga/téraoctets. Cela ne peut tenir dans un document écrit, et cela n'est de toute façon pas digeste pour un être humain, alors que le principe d'un document de brevet est de pouvoir être lu par un tiers.

    "D’un autre côté, les données étant un bien très précieux, il y a fort à parier que les déposants seront très réticents à mettre à la disposition des tiers ces données."
    Si les déposants ne veulent pas fournir les données (si une telle obligation était prévue par la loi), alors on pourrait rétorquer "pas de donnée, pas de brevet" (façon "pas de bras, pas de chocolat").

    RépondreSupprimer
  6. Bonjour. Quid du produit de ces LLMs ? Chez qatent.com on utilise de nombreux LLMs pour générer des demandes de brevets. Cordialement, François

    RépondreSupprimer
  7. Cher anonyme du 25 octobre 2023 à 10:20,

    J’ai très fortement simplifié mon propos et je suis bien d’accord avec vous qu’un corpus d'entraînement pesant plusieurs giga/téraoctets est difficile à digérer pour un être humain.

    Il faudra en fait trouver un moyen de stocker ces données tout en les rendant accessibles au public. Lors de l’apparition d’art antérieur sur Internet, certaines CR avaient considéré que ce serait à l’OEB de stocker ces données. Un mécanisme similaire pourrait être mis en œuvre pour ces divers corpus d’apprentissage. Ceci nécessiterait néanmoins une certaine standardisation. Et nous en sommes fort loin.

    Mon commentaire sur la réticence à divulguer les données d’apprentissage visait en fait à dire: pas de données d’apprentissage=insuffisance de description=pas de brevet. Nous sommes donc bien sur la même ligne.

    RépondreSupprimer
  8. Mandataire extérieur26 octobre 2023 à 10:02

    Un dépôt de "matière" informatique pour divulguer les données d'entraînement est-il toujours absolument nécessaire pour assurer la suffisance de description ? Je n'en suis pas persuadé. Il doit bien y avoir des cas où spécifier quelles sont les données d'entraînement et ce que doit sortir le modèle entraîné permet à l'homme du métier de reproduire l'invention sans effort excessif. Il me semble que dans T0161/18, le "problème" de suffisance de description venait de ce que les données d'entraînement n'étaient même pas spécifiées.

    RépondreSupprimer
  9. @Francois Veltz : Quelles garanties de confidentialité offrez-vous aux utilisateurs de votre solution (à la fois le secret de l'input, mais aussi la garantie qu'elle ne sera pas utilisée à des fins d'apprentissage) ? Cela n'apparaît nulle par sur votre site.

    Il s'agit pourtant d'une contrainte relativement non-négligeable dans le métier (euphémisme), a fortiori pour de la rédaction de brevet (pour de la réponse à notification, ça serait moins critique).
    Tant que ces questions ne sont pas résolues, il me semble au mieux compliqué d'utiliser de la génération de texte par LLM tout en garantissant la confidentialité que la déonto CPI impose.

    Il est certes mentionné que les données sont chiffrées pour leur stockage et leur transport, mais puisque le traitement par LLM est réalisé via OpenAI, cela me semble contradictoire sans précision supplémentaire. Cela sera bien entendu moins vrai quand vous aurez votre propre LLM en interne.

    RépondreSupprimer
  10. Bonjour

    L'exigence de devoir décrire les données d'apprentissage semble, en général, assez excessif : il devrait être suffisant d'indiquer leur nature, comment les constituer, comment elles doivent être formulés (plongement) et dimensionnées, de même que comment les étiquettes peuvent être déterminées dans le cas d'apprentissage supervisé.

    L'homme du métier doit être à même de constituer son corpus : nous sortons là du domaine de la technique pure, pour entrer dans celui de l'investissement humain ou financier pour réaliser ce corpus.

    Sinon, reste la possibilité de mentionner, dans le demande, un dataset lambda qui permet l'apprentissage, même si pas optimal.

    Bien sûr, cela dépend également de où se situe l'invention, et donc, comme un Anonyme a précédemment mentionné, de la formulation des revendications.

    RépondreSupprimer
  11. Martin Huynh a eu raison de rappeler que la GCR a refusé à plusieurs reprises de définir ce qui est « technique ». Cette position est justifiée par la GCR par le besoin d’adaptation aux évolutions, mais il y a une autre raison qui s’oppose à une définition, c’est que la notion de technicité n’est définie que de façon négative par l’ensemble des exclusions de l’article 52, lesquelles sont disparates et répondent à des objectifs différents.
    Ce refus d’une définition positive crée un problème de cohérence car la notion de technicité est à la base des concepts utilisés par la jurisprudence (problème technique, etc) et dans le cas des IMO, la distinction technique/non technique est cruciale pour l’application de Comvik. Elle est d’autant plus complexe et difficile à appliquer que les caractéristiques techniques et non techniques peuvent être imbriquées, et c’est de plus en plus fréquent avec l’extension du numérique à tous les domaines. Une décision a d’ailleurs utilisé le terme éloquent de « zone grise ».
    Cela pose notamment la question de désigner l’homme du métier. Dans certaines décisions concernant des méthodes de gestion, il y a un homme du métier « business » et un homme du métier « technique » (informaticien) qui doivent collaborer, ce qui pose tous les problèmes tenant à leurs interactions.
    Dans la décision T 2101/12 Vasco, qui concernait un procédé d’authentification de signature, la Chambre a estimé à l’inverse que l’homme du métier était un juriste connaissant les procédures notariales et le document le plus proche la pratique bien établie des notaires.
    Cette décision a par ailleurs réfuté à juste titre la conception d’une jurisprudence antérieure T 172/03 Ricoh qui avait été incorporée dans les directives, incluant la technicité dans la délimitation de l’état de la technique. Les directives ont été rectifiées à la suite de Vasco.
    Pour ce qui est des systèmes d’IA, je partage tous les commentaires qui soulignent l’importance des données d’apprentissage pour la suffisance de description. La solution à mon sens n’est pas dans le dépôt d’une copie des données. Il me semble que le critère de suffisance est satisfait si la description expose de façon raisonnablement spécifique une méthodologie pour la sélection de sources de données et leur traitement. Espérons que les décisions de jurisprudence à venir nous éclaireront sur ce point.

    RépondreSupprimer
  12. @ Mandataire extérieur,

    La seconde partie de votre commentaire implique la nécessité de spécifier quelles sont les données d'entraînement et ce que doit sortir le modèle entraîné.

    Pourriez-vous spécifier dans quelles autres situations un dépôt de "matière" informatique pour divulguer les données d'entraînement n'est toujours absolument nécessaire pour assurer la suffisance de description.

    Les deux parties de votre commentaire semblent se contredire.

    RépondreSupprimer
  13. J’invite les lecteurs à consulter sur IPKat le blog suivant :

    https://ipkitten.blogspot.com/2023/10/use-of-large-language-models-in-patent.html

    En particulier les deux derniers commentaires sont fort intéressants.

    Comme une AI ne peut en fait que reproduire ce qu’elle a appris, comment voulez-vous qu’elle fasse preuve d’originalité ?

    Le logo de l'OEB est censé montrer qu'un brevet est unique, comme le sont les empreintes digitales. Comment cela peut-il être lié à une utilisation accrue de l'IA dans la rédaction et la procédure d'examen d'une demande de brevet ?

    RépondreSupprimer
  14. Bonjour à tous,

    Je suis satisfait de constater que mon article suscite des débats. Mon but est donc atteint. Il est encore plus enrichissant d'échanger avec des spécialistes en brevet. Cela nourrit mes réflexions et me donne des idées pour d'autres articles, même si mon frein principal reste mon temps libre. J'ai dû attendre le week-end pour répondre à certains commentaires.

    RépondreSupprimer
  15. @Catherine Caspar Merci pour tes encouragements. Mon message est bien d'oser, même si je suis parfaitement conscient des difficultés. Concernant l'approche COMVIK, elle est intéressante car elle tient compte des spécificités dans les IMO. Mais, je pense aussi comme toi qu'elle est bien plus exigeante que la CBE. J'ai un autre projet d'article sur lequel j'aimerais bien travailler dans les mois qui viennent.

    RépondreSupprimer
  16. @Anonyme du 23 octobre 2023 à 15:56

    Je partage votre opinion la situation à l'OEB. Contrairement à l'objectif de l'OEB, la prévisibilité sur la brevetabilité y est parfois décevante, surtout quand l'OEB décider de supprimer les références des décisions dans ses propres directives... Il est certain qu'avec le temps, les IMO seront mieux compris et pris en compte par les offices de brevet.

    RépondreSupprimer
  17. Concernant le dépôt des données d'apprentissage, je suis convaincu que ce n'est absolument pas nécessaire. L'homme du métier doit être en mesure de comprendre l'invention pour l'exécuter; pas pour la contrefaire. La même question s'est posée il y a longtemps pour le code source lorsque certains soutenaient qu'il fallait le déposer... Aujourd'hui, avec une meilleure compréhension du logiciel, cette question s'est éloignée fort heureusement. Il en arrivera de même avec les données d'apprentissage.

    De plus, un jeux de données peut dans de nombreux cas être substitué par un autre jeux de données équivalent, par exemple une collection d'images par une autre collection d'images sur le même thème; ce qui n'est pas le cas de la matière biologique que l'on ne peut obtenir par un autre moyen équivalent.

    Enfin, ces données, ayant une grande valeur et donc parfois acquises après une négociation, ne doivent pas tomber trop facilement entre les mains de parasites.

    RépondreSupprimer
  18. L'OEB mène actuellement une grande campagne envers les startups. On devine que les start-ups dans le domaine du logiciel sont visées. Cependant, ces même start-ups risquent d'être déçues en découvrant le sort réservé à leurs technologies/inventions... Situation contradictoire que je rencontre fréquemment aux contacts de ces start-ups...

    RépondreSupprimer
  19. Bande de fous furieux, c'est criminel de breveter des logiciels!

    RépondreSupprimer
  20. @Anonyme du 28 octobre 2023 à 17:27

    Luke? Luke, est-ce toi? Viens découvrir la puissance du côté obscur de la force et rejoins-nous!

    RépondreSupprimer
  21. @Martin Huynh

    Bien d’accord avec toi pour considérer que le dépôt des données d’apprentissage n’est pas nécessaire, pas plus que le dépôt du code-source d’un logiciel. Mais il y a une différence très importante avec un logiciel, c’est que le réseau de neurones est une boîte noire, et que la qualité des données d’apprentissage est cruciale pour la qualité des résultats. Selon les estimations des experts en IA, l’obtention des données d’apprentissage représente environ 60% du temps total consacré au développement d’une application d’IA. Selon les experts, les données d’apprentissage sont le talon d’Achille de l’IA.

    La décision T 161/18, que j’ai commentée dans epi 4-2020, met en relief l’exigence d’inclure dans la description des informations sur les données d’apprentissage, d’autant plus que la chambre de recours a soulevé l’article 83 ex officio en plus de l’article 56 qui avait été cité par la division d’examen. Cela m’a amené à recommander d’inclure dans la description des informations sur les méthodologies de sélection des sources et de traitement de données. Cela peut être simplifié en faisant référence aux connaissances générales des spécialistes en IA.

    A noter que le programme « convergence des pratiques » conduit par l’OEB en coopération avec les offices nationaux indique un consensus sur l’exigence d’une description des données d’apprentissage.

    RépondreSupprimer

Merci de contribuer au débat de manière constructive, sans attaques personnelles.
Les trolls ne sont pas acceptés, sauf s'ils sont drôles.