Est-ce que ChatGPT, Claude ou Gemini entraînent leurs modèles sur mes PDF ?

Par défaut, OpenAI, Anthropic et Google affirment ne pas entraîner leurs modèles sur les fichiers uploadés dans les versions payantes de leurs produits (ChatGPT Plus, Claude Pro, Gemini Advanced). Cependant, les CGU des versions gratuites permettent souvent l'utilisation des conversations à des fins d'amélioration du modèle. Pour les entreprises, les API avec accord de traitement des données (DPA) offrent des garanties explicites de non-réentraînement. Sans DPA signé, considérez que le risque existe.

PDF dans un LLM : comment le détecter grâce aux sources

Q: Comment savoir si un LLM utilise réellement mon PDF en contexte (RAG) ?

Demandez au modèle de citer un passage verbatim de votre document, avec le numéro de page et le contexte exact. Ensuite vérifiez que la citation correspond mot pour mot au PDF. Un LLM qui n'a pas accès au document sera incapable de citer avec précision — il inventera un passage plausible. Posez aussi des questions sur des données très spécifiques (un chiffre précis, une date, un acronyme inventé) qu'il est impossible de deviner sans avoir lu le fichier.

Q: Pourquoi un LLM peut citer un document qu'il n'a jamais lu ?

C'est le phénomène d'hallucination : un LLM génère des citations qui semblent plausibles mais sont inventées. Il peut citer un titre correct, un auteur réel, mais avec des passages entièrement fabriqués. C'est pourquoi la méthode de vérification doit toujours inclure une confrontation au document source original — comparer mot à mot ce que le modèle cite et ce que contient vraiment votre PDF.

Vous avez uploadé un contrat, un rapport interne ou un dossier médical dans ChatGPT, Claude ou Gemini. Mais comment savoir si le modèle utilise vraiment votre document — ou s'il hallucine des réponses plausibles ? Et surtout, comment détecter si votre PDF a été aspiré dans les données d'entraînement d'un LLM sans votre consentement ? La réponse se joue sur un détail crucial : les sources citées.

Les trois façons dont un PDF peut "être dans" un LLM

Avant de chercher à détecter quoi que ce soit, il faut distinguer trois situations radicalement différentes — car les méthodes de détection ne sont pas les mêmes :

1. Le document est dans les données d'entraînement

Pendant la phase de pré-entraînement, les LLMs ingèrent des milliards de pages de texte : internet, livres, articles scientifiques, et potentiellement des documents PDF publics ou partagés. Si votre PDF était en accès public — sur votre site, dans un dépôt open data, dans un crawler — il a peut-être été absorbé dans les poids du modèle. Le modèle n'a pas accès au fichier, mais en a une trace mémorielle encodée dans ses paramètres.

2. Le document est injecté dans le contexte (RAG)

Quand vous uploadez un PDF dans ChatGPT, Claude.ai ou Gemini, le fichier est découpé en chunks, transformé en embeddings vectoriels, et les passages les plus pertinents sont injectés dans la fenêtre de contexte avant chaque réponse. C'est le RAG (Retrieval-Augmented Generation). Le modèle a un accès direct et temporaire au contenu — il devrait donc pouvoir le citer avec précision.

3. Le document a servi au fine-tuning

Dans les entreprises qui déploient des LLMs maison (via Mistral, LLaMA, Qwen…), les PDF internes peuvent alimenter des datasets de fine-tuning pour spécialiser le modèle sur un domaine métier. Le contenu est alors encodé de façon plus profonde qu'un simple contexte RAG, mais moins "verbatim" que des données d'entraînement répétées des milliers de fois.

Pourquoi c'est critique pour la conformité RGPD
Dans les trois cas, si le PDF contient des données personnelles, vous avez potentiellement une violation de l'article 5(1)(b) du RGPD (limitation des finalités) et de l'article 17 (droit à l'effacement) — car il devient impossible de "retirer" ces données d'un modèle une fois qu'elles sont encodées dans ses poids. Voir notre analyse complète : LLM et RGPD : pourquoi ChatGPT, Claude et Gemini ne sont pas conformes.

Méthode 1 : le test de citation verbatim

C'est la méthode la plus directe pour savoir si un LLM a réellement accès à votre document en contexte (situation RAG). Elle ne fonctionne pas pour détecter la présence dans les données d'entraînement.

Comment procéder

Choisissez dans votre PDF un passage très spécifique : une phrase avec un chiffre précis, un terme technique rare, ou une formulation inhabituelle. Demandez ensuite au modèle :

"Dans le document que je t'ai fourni, cite-moi mot pour mot le passage qui parle de [sujet précis]. Inclus le numéro de page et les deux phrases qui précèdent et suivent."

Comparez ensuite la réponse au PDF original. Un modèle qui a réellement accès au document reproduira le texte de façon fidèle. Un modèle qui n'y a pas accès (ou dont le contexte RAG a raté le chunk pertinent) inventera une citation plausible mais inexacte.

Ce que les sources révèlent

Sur des plateformes comme Perplexity, Bing Copilot ou Claude avec accès web, les sources sont souvent affichées sous forme de liens cliquables. Si votre PDF est cité en source avec son URL exacte, il a soit été indexé par le moteur de recherche intégré, soit fait partie du corpus d'entraînement. Si le modèle invente une URL ou cite une source différente qui arrive aux mêmes conclusions, vous êtes face à une hallucination de citation.

Les limites

Un LLM très capable peut produire des citations de qualité suffisante pour tromper un lecteur non attentif
Le chunking RAG peut avoir raté un passage spécifique sans que le reste du document soit inaccessible
Les modèles avec une longue fenêtre de contexte (200k tokens pour Claude 3) peuvent avoir "oublié" un passage en milieu de document (lost in the middle problem)

Méthode 2 : l'injection de canaris documentaires

C'est la méthode préventive : vous la mettez en place avant de partager ou uploader votre PDF, pour pouvoir le détecter plus tard. Concept emprunté à la sécurité réseau (honeypot / canary tokens).

Qu'est-ce qu'un canari documentaire ?

Un canari documentaire est une information inventée, unique et mémorable que vous insérez dans votre PDF. Elle doit être :

Introuvable sur internet (vérifiez avant en googleant la phrase exacte)
Plausible dans le contexte du document (pour ne pas alerter un éventuel scraper)
Précise et distincte : une combinaison chiffre + terme + date inventée fonctionne bien

Exemple : dans un rapport financier interne, insérez discrètement la phrase "Le taux de conversion du segment Bénélux Alpha-7 a atteint 4,73% au Q3 2024, contre 3,21% pour le segment Gamma-9." — avec des noms de segments et des chiffres qui n'existent pas dans votre entreprise.

Comment tester la détection

Quelques semaines ou mois après le partage du document, interrogez les LLMs de votre choix :

"Connais-tu le taux de conversion du segment Bénélux Alpha-7 ?"

Si le modèle donne le chiffre exact (4,73%), votre canari a été déclenché : le PDF a été intégré dans ses données d'entraînement ou dans une base vectorielle accessible. Si le modèle invente un autre chiffre ou dit ne pas connaître, l'information n'est probablement pas dans ses poids.

Canaris et RGPD
Les canaris documentaires ne doivent jamais contenir de données personnelles réelles — même inventées, elles pourraient être confondues avec des données d'une vraie personne. Utilisez des noms fictifs clairement fantaisistes, des identifiants alphanumériques, ou des entités géographiques inexistantes.

Méthode 3 : le test de connaissance spécifique hors-web

Cette méthode cible la détection dans les données d'entraînement, pour des documents qui n'ont jamais été mis en ligne publiquement. Elle repose sur le paradoxe suivant : si un modèle connaît le contenu d'un document interne que vous n'avez jamais publié, c'est qu'il a été exposé d'une façon ou d'une autre.

Protocol de test

Identifiez dans votre PDF 3 à 5 informations non googleables : une décision interne, un chiffre propre à votre organisation, une formulation maison.
Posez les questions à plusieurs modèles (GPT-4o, Claude 3.7, Gemini 2.5) sans uploader le document.
Notez si la réponse est exacte, approximative, ou inventée.
Répétez avec une reformulation différente pour éviter les faux positifs dus à la complétion probabiliste.

Une réponse exacte et répétée sur plusieurs reformulations est un signal fort que le contenu a été vu pendant l'entraînement. Une réponse inventée mais plausible est une hallucination classique — le modèle ne connaît pas, il génère.

Distinguer mémorisation et hallucination

C'est la difficulté majeure de cette méthode. Pour augmenter la fiabilité :

Demandez d'où vient l'information : un modèle qui a mémorisé citera souvent une source, même vaguement ("d'après un rapport interne de votre organisation…")
Posez la question en sens inverse : "Ce chiffre de X est-il correct ?" Un modèle qui ne connaît pas dira "je ne suis pas en mesure de confirmer" plutôt que d'affirmer
Variez la langue : un LLM qui hallucine traduit rarement correctement des acronymes maison ou des termes inventés

Méthode 4 : la membership inference attack

La membership inference attack (MIA) est une technique de recherche en sécurité ML qui tente de déterminer si un exemple spécifique faisait partie des données d'entraînement d'un modèle. C'est la méthode la plus rigoureuse — et la plus technique.

Comment ça fonctionne

L'algorithme Min-k% Prob (Shi et al., 2024, "Detecting Pretraining Data from Large Language Models") analyse la probabilité log-vraisemblance que le modèle assigne à chaque token d'un texte. L'intuition : un modèle assigne des probabilités plus élevées aux séquences qu'il a vues pendant l'entraînement — elles sont "plus familières" dans son espace de paramètres.

Plus précisément, Min-k% Prob regarde les k% de tokens avec la probabilité la plus basse dans la séquence. Sur des données d'entraînement, même les tokens les moins probables ont une vraisemblance raisonnablement haute. Sur du contenu jamais vu, ces tokens bas sont beaucoup plus improbables.

Mise en pratique

Des implémentations open-source existent pour les modèles dont les logits sont accessibles (LLaMA, Mistral, Qwen via HuggingFace). Pour les modèles fermés (GPT-4, Claude), l'accès aux logits est limité ou inexistant, ce qui rend la MIA directe impossible.

Modèles open-source locaux : utilisez la bibliothèque mia-llm ou les scripts de référence du papier Min-k% Prob
OpenAI : l'endpoint /v1/completions (legacy) expose logprobs jusqu'à 5 tokens — insuffisant pour une MIA robuste
Claude / Gemini : aucune exposition des logits — MIA directe impossible

Précision et faux positifs
Même les meilleures MIA actuelles atteignent 60-70% d'AUC-ROC sur des benchmarks contrôlés. Ce n'est pas suffisant pour des conclusions juridiques. La MIA est un outil d'investigation, pas de preuve.

Méthode 5 : l'analyse des sources citées automatiquement

Certains LLMs avec accès au web ou à des bases documentaires citent leurs sources automatiquement. Cette fonctionnalité devient un outil de détection puissant si vous savez l'interpréter.

Les plateformes qui citent leurs sources

Perplexity AI : cite systématiquement les URLs sources pour chaque affirmation. Si votre PDF indexé apparaît, c'est une confirmation.
Microsoft Copilot : cite les sources Bing. Si votre document est crawlé et indexé, il peut apparaître.
Claude avec outils de recherche : quand le web search est activé, Claude cite ses sources.
NotebookLM (Google) : conçu spécifiquement pour les documents uploadés, affiche les citations avec numéros de page — c'est le cas RAG le plus transparent.

Interpréter les citations

Une source citée peut signifier trois choses différentes :

Le document est dans l'index de recherche (Bing, Google Scholar…) et a été retrouvé pendant la génération → votre PDF est publiquement accessible et indexé
Le document a été uploadé par vous dans la session courante → c'est du RAG en temps réel, aucune persistance
Le modèle invente une citation qui ressemble à votre document mais pointe vers une URL inexistante → hallucination de source, votre PDF n'est pas là

Pour distinguer cas 1 et cas 3 : cliquez sur le lien cité. Une URL qui retourne une erreur 404 ou qui pointe vers un document différent est une hallucination. Une URL valide qui pointe vers votre PDF confirme l'indexation.

Le cas particulier de NotebookLM

Google NotebookLM est l'outil le plus transparent sur la question des sources. Il ne répond qu'à partir des documents que vous avez explicitement uploadés, cite les passages exacts avec numéro de page, et refuse de spéculer au-delà du corpus fourni. Si NotebookLM ne trouve pas l'information dans votre PDF, il le dit clairement — au lieu d'inventer.

C'est paradoxalement l'outil le plus utile pour vérifier qu'un LLM utilise bien votre document plutôt que de l'halluciner.

Ce que les sources révèlent (et ce qu'elles cachent)

Quand un LLM cite votre PDF : bonnes pratiques de vérification

Ne prenez jamais une citation LLM pour argent comptant. Voici le protocole minimal de vérification :

Copiez la citation verbatim et recherchez-la dans votre PDF (Ctrl+F ou grep)
Vérifiez le numéro de page annoncé par le modèle
Vérifiez le contexte : le sens de la citation dans le document est-il le même que dans la réponse ?
Vérifiez la date : si le modèle cite votre rapport 2023 en affirmant qu'il date de 2021, quelque chose ne va pas

Un LLM peut citer un passage réel mais le sortir de son contexte de façon trompeuse — ce n'est plus une hallucination technique, mais une distorsion sémantique tout aussi problématique.

Pourquoi un LLM cite des documents qu'il n'a jamais lus

Le phénomène de sycophancy pousse certains modèles à inventer des citations pour satisfaire la question. Si vous demandez "Peux-tu citer la page 12 de mon rapport ?" et que le modèle n'a pas accès au rapport, il peut générer une citation qui semble correspondre — avec la mise en forme correcte, un style proche, mais un contenu inventé.

C'est particulièrement dangereux dans des contextes juridiques ou médicaux, où une fausse citation peut avoir des conséquences graves. Notre article sur Claude assistant juridique documente plusieurs cas de ce type.

Et si je veux empêcher mon PDF d'entrer dans un LLM ?

La détection après coup est utile, mais la prévention est préférable. Pour les documents sensibles :

Avant d'uploader : anonymisez

Si vous devez envoyer un PDF contenant des données personnelles ou confidentielles vers un LLM, la règle est simple : anonymisez d'abord. Remplacez les noms, numéros de sécurité sociale, IBAN, emails, et données d'entreprise par des pseudonymes ou des génériques avant tout envoi. Une couche d'anonymisation automatique (comme celle proposée par Routtx) applique ce traitement de façon transparente, avant que le document n'atteigne le modèle.

Vérifiez les CGU et le DPA

Pour les outils professionnels, exigez un Data Processing Agreement (DPA) signé qui garantit explicitement :

La non-utilisation de vos données pour l'entraînement
La localisation des données en UE
La durée de rétention et les modalités d'effacement
La sous-traitance et les sous-processeurs

Sans DPA, les plateformes grand public (ChatGPT Free, Gemini Standard, Claude.ai sans abonnement Pro Business) n'offrent aucune garantie sur l'utilisation de vos données.

Utilisez un proxy de contrôle

Un proxy IA comme Routtx s'intercale entre votre application et les APIs LLM. Il peut scanner automatiquement les fichiers avant envoi, détecter et masquer les données sensibles, et journaliser les transferts pour l'audit RGPD — sans modifier l'expérience utilisateur finale.

Résumé des méthodes selon votre cas

Situation	Méthode recommandée	Fiabilité
Vérifier que le LLM utilise mon PDF en contexte (RAG)	Citation verbatim + numéro de page	Haute
Détecter si mon PDF est dans les données d'entraînement	Canari + test de connaissance hors-web	Moyenne
Analyse technique sur modèle open-source	Membership inference (Min-k% Prob)	Moyenne-haute*
Vérifier si mon PDF est indexé et cité publiquement	Analyse des sources Perplexity / Copilot	Haute

* Sur modèles open-source uniquement. Impossible sur GPT-4, Claude, Gemini.

Conclusion : les sources comme révélateur de la mémoire des LLMs

La question "mon PDF est-il dans un LLM ?" n'a pas de réponse binaire simple. Un modèle peut avoir une trace floue d'un document (via l'entraînement), un accès direct et temporaire (via RAG), ou aucun accès mais simuler la connaissance (via hallucination). Les sources citées sont la clé de lecture la plus accessible : un modèle qui cite précisément, avec des passages exacts et des numéros de page vérifiables, a réellement accès à votre document. Un modèle qui cite de façon vague ou avec des erreurs factuelles sur des données uniques invente.

Pour les documents sensibles — données personnelles, secrets d'affaires, dossiers médicaux ou juridiques — la question n'est pas seulement technique. C'est une question de conformité RGPD, de responsabilité professionnelle, et de souveraineté sur vos données. La bonne pratique reste d'anonymiser avant d'envoyer, plutôt que de détecter après coup.

Anonymisez vos PDF avant de les envoyer à un LLM
Routtx intercale une couche d'anonymisation automatique entre vos documents et les APIs LLM. Noms, emails, IBAN, numéros de contrat : tout est masqué avant transmission, et restauré dans la réponse. Conforme RGPD, sans friction pour l'utilisateur.

Découvrir Routtx →

FAQ

Comment savoir si mon PDF est dans les données d'entraînement d'un LLM ?

Trois approches complémentaires : (1) posez des questions très spécifiques sur des passages rares ou uniques de votre document sans uploader le fichier ; (2) injectez en amont un "canari" — une phrase inventée et unique — puis demandez au modèle si ce contenu lui est familier ; (3) utilisez des outils de membership inference attack comme Min-k% Prob sur des modèles open-source. Aucune méthode n'est parfaite : les hallucinations du modèle peuvent fausser les résultats.

Comment savoir si un LLM utilise réellement mon PDF en contexte (RAG) ?

Demandez au modèle de citer un passage verbatim avec le numéro de page. Vérifiez mot pour mot contre votre document original. Posez aussi des questions sur des données très spécifiques (un chiffre précis, un acronyme inventé) qu'il est impossible de deviner sans avoir lu le fichier.

Pourquoi un LLM peut citer un document qu'il n'a jamais lu ?

C'est le phénomène d'hallucination : le modèle génère des citations qui semblent plausibles mais sont inventées. Pour détecter cela, comparez toujours mot à mot la citation produite et ce que contient vraiment votre PDF.

ChatGPT, Claude ou Gemini entraînent-ils leurs modèles sur mes PDF ?

Sur les versions payantes avec DPA (ChatGPT Enterprise, Claude for Business, Gemini Business), les fournisseurs s'engagent contractuellement à ne pas réentraîner sur vos données. Sur les versions gratuites, les CGU permettent souvent l'utilisation des conversations à des fins d'amélioration. Sans DPA signé, le risque existe.