Vous avez uploadé un contrat, un rapport interne ou un dossier médical dans ChatGPT, Claude ou Gemini. Mais comment savoir si le modèle utilise vraiment votre document — ou s'il hallucine des réponses plausibles ? Et surtout, comment détecter si votre PDF a été aspiré dans les données d'entraînement d'un LLM sans votre consentement ? La réponse se joue sur un détail crucial : les sources citées.
Les trois façons dont un PDF peut "être dans" un LLM
Avant de chercher à détecter quoi que ce soit, il faut distinguer trois situations radicalement différentes — car les méthodes de détection ne sont pas les mêmes :
1. Le document est dans les données d'entraînement
Pendant la phase de pré-entraînement, les LLMs ingèrent des milliards de pages de texte : internet, livres, articles scientifiques, et potentiellement des documents PDF publics ou partagés. Si votre PDF était en accès public — sur votre site, dans un dépôt open data, dans un crawler — il a peut-être été absorbé dans les poids du modèle. Le modèle n'a pas accès au fichier, mais en a une trace mémorielle encodée dans ses paramètres.
2. Le document est injecté dans le contexte (RAG)
Quand vous uploadez un PDF dans ChatGPT, Claude.ai ou Gemini, le fichier est découpé en chunks, transformé en embeddings vectoriels, et les passages les plus pertinents sont injectés dans la fenêtre de contexte avant chaque réponse. C'est le RAG (Retrieval-Augmented Generation). Le modèle a un accès direct et temporaire au contenu — il devrait donc pouvoir le citer avec précision.
3. Le document a servi au fine-tuning
Dans les entreprises qui déploient des LLMs maison (via Mistral, LLaMA, Qwen…), les PDF internes peuvent alimenter des datasets de fine-tuning pour spécialiser le modèle sur un domaine métier. Le contenu est alors encodé de façon plus profonde qu'un simple contexte RAG, mais moins "verbatim" que des données d'entraînement répétées des milliers de fois.
Dans les trois cas, si le PDF contient des données personnelles, vous avez potentiellement une violation de l'article 5(1)(b) du RGPD (limitation des finalités) et de l'article 17 (droit à l'effacement) — car il devient impossible de "retirer" ces données d'un modèle une fois qu'elles sont encodées dans ses poids. Voir notre analyse complète : LLM et RGPD : pourquoi ChatGPT, Claude et Gemini ne sont pas conformes.
Méthode 1 : le test de citation verbatim
C'est la méthode la plus directe pour savoir si un LLM a réellement accès à votre document en contexte (situation RAG). Elle ne fonctionne pas pour détecter la présence dans les données d'entraînement.
Comment procéder
Choisissez dans votre PDF un passage très spécifique : une phrase avec un chiffre précis, un terme technique rare, ou une formulation inhabituelle. Demandez ensuite au modèle :
"Dans le document que je t'ai fourni, cite-moi mot pour mot le passage qui parle de [sujet précis]. Inclus le numéro de page et les deux phrases qui précèdent et suivent."
Comparez ensuite la réponse au PDF original. Un modèle qui a réellement accès au document reproduira le texte de façon fidèle. Un modèle qui n'y a pas accès (ou dont le contexte RAG a raté le chunk pertinent) inventera une citation plausible mais inexacte.
Ce que les sources révèlent
Sur des plateformes comme Perplexity, Bing Copilot ou Claude avec accès web, les sources sont souvent affichées sous forme de liens cliquables. Si votre PDF est cité en source avec son URL exacte, il a soit été indexé par le moteur de recherche intégré, soit fait partie du corpus d'entraînement. Si le modèle invente une URL ou cite une source différente qui arrive aux mêmes conclusions, vous êtes face à une hallucination de citation.
Les limites
- Un LLM très capable peut produire des citations de qualité suffisante pour tromper un lecteur non attentif
- Le chunking RAG peut avoir raté un passage spécifique sans que le reste du document soit inaccessible
- Les modèles avec une longue fenêtre de contexte (200k tokens pour Claude 3) peuvent avoir "oublié" un passage en milieu de document (lost in the middle problem)
Méthode 2 : l'injection de canaris documentaires
C'est la méthode préventive : vous la mettez en place avant de partager ou uploader votre PDF, pour pouvoir le détecter plus tard. Concept emprunté à la sécurité réseau (honeypot / canary tokens).
Qu'est-ce qu'un canari documentaire ?
Un canari documentaire est une information inventée, unique et mémorable que vous insérez dans votre PDF. Elle doit être :
- Introuvable sur internet (vérifiez avant en googleant la phrase exacte)
- Plausible dans le contexte du document (pour ne pas alerter un éventuel scraper)
- Précise et distincte : une combinaison chiffre + terme + date inventée fonctionne bien
Exemple : dans un rapport financier interne, insérez discrètement la phrase "Le taux de conversion du segment Bénélux Alpha-7 a atteint 4,73% au Q3 2024, contre 3,21% pour le segment Gamma-9." — avec des noms de segments et des chiffres qui n'existent pas dans votre entreprise.
Comment tester la détection
Quelques semaines ou mois après le partage du document, interrogez les LLMs de votre choix :
"Connais-tu le taux de conversion du segment Bénélux Alpha-7 ?"
Si le modèle donne le chiffre exact (4,73%), votre canari a été déclenché : le PDF a été intégré dans ses données d'entraînement ou dans une base vectorielle accessible. Si le modèle invente un autre chiffre ou dit ne pas connaître, l'information n'est probablement pas dans ses poids.
Les canaris documentaires ne doivent jamais contenir de données personnelles réelles — même inventées, elles pourraient être confondues avec des données d'une vraie personne. Utilisez des noms fictifs clairement fantaisistes, des identifiants alphanumériques, ou des entités géographiques inexistantes.
Méthode 3 : le test de connaissance spécifique hors-web
Cette méthode cible la détection dans les données d'entraînement, pour des documents qui n'ont jamais été mis en ligne publiquement. Elle repose sur le paradoxe suivant : si un modèle connaît le contenu d'un document interne que vous n'avez jamais publié, c'est qu'il a été exposé d'une façon ou d'une autre.
Protocol de test
- Identifiez dans votre PDF 3 à 5 informations non googleables : une décision interne, un chiffre propre à votre organisation, une formulation maison.
- Posez les questions à plusieurs modèles (GPT-4o, Claude 3.7, Gemini 2.5) sans uploader le document.
- Notez si la réponse est exacte, approximative, ou inventée.
- Répétez avec une reformulation différente pour éviter les faux positifs dus à la complétion probabiliste.
Une réponse exacte et répétée sur plusieurs reformulations est un signal fort que le contenu a été vu pendant l'entraînement. Une réponse inventée mais plausible est une hallucination classique — le modèle ne connaît pas, il génère.
Distinguer mémorisation et hallucination
C'est la difficulté majeure de cette méthode. Pour augmenter la fiabilité :
- Demandez d'où vient l'information : un modèle qui a mémorisé citera souvent une source, même vaguement ("d'après un rapport interne de votre organisation…")
- Posez la question en sens inverse : "Ce chiffre de X est-il correct ?" Un modèle qui ne connaît pas dira "je ne suis pas en mesure de confirmer" plutôt que d'affirmer
- Variez la langue : un LLM qui hallucine traduit rarement correctement des acronymes maison ou des termes inventés
Méthode 4 : la membership inference attack
La membership inference attack (MIA) est une technique de recherche en sécurité ML qui tente de déterminer si un exemple spécifique faisait partie des données d'entraînement d'un modèle. C'est la méthode la plus rigoureuse — et la plus technique.
Comment ça fonctionne
L'algorithme Min-k% Prob (Shi et al., 2024, "Detecting Pretraining Data from Large Language Models") analyse la probabilité log-vraisemblance que le modèle assigne à chaque token d'un texte. L'intuition : un modèle assigne des probabilités plus élevées aux séquences qu'il a vues pendant l'entraînement — elles sont "plus familières" dans son espace de paramètres.
Plus précisément, Min-k% Prob regarde les k% de tokens avec la probabilité la plus basse dans la séquence. Sur des données d'entraînement, même les tokens les moins probables ont une vraisemblance raisonnablement haute. Sur du contenu jamais vu, ces tokens bas sont beaucoup plus improbables.
Mise en pratique
Des implémentations open-source existent pour les modèles dont les logits sont accessibles (LLaMA, Mistral, Qwen via HuggingFace). Pour les modèles fermés (GPT-4, Claude), l'accès aux logits est limité ou inexistant, ce qui rend la MIA directe impossible.
- Modèles open-source locaux : utilisez la bibliothèque
mia-llmou les scripts de référence du papier Min-k% Prob - OpenAI : l'endpoint
/v1/completions(legacy) exposelogprobsjusqu'à 5 tokens — insuffisant pour une MIA robuste - Claude / Gemini : aucune exposition des logits — MIA directe impossible
Même les meilleures MIA actuelles atteignent 60-70% d'AUC-ROC sur des benchmarks contrôlés. Ce n'est pas suffisant pour des conclusions juridiques. La MIA est un outil d'investigation, pas de preuve.
Méthode 5 : l'analyse des sources citées automatiquement
Certains LLMs avec accès au web ou à des bases documentaires citent leurs sources automatiquement. Cette fonctionnalité devient un outil de détection puissant si vous savez l'interpréter.
Les plateformes qui citent leurs sources
- Perplexity AI : cite systématiquement les URLs sources pour chaque affirmation. Si votre PDF indexé apparaît, c'est une confirmation.
- Microsoft Copilot : cite les sources Bing. Si votre document est crawlé et indexé, il peut apparaître.
- Claude avec outils de recherche : quand le web search est activé, Claude cite ses sources.
- NotebookLM (Google) : conçu spécifiquement pour les documents uploadés, affiche les citations avec numéros de page — c'est le cas RAG le plus transparent.
Interpréter les citations
Une source citée peut signifier trois choses différentes :
- Le document est dans l'index de recherche (Bing, Google Scholar…) et a été retrouvé pendant la génération → votre PDF est publiquement accessible et indexé
- Le document a été uploadé par vous dans la session courante → c'est du RAG en temps réel, aucune persistance
- Le modèle invente une citation qui ressemble à votre document mais pointe vers une URL inexistante → hallucination de source, votre PDF n'est pas là
Pour distinguer cas 1 et cas 3 : cliquez sur le lien cité. Une URL qui retourne une erreur 404 ou qui pointe vers un document différent est une hallucination. Une URL valide qui pointe vers votre PDF confirme l'indexation.
Le cas particulier de NotebookLM
Google NotebookLM est l'outil le plus transparent sur la question des sources. Il ne répond qu'à partir des documents que vous avez explicitement uploadés, cite les passages exacts avec numéro de page, et refuse de spéculer au-delà du corpus fourni. Si NotebookLM ne trouve pas l'information dans votre PDF, il le dit clairement — au lieu d'inventer.
C'est paradoxalement l'outil le plus utile pour vérifier qu'un LLM utilise bien votre document plutôt que de l'halluciner.
Ce que les sources révèlent (et ce qu'elles cachent)
Quand un LLM cite votre PDF : bonnes pratiques de vérification
Ne prenez jamais une citation LLM pour argent comptant. Voici le protocole minimal de vérification :
- Copiez la citation verbatim et recherchez-la dans votre PDF (Ctrl+F ou grep)
- Vérifiez le numéro de page annoncé par le modèle
- Vérifiez le contexte : le sens de la citation dans le document est-il le même que dans la réponse ?
- Vérifiez la date : si le modèle cite votre rapport 2023 en affirmant qu'il date de 2021, quelque chose ne va pas
Un LLM peut citer un passage réel mais le sortir de son contexte de façon trompeuse — ce n'est plus une hallucination technique, mais une distorsion sémantique tout aussi problématique.
Pourquoi un LLM cite des documents qu'il n'a jamais lus
Le phénomène de sycophancy pousse certains modèles à inventer des citations pour satisfaire la question. Si vous demandez "Peux-tu citer la page 12 de mon rapport ?" et que le modèle n'a pas accès au rapport, il peut générer une citation qui semble correspondre — avec la mise en forme correcte, un style proche, mais un contenu inventé.
C'est particulièrement dangereux dans des contextes juridiques ou médicaux, où une fausse citation peut avoir des conséquences graves. Notre article sur Claude assistant juridique documente plusieurs cas de ce type.
Et si je veux empêcher mon PDF d'entrer dans un LLM ?
La détection après coup est utile, mais la prévention est préférable. Pour les documents sensibles :
Avant d'uploader : anonymisez
Si vous devez envoyer un PDF contenant des données personnelles ou confidentielles vers un LLM, la règle est simple : anonymisez d'abord. Remplacez les noms, numéros de sécurité sociale, IBAN, emails, et données d'entreprise par des pseudonymes ou des génériques avant tout envoi. Une couche d'anonymisation automatique (comme celle proposée par Routtx) applique ce traitement de façon transparente, avant que le document n'atteigne le modèle.
Vérifiez les CGU et le DPA
Pour les outils professionnels, exigez un Data Processing Agreement (DPA) signé qui garantit explicitement :
- La non-utilisation de vos données pour l'entraînement
- La localisation des données en UE
- La durée de rétention et les modalités d'effacement
- La sous-traitance et les sous-processeurs
Sans DPA, les plateformes grand public (ChatGPT Free, Gemini Standard, Claude.ai sans abonnement Pro Business) n'offrent aucune garantie sur l'utilisation de vos données.
Utilisez un proxy de contrôle
Un proxy IA comme Routtx s'intercale entre votre application et les APIs LLM. Il peut scanner automatiquement les fichiers avant envoi, détecter et masquer les données sensibles, et journaliser les transferts pour l'audit RGPD — sans modifier l'expérience utilisateur finale.
| Situation | Méthode recommandée | Fiabilité |
|---|---|---|
| Vérifier que le LLM utilise mon PDF en contexte (RAG) | Citation verbatim + numéro de page | Haute |
| Détecter si mon PDF est dans les données d'entraînement | Canari + test de connaissance hors-web | Moyenne |
| Analyse technique sur modèle open-source | Membership inference (Min-k% Prob) | Moyenne-haute* |
| Vérifier si mon PDF est indexé et cité publiquement | Analyse des sources Perplexity / Copilot | Haute |
Conclusion : les sources comme révélateur de la mémoire des LLMs
La question "mon PDF est-il dans un LLM ?" n'a pas de réponse binaire simple. Un modèle peut avoir une trace floue d'un document (via l'entraînement), un accès direct et temporaire (via RAG), ou aucun accès mais simuler la connaissance (via hallucination). Les sources citées sont la clé de lecture la plus accessible : un modèle qui cite précisément, avec des passages exacts et des numéros de page vérifiables, a réellement accès à votre document. Un modèle qui cite de façon vague ou avec des erreurs factuelles sur des données uniques invente.
Pour les documents sensibles — données personnelles, secrets d'affaires, dossiers médicaux ou juridiques — la question n'est pas seulement technique. C'est une question de conformité RGPD, de responsabilité professionnelle, et de souveraineté sur vos données. La bonne pratique reste d'anonymiser avant d'envoyer, plutôt que de détecter après coup.
Routtx intercale une couche d'anonymisation automatique entre vos documents et les APIs LLM. Noms, emails, IBAN, numéros de contrat : tout est masqué avant transmission, et restauré dans la réponse. Conforme RGPD, sans friction pour l'utilisateur.
Découvrir Routtx →
FAQ
Comment savoir si mon PDF est dans les données d'entraînement d'un LLM ?
Trois approches complémentaires : (1) posez des questions très spécifiques sur des passages rares ou uniques de votre document sans uploader le fichier ; (2) injectez en amont un "canari" — une phrase inventée et unique — puis demandez au modèle si ce contenu lui est familier ; (3) utilisez des outils de membership inference attack comme Min-k% Prob sur des modèles open-source. Aucune méthode n'est parfaite : les hallucinations du modèle peuvent fausser les résultats.
Comment savoir si un LLM utilise réellement mon PDF en contexte (RAG) ?
Demandez au modèle de citer un passage verbatim avec le numéro de page. Vérifiez mot pour mot contre votre document original. Posez aussi des questions sur des données très spécifiques (un chiffre précis, un acronyme inventé) qu'il est impossible de deviner sans avoir lu le fichier.
Pourquoi un LLM peut citer un document qu'il n'a jamais lu ?
C'est le phénomène d'hallucination : le modèle génère des citations qui semblent plausibles mais sont inventées. Pour détecter cela, comparez toujours mot à mot la citation produite et ce que contient vraiment votre PDF.
ChatGPT, Claude ou Gemini entraînent-ils leurs modèles sur mes PDF ?
Sur les versions payantes avec DPA (ChatGPT Enterprise, Claude for Business, Gemini Business), les fournisseurs s'engagent contractuellement à ne pas réentraîner sur vos données. Sur les versions gratuites, les CGU permettent souvent l'utilisation des conversations à des fins d'amélioration. Sans DPA signé, le risque existe.