Anonymisation locale
Détecter puis substituer, en local
L’anonymisation se fait en deux temps, entièrement sur votre serveur, avant que quoi que ce soit ne parte vers un modèle de langage :
- Détection. D’abord des règles déterministes (un IBAN, un montant, une adresse e-mail suivent des formats reconnaissables par expression régulière). Ensuite, sur ce qui reste ambigu, un modèle de reconnaissance d’entités nommées qui tourne hors ligne (aucun paquet réseau sortant pour détecter).
- Substitution. Chaque valeur détectée est remplacée par un jeton typé et cohérent :
[PERSONNE_1],[SALAIRE_1],[IBAN_1]. Le même nom réel reçoit toujours le même jeton dans un document - le modèle conserve ainsi la structure relationnelle, ce qui garde la réponse utile.
Un exemple de rendu : avant / après
Texte original (reste sur votre serveur) :
Note de Jean Dupont (responsable paie) : virer la prime de 4 500 €sur l'IBAN FR76 3000 6000 0112 3456 7890 189, contact jean.dupont@acme.fr.Texte envoyé au modèle (anonymisé en local) :
Note de [PERSONNE_1] (responsable paie) : virer la prime de [MONTANT_1]sur l'IBAN [IBAN_1], contact [EMAIL_1].Les jetons remplacent les valeurs sensibles, le contexte non sensible (« responsable paie », « virer la prime ») reste en clair. La table qui relie chaque jeton à sa vraie valeur ne quitte jamais votre serveur :
| Jeton | Type | Valeur réelle (locale, jamais envoyée) |
|---|---|---|
[PERSONNE_1] | Personne | Jean Dupont |
[MONTANT_1] | Montant | 4 500 € |
[IBAN_1] | IBAN | FR76 3000 6000 0112 3456 7890 189 |
[EMAIL_1] | jean.dupont@acme.fr |
Quand la réponse du modèle revient, ces jetons sont remplacés par les vraies valeurs chez vous, avant d’être affichés. Le fournisseur d’IA n’a jamais vu un seul identifiant réel.
Pourquoi des jetons typés, pas du [XXX]
Masquer avec un marqueur opaque ([XXX]) détruit le sens. Un jeton typé et cohérent
([PERSONNE_1]) permet au modèle de comprendre « qui parle à qui » sans connaître l’identité
réelle. C’est ce qui rend l’anonymisation utile et pas seulement protectrice.
Ce que le modèle reste capable de faire (et ce qu’il ne peut pas)
| Le modèle reste bon sur jetons | Le modèle ne peut pas / ne doit pas |
|---|---|
| Synthèse de dossier | Calcul numérique sur des valeurs masquées |
| Rédaction de réponse | Vérifier un IBAN réel |
| Classification | Raisonner sur un savoir externe lié à l’identité réelle |
| Comprendre les relations | Dédupliquer sur le vrai nom |
Le calcul numérique sensible (augmenter un salaire de 5 %, faire une somme) ne se fait pas sur des jetons : il se fait en code local sur la valeur réelle, ce qui donne un résultat exact et déterministe.
Le piège du sur-masquage
Masquer trop est un coût réel : une réponse illisible, ou une charge de relecture humaine. Notre doctrine assume une asymétrie : un faux positif (masquer pour rien) coûte peu ; un faux négatif (laisser fuir) coûte cher. Pour garder l’utilité tout en masquant : jetons cohérents et typés, règles déterministes avant la détection par modèle, et le contexte non sensible laissé en clair.
Honnêteté : sur du texte libre très dense, le sur-masquage dégrade la fluidité. C’est un coût à mesurer, pas zéro.
Pour aller plus loin
- Souveraineté - le principe et ce qui part vraiment.
- Journal d’egress - la trace de ce qui est sorti.