Anonymisation locale

Détecter puis substituer, en local

L’anonymisation se fait en deux temps, entièrement sur votre serveur, avant que quoi que ce soit ne parte vers un modèle de langage :

Détection. D’abord des règles déterministes (un IBAN, un montant, une adresse e-mail suivent des formats reconnaissables par expression régulière). Ensuite, sur ce qui reste ambigu, un modèle de reconnaissance d’entités nommées qui tourne hors ligne (aucun paquet réseau sortant pour détecter).
Substitution. Chaque valeur détectée est remplacée par un jeton typé et cohérent : [PERSONNE_1], [SALAIRE_1], [IBAN_1]. Le même nom réel reçoit toujours le même jeton dans un document - le modèle conserve ainsi la structure relationnelle, ce qui garde la réponse utile.

Un exemple de rendu : avant / après

Texte original (reste sur votre serveur) :

Note de Jean Dupont (responsable paie) : virer la prime de 4 500 €
sur l'IBAN FR76 3000 6000 0112 3456 7890 189, contact jean.dupont@acme.fr.

Texte envoyé au modèle (anonymisé en local) :

Note de [PERSONNE_1] (responsable paie) : virer la prime de [MONTANT_1]
sur l'IBAN [IBAN_1], contact [EMAIL_1].

Les jetons remplacent les valeurs sensibles, le contexte non sensible (« responsable paie », « virer la prime ») reste en clair. La table qui relie chaque jeton à sa vraie valeur ne quitte jamais votre serveur :

Jeton	Type	Valeur réelle (locale, jamais envoyée)
`[PERSONNE_1]`	Personne	Jean Dupont
`[MONTANT_1]`	Montant	4 500 €
`[IBAN_1]`	IBAN	FR76 3000 6000 0112 3456 7890 189
`[EMAIL_1]`	E-mail	jean.dupont@acme.fr

Quand la réponse du modèle revient, ces jetons sont remplacés par les vraies valeurs chez vous, avant d’être affichés. Le fournisseur d’IA n’a jamais vu un seul identifiant réel.

Pourquoi des jetons typés, pas du `[XXX]`

Masquer avec un marqueur opaque ([XXX]) détruit le sens. Un jeton typé et cohérent ([PERSONNE_1]) permet au modèle de comprendre « qui parle à qui » sans connaître l’identité réelle. C’est ce qui rend l’anonymisation utile et pas seulement protectrice.

Ce que le modèle reste capable de faire (et ce qu’il ne peut pas)

Le modèle reste bon sur jetons	Le modèle ne peut pas / ne doit pas
Synthèse de dossier	Calcul numérique sur des valeurs masquées
Rédaction de réponse	Vérifier un IBAN réel
Classification	Raisonner sur un savoir externe lié à l’identité réelle
Comprendre les relations	Dédupliquer sur le vrai nom

Le calcul numérique sensible (augmenter un salaire de 5 %, faire une somme) ne se fait pas sur des jetons : il se fait en code local sur la valeur réelle, ce qui donne un résultat exact et déterministe.

Le piège du sur-masquage

Masquer trop est un coût réel : une réponse illisible, ou une charge de relecture humaine. Notre doctrine assume une asymétrie : un faux positif (masquer pour rien) coûte peu ; un faux négatif (laisser fuir) coûte cher. Pour garder l’utilité tout en masquant : jetons cohérents et typés, règles déterministes avant la détection par modèle, et le contexte non sensible laissé en clair.

Honnêteté : sur du texte libre très dense, le sur-masquage dégrade la fluidité. C’est un coût à mesurer, pas zéro.

Pour aller plus loin

Souveraineté - le principe et ce qui part vraiment.
Journal d’egress - la trace de ce qui est sorti.