Clonage de voix par deepfake

Utilisation d'une voix — voire d'une vidéo — synthétique générée par IA pour usurper un dirigeant ou collègue lors d'une tentative de fraude.

Le clonage de voix par deepfake désigne l’utilisation de modèles d’IA générative pour synthétiser une copie convaincante de la voix d’une personne précise — souvent un PDG, un directeur financier ou un collègue proche — puis d’utiliser cette voix lors d’un appel, d’un message vocal ou d’une visio en direct pour autoriser un virement frauduleux, un changement d’IBAN ou une réinitialisation d’identifiants. Avec quelques minutes d’audio public (une conférence, un podcast, une présentation aux investisseurs), des outils du marché produisent désormais des clones vocaux en temps réel suffisamment crédibles pour tromper la plupart des auditeurs.

Le cas emblématique est l’affaire Arup à Hong Kong en 2024 : un collaborateur du service finance a rejoint ce qui semblait être une réunion Teams avec le directeur financier et plusieurs cadres dirigeants — tous deepfakés. Au cours de l’appel, il a été instruit d’autoriser une série de virements totalisant environ 25 millions de dollars. La fraude n’a été découverte qu’après vérification auprès du siège. Le Threat Landscape de l’ENISA classe l’ingénierie sociale assistée par IA générative parmi les catégories en plus forte progression.

Propriétés caractéristiques :

S’appuie sur la fraude au président classique. C’est une fraude au président avec une voix ou un visage crédibles en plus. Le schéma de fraude financière reste le même.
Prétexte multicanal. Souvent un email plus une confirmation téléphonique avec la voix clonée, conçu pour casser le réflexe « je rappelle pour confirmer » si le rappel atterrit chez l’attaquant.
Vise finance, trésorerie, paie, RH. Tout rôle pouvant déplacer de l’argent ou modifier des coordonnées bancaires.
Le temps réel est aujourd’hui possible. Les visios deepfakées en Teams ou Zoom ne sont plus des démos de labo.
Difficile à détecter techniquement. Aucun détecteur grand public fiable n’existe ; la défense est procédurale, pas algorithmique.

Les contre-mesures sont comportementales, pas techniques. L’ANSSI comme le FBI publient des guides recommandant une vérification sur double canal pour tout virement ou changement de compte — rappeler sur un numéro de l’annuaire de l’entreprise, jamais sur celui qui vient d’appeler. Le réflexe qui protège l’organisation n’est pas « repérer le deepfake » (un humain ne le peut pas de manière fiable) mais « vérifier hors-bande, à chaque fois, même quand c’est le PDG au bout du fil ».

Termes liés

À lire aussi