Les progrès rapides de la technologie de clonage vocal rendent plus difficile la distinction entre les voix réelles et synthétiques. Mais alors que les deepfakes audio – qui peuvent inciter les gens à renoncer à des informations sensibles – sont un problème croissant, il existe également de bonnes utilisations légitimes de la technologie, a déclaré un groupe d’experts lors d’un atelier FTC cette semaine.

«Les gens imitent des voix depuis des années, mais ces dernières années, la technologie a évolué au point où nous pouvons cloner des voix à grande échelle en utilisant un très petit échantillon audio», a déclaré Laura DeMartino, directrice associée du Division de la technologie et de l’analyse des litiges de la FTC.

Lors de son premier atelier public sur la technologie de clonage audio, la FTC a fait appel à des experts du monde universitaire, du gouvernement, de la médecine et du divertissement pour mettre en évidence les implications de la technologie et les dommages potentiels.

La porte-parole de la FTC, Juliana Gruenwald Henderson , a déclaré après l’atelier que les stratagèmes d’imposteurs sont le type de plainte numéro un que l’agence reçoit. « Nous avons commencé à organiser cet atelier après avoir appris que les techniques d’apprentissage automatique améliorent rapidement la qualité des clones vocaux », a-t-elle déclaré dans un e-mail.

Les Deepfakes, à la fois audio et visuels, permettent aux criminels de communiquer de manière anonyme, ce qui facilite grandement la lutte contre les escroqueries, explique Mona Sedky de la Section des délits informatiques et de la propriété intellectuelle du Département de la justice. Sedky, qui a dit qu’elle était la «voix du destin» dans le panel, a déclaré que les crimes axés sur la communication étaient historiquement moins attrayants pour les criminels, car il était difficile et long de se retirer. « Il est difficile de se présenter de manière convaincante comme quelqu’un d’autre », dit-elle. « Mais avec un faux son profond et des outils d’anonymisation, vous pouvez communiquer de manière anonyme avec des gens partout dans le monde. »

Sedky a déclaré que le clonage audio peut être armé tout comme Internet peut l’être. armé. « Cela ne signifie pas que nous ne devrions pas utiliser Internet, mais il peut y avoir des choses que nous pouvons faire, des choses sur le front-end, pour intégrer la technologie afin de rendre plus difficile l’armement des voix. »

John Costello, directeur du programme de communication augmentative au Boston Children’s Hospital, a déclaré que la technologie de clonage audio a des applications pratiques pour les patients qui perdent la voix. Ils sont en mesure de «banque» d’échantillons audio qui peuvent ensuite être utilisés pour créer des versions synthétiques de leurs voix plus tard. «Beaucoup de gens veulent s’assurer qu’ils ont une voix synthétique au son authentique, donc après avoir perdu leur voix, pour des choses qu’ils n’ont jamais pensé mettre en banque, ils veulent pouvoir« parler »ces choses et les faire sonner comme elles-mêmes»,

Pour les acteurs de la voix et les interprètes, le concept de clonage audio présente un ensemble différent de problèmes, y compris le consentement et la compensation pour l’utilisation de leurs voix, a déclaré Rebecca. Damon de la Screen Actors Guild – Fédération américaine des artistes de la télévision et de la radio. Un acteur de la voix peut avoir des obligations contractuelles sur le lieu où sa voix est entendue, ou peut ne pas vouloir que sa voix soit utilisée d’une manière non compatible avec ses croyances, a-t-elle déclaré.

Et pour les journalistes de radio-télédiffusion, a-t-elle ajouté, le mauvais usage ou la réplication de leurs voix sans autorisation a le potentiel d’affecter leur crédibilité. «Souvent, les gens s’excitent et se précipitent avec la nouvelle technologie et ne réfléchissent pas nécessairement à toutes les applications», a déclaré Damon.

Alors que les gens parlent souvent des médias sociaux et de leur capacité à diffuser des deepfakes audio et vidéo – pensez à la fausse voix de Joe Rogan ou à l’emprunt d’identité assisté par l’IA du président Obama par Jordan Peele – la plupart des panélistes ont convenu que la préoccupation la plus immédiate du deepfake audio pour la plupart des consommateurs était par téléphone.

«Les plates-formes de médias sociaux sont la première ligne, c’est là que les messages sont transmis, verrouillés et diffusés», a déclaré Neil Johnson, un conseiller. avec la Defense Advanced Research Projects Agency (DARPA). Et les applications de synthèse vocale qui génèrent des voix, comme lorsqu’une entreprise appelle pour vous informer qu’un colis a été livré, ont des applications répandues et précieuses. Mais Johnson a cité un exemple d’une entreprise britannique qui a été extorquée pour environ 220 000 $ parce que quelqu’un a usurpé la voix du PDG pour une arnaque par virement bancaire.

Patrick Traynor du Herbert Wertheim College of Engineering de l’Université de Floride a déclaré que la sophistication des escroqueries téléphoniques et des deepfakes audio allait probablement continuer de s’améliorer . « En fin de compte, ce sera une combinaison de techniques qui nous y mènera », pour combattre et détecter les voix synthétiques ou truquées, a-t-il déclaré. La meilleure façon de déterminer si un appelant est bien ce qu’il prétend être, a ajouté Traynor, est une méthode éprouvée: «Raccrochez et rappelez-le. À moins que ce soit un acteur étatique qui puisse rediriger les appels téléphoniques ou un groupe de piratage très, très sophistiqué, les chances sont que c’est le meilleur moyen de savoir si vous parliez à qui vous pensiez être. «