Incluso cuando las personas están entrenadas para detectar voces, las voces deepfake pueden ser engañosas

En 2019, un director de una empresa del Reino Unido fue víctima de un fraude tras recibir un mensaje de voz falso de un directivo solicitando una transferencia de 220.000 euros a un proveedor. Un año después, el director de un banco de Hong Kong recibió una llamada de alguien que le resultaba familiar. Basándose en su relación existente, el banquero transfirió 400.000 dólares hasta que se dio cuenta de que algo andaba mal. Son ejemplos aislados, pero cada vez más frecuentes. Ambos casos involucraron el uso de tecnología deepfake para clonar voces, una forma extremadamente sofisticada de manipulación de contenido. Identificarlo es un desafío importante que será cada vez más difícil a medida que la inteligencia artificial avance rápidamente. También hay buenas noticias. Si bien algunas herramientas computacionales pueden detectarlas con cierta precisión, las voces falsas pueden engañar a los humanos, incluso cuando están entrenados para escucharlas.

Un estudio de 529 personas, publicado hoy en Plos One, muestra que las habilidades humanas son ineficaces en ausencia de mensajes de voz para la autenticidad. Cuando los participantes intentaron detectar correctamente estos deepfakes de voz, una cuarta parte falló y los esfuerzos por entrenarlos tuvieron poco éxito. La mitad recibió formación previa en la que podían escuchar cinco ejemplos de discurso sintetizado. Aún así, en comparación con los demás, el aumento es sólo del 3%.

Más información

Los investigadores del University College London también querían ver si el desafío era más fácil o más difícil según el idioma, por lo que lo probaron en inglés y mandarín. Los hallazgos sugieren que estas funciones son las mismas y que ambas audiencias dependen de atributos similares, como la naturalidad y si suena mecánico, al evaluar la autenticidad de un mensaje. «Los participantes de habla inglesa y mandarín citaron con frecuencia una pronunciación incorrecta y una entonación inusual en los clips de sonido al tomar sus decisiones», explica la autora principal del estudio, Kimberly Mai.

más subjetivo que visual

Curiosamente, los participantes mencionaron las mismas características independientemente de si las respuestas eran correctas. Mai explicó que esto se debe a la subjetividad involucrada en el audio. A diferencia de la detección visual de deepfake, que puede juzgar la autenticidad viendo objetos y paisajes, la naturaleza auditiva del habla hace que la percepción sea más subjetiva. «Cuando miras a posibles muñecos, puedes contar el número de dedos de sus manos o si sus accesorios coinciden», dijo el investigador postdoctoral de la Universidad del Reino Unido.

Para comparar las capacidades de los humanos y la tecnología, los investigadores también realizaron las mismas pruebas utilizando dos detectores automatizados. El primero, un software entrenado utilizando una base de datos no relacionada con el estudio, alcanzó un nivel de confianza del 75%, una cifra similar a las respuestas humanas. El segundo modelo, entrenado utilizando tanto el discurso original como la versión sintetizada, pudo identificar la naturaleza del audio con un 100% de precisión. El mejor rendimiento, dice Mai, se debe a la capacidad del programa avanzado para reconocer sutilezas en la acústica que los humanos no pueden.

Los sonidos complejos, como el habla humana, contienen una mezcla de diferentes frecuencias, que es el número de veces que se repite una onda sonora en un segundo. «Los detectores automáticos examinan miles de muestras de voz durante la fase de entrenamiento. Durante este proceso, aprenden las peculiaridades de ciertos niveles de frecuencia y las irregularidades rítmicas. Los humanos no podemos descomponer los sonidos de esta manera», dijeron los investigadores.

Si bien se ha demostrado que los detectores automáticos son más eficaces que los humanos en esta tarea, tienen limitaciones. En primer lugar, no son aptos para el uso diario. Además, su rendimiento se degrada cuando el audio de prueba cambia o se encuentra en un entorno ruidoso. Pero el mayor desafío es su capacidad para mantenerse al día con los avances en IA generativa, a medida que el contenido sintético cada vez más realista se genera más rápido. Por ejemplo, entrenar un programa que antes requería horas de grabación ahora se puede realizar en segundos.

Fernando Cucchietti, experto no asociado al estudio, subrayó que los resultados presentados tenían algunas limitaciones, ya que las condiciones experimentales eran «muy de laboratorio» y no reflejaban las amenazas cotidianas de este tipo de tecnologías. “Hay situaciones en las que los deepfakes pueden ser problemáticos, por ejemplo, si conoces a la persona a la que están imitando, no son realistas’” Aún así, Kukiti enfatizó que las conclusiones fueron similares a las de otros estudios similares, y porque se trataba de un entorno bastante controlado. , «los resultados se vieron menos afectados por otros factores, como el sesgo previo o el sesgo, como la desinformación. Lo mismo ocurre con la investigación».

evitar estafas

A nivel individual, las personas no son fiables a la hora de detectar deepfakes de voz. Sin embargo, los hallazgos sugieren que la detección mejora al reunir las opiniones de más personas y tomar decisiones basadas en el voto mayoritario. Kimberly Mai aconseja: «Si escucha un clip de audio del que no está seguro porque el contenido parece inusual, como una solicitud que implica la transferencia de grandes cantidades de dinero, es mejor discutirlo con otras personas y verificar la fuente».

Mai sugiere que la forma de mejorar los detectores automáticos es hacerlos más resistentes a las diferencias en el audio de prueba. Dijo que su grupo está trabajando para adaptar modelos básicos que han funcionado en otros dominios, como el texto y las imágenes. «Como estos modelos se entrenan con grandes cantidades de datos, se espera que generalicen mejor los cambios en los clips de sonido de prueba», enfatiza. Además, cree que las instituciones tienen la obligación de elegir bando. “Deberían priorizar la implementación de otras estrategias, como regulaciones y políticas, para mitigar los riesgos que plantean los deepfakes de voz”, argumentó.

Puedes seguir a PeriodistasdeGénero Tecnología en Facebook y Twitter o registrarte aquí para recibir nuestra newsletter semanal.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí