EL PAÍS

Clona de forma fiable una voz con sólo 15 segundos de muestra. Eso es lo que logra la última herramienta de inteligencia artificial creada por OpenAI, la compañía que cautivó al mundo con su programa de lenguaje de inteligencia artificial generativa ChatGPT.

“Hoy compartimos información y resultados preliminares de una vista previa a pequeña escala de un modelo llamado Speech Engine, que utiliza texto y una única muestra de audio de 15 segundos para generar un habla natural que se parece mucho al hablante original. con una muestra de 15 segundos se puede crear un sonido emocional y auténtico», afirmó en un comunicado la compañía, dirigida por Sam Altman.

Todo lo que el usuario tiene que hacer es proporcionar la muestra. Una vez que el programa del motor de voz lo tenga, puede hacer que lea cualquier texto que proporcione junto con el timbre y el tono de ese discurso. Ni siquiera es necesario que los textos estén en el mismo idioma. Los hispanohablantes pueden proporcionar muestras de su idioma y luego pedirle al programa que use sus voces para leer textos en inglés, chino u otros idiomas.

También se puede utilizar directamente para la traducción de audio. Además, cuando se utiliza para traducir, el motor de voz conserva el acento nativo del hablante original: por ejemplo, usar una muestra de audio de un hablante de francés para generar inglés producirá un habla con acento francés.

uso limitado

La empresa prefiere lanzar temporalmente una prueba a pequeña escala en lugar de promover el uso generalizado de una herramienta como ChatGPT porque es consciente del riesgo de robo de identidad. Con esta herramienta, sólo necesitas grabar 15 segundos de alguien para obtener su voz.

«Debido al potencial de uso indebido del discurso sintético, estamos adoptando un enfoque cauteloso e informado para una publicación más amplia», dijo OpenAI. «Esperamos iniciar una conversación sobre el despliegue responsable del discurso sintético y cómo la sociedad puede adaptarse a estos nuevos. «Según estos resultados del diálogo y las pruebas a pequeña escala, tomaremos decisiones más informadas sobre si implementar esta tecnología a escala y cómo hacerlo», añadió.

OpenAI cree que antes de promover el acceso a nuevas herramientas, se deben tomar decisiones en varios frentes. Por ejemplo, pide la eliminación gradual de la autenticación por voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible porque ya no es segura.

También cree que es necesario explorar políticas para proteger el uso de voces personales en la inteligencia artificial. Para las figuras públicas, incluidos los políticos, los riesgos de manipulación y desinformación son particularmente evidentes.

Por lo tanto, pide además educar al público sobre las capacidades y limitaciones de la tecnología de IA, incluido el potencial de contenido de IA engañoso.

Otra recomendación que hizo fue acelerar el desarrollo y la adopción de tecnología que rastree el origen del contenido audiovisual para que siempre sea claramente visible al interactuar con una persona real o una inteligencia artificial.

«Es importante que la gente de todo el mundo comprenda hacia dónde se dirige esta tecnología, ya sea que finalmente la implementemos ampliamente o no. Esperamos continuar interactuando con los formuladores de políticas, investigadores, desarrolladores y creativos sobre los desafíos y oportunidades de la conversación con sonido sintético». OpenAI concluyó.

A lo largo de su carrera de innovación, OpenAI ha lanzado no sólo herramientas de lenguaje, sino también herramientas de generación de imágenes y vídeos. El mes pasado lanzó Sora, una revolucionaria herramienta de vídeo que solo requiere texto para crear vídeos cortos con el contenido y el estilo que desees.

Puedes seguir a PeriodistasdeGénero Tecnología en Facebook y X o registrarte aquí para recibir nuestra newsletter semanal.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí