Hasta hace poco sonaba a ciencia ficción: conectarse mediante videollamada, con la visualización en pantalla de un individuo que vive al otro lado del mundo. El chico habla en japonés, pero escuchas lo que dice en español a través de los auriculares. Esto es similar a la situación con los intérpretes que traducen diferentes idiomas en persona o en línea. Sin embargo, la gran diferencia es que aquí no intervienen humanos, sino que la inteligencia artificial (IA) traduce y transmite simultáneamente el habla en otro idioma.
Kudo, empresa que ha crecido en el mercado conectando intérpretes de idiomas con clientes corporativos, ha dado un paso adelante introduciendo la tecnología de traducción simultánea en reuniones online. En lugar de traducir en oraciones escritas, traduce en forma oral, lo que permite a los participantes en la videoconferencia escuchar la traducción como si el intérprete estuviera presente.
En una presentación realizada para PeriodistasdeGénero, el product manager de Kudo, Tzachi Levy, habló en inglés, mientras que su presentación se realizó en español casi en tiempo real. Aunque la voz suena robótica y tiene un ligero retraso en comparación con la traducción humana, los resultados siguen siendo sorprendentes. Las actuaciones humanas suelen retrasarse entre 5 y 7 segundos, mientras que las experiencias artificiales se retrasan unos 10 segundos.
Más información
La empresa tiene 20 clientes empresariales que ya utilizan esta función y aún se está mejorando. La herramienta funciona con la propia plataforma de videoconferencia de Kudo, pero también se integra con Microsoft Teams, muy popular en el mundo empresarial.
Kudo enfatizó que los intérpretes humanos son siempre la mejor opción cuando se requiere una precisión de traducción del 100%. El directivo citó como ejemplo la reunión del Parlamento Europeo: «No se puede utilizar un sistema humano, pero en reuniones más pequeñas en las que no hay intérpretes esta solución puede funcionar bien».
Levy señaló que los avances en IA son inevitables, y que en tan solo unos meses se lograron avances que se pensaba que llevarían entre cinco y diez años. Estima que el campo está avanzando tan rápido que dentro del próximo año la IA podrá traducir con precisión y simultáneamente el 90 por ciento del tiempo.
inteligencia artificial e inteligencia humana
En junio, la revista Wired comparó la técnica de Kudo con interpretaciones de expertos. Los humanos lograron mejores resultados que las herramientas de inteligencia artificial, principalmente en términos del contexto del discurso. Claudio Fantinuoli, director técnico de Kudo y creador de la herramienta de traducción automática, aseguró a PeriodistasdeGénero que el modelo evaluado por la prensa estadounidense hace tres meses ha mejorado un 25%. El siguiente paso en el desarrollo es integrar inteligencia artificial generativa para hacer que la experiencia del usuario sea más agradable: las voces suenan más suaves, más humanas y capturan la entonación.
Uno de los principales desafíos, dijo Fantinoli, es lograr que la IA interprete el contexto de la narrativa, el significado entre líneas que un humano entendería. El desafío sigue siendo enorme, pero se mejora con «grandes modelos de lenguaje», como los que están detrás de los chatbots conversacionales.
Fantinoli, que también es profesor universitario y enseña a jóvenes estudiantes que aspiran a convertirse en artistas profesionales en el futuro, dijo que no ve «ningún conflicto» entre la inteligencia artificial y la formación humana. Además, garantiza que el trabajo de los expertos sea siempre de mayor calidad. «Intento hacerles entender que los robots son una realidad en el mercado y tienen que ser de primer nivel. La IA les está convirtiendo en muy buenos intérpretes», afirma.
una voz, muchos idiomas
Una posibilidad que está surgiendo en un futuro próximo es añadir la propia voz del hablante a la traducción. Fantinuoli confirmó que técnicamente esto ya es posible y sólo serán necesarios unos meses para incorporarlo a las herramientas de su empresa. Otras compañías han probado la posibilidad de utilizar una única voz para reproducir contenidos en diferentes idiomas, pero no simultáneamente. Tal es el caso de la plataforma ElevenLabs, que da vida a contenidos en 30 idiomas diferentes a través de una misma voz.
El proceso es sencillo: todo lo que tienes que hacer es subir un archivo de audio de poco más de un minuto de duración que contenga el discurso que deseas copiar. La herramienta leerá en voz alta el texto que desee de este archivo en el mismo idioma original u otro idioma disponible. La plataforma ofrece opciones para realizar ajustes personalizados, ajustar la claridad de la lectura e incluso exagerar el estilo del habla a tu gusto. La retroalimentación no sólo imita sonidos, sino que también captura y refleja matices únicos como el tono, el ritmo, el acento y la entonación.
Meta lanzó recientemente un modelo de traducción multimodal que puede realizar traducción de voz a texto, de voz a voz, de texto a voz y de texto a texto en hasta 100 idiomas, según la tarea. Una de esas promesas es para los políglotas, aquellos que mezclan dos o tres idiomas en una sola frase. La empresa de Mark Zuckerberg afirma que el modelo es capaz de reconocer los diferentes idiomas implicados y traducir en consecuencia. Si bien la función todavía tiene algunos errores menores, funciona bastante bien cuando la frase está en un solo idioma. La versión beta de la herramienta es de uso gratuito.
Claudio Fantinuoli encontró sorprendente la nueva herramienta de Meta y la comparó con «ChatGPT para conversaciones habladas». «Lo que han hecho es juntar todos los modelos para que se puedan hacer muchas tareas al mismo tiempo. Este es el futuro», concluye.
Puedes seguir a PeriodistasdeGénero Tecnología en Facebook y Twitter o registrarte aquí para recibir nuestra newsletter semanal.