EL PAÍS

ChatGPT, Gemini, Copilot y otras aplicaciones basadas en IA creadas por grandes empresas funcionan bien en español. Sin embargo, este domingo, el presidente Pedro Sánchez anunció en Barcelona…

Suscríbete para seguir leyendo

1. No será un “chatbot” normal

Un modelo «básico» no significa que sea un chatbot de uso general como ChatGPT, que requiere que los humanos realicen el largo y costoso trabajo de proporcionar miles de instrucciones. Por lo tanto, no podrá hacer todas las preguntas y no tendrá una página de acceso público. Se convertirá en un modelo básico de inteligencia artificial para que empresas y departamentos gubernamentales se capaciten según sus necesidades específicas.

«Éste es el problema de fondo», afirmó Pep Martorell, subdirector del Barcelona Supercomputing Center (BSC), institución que Sánchez designó como una de las líderes del proyecto. «Por ejemplo, si el gobierno quisiera crear un chatbot para atención primaria, ¿qué haría con OpenAI? Hay muchos problemas con eso, incluidas las licencias, el sesgo, el cierre de datos y el lenguaje», añadió Martorell.

El Modelo Fundacional es la base para que cada organización haga de la IA su “hogar”. Los fundadores de estas fundaciones suelen ser organizaciones públicas cercanas y están más centradas en la transparencia que las empresas de Silicon Valley: «Las empresas casi nunca utilizarán ChatGPT para tareas específicas porque es chocante», afirma Marta Villegas, de Language in the Balanced Scorecard. Los líderes técnicos mencionaron los vergonzosos errores en sus respuestas. «En algunos casos no se necesita tanto, pero hay una necesidad enorme de que los modelos se adapten a negocios concretos y recapaciten para responder a preguntas sobre marcas de coches, servicios públicos (cómo pagar el IBI, por ejemplo)», añade. .

2. No es fácil de hacer

El BSC y su superordenador MareNostrum 5, recientemente lanzado, son componentes fundamentales en la creación de este modelo. Sin una potencia informática significativa, sería imposible enseñar a escribir a una IA. En un país como España sería imposible siquiera intentar crear algo así sin el apoyo público de múltiples gobiernos: “Ya hemos visto esto en varios países europeos, donde el sector público aboga por generar modelos aprovechando al máximo los recursos a nivel un gran centro de investigación”, afirmó Martorell.

Hay un segundo problema: en España existen sólo unos pocos grupos capaces de programar este tipo de modelos. Todos ellos están en centros de investigación o universidades: «Somos de los pocos que tenemos la capacidad de hacerlo», afirma Germán Rigau, subdirector del pionero español HiTZ (Centro de Investigación Tecnológica del Euskera). «En el campo de la inteligencia artificial no todo el mundo sabe hacerlo. Sólo hay algunos centros que lo hacen y lo evalúan», explica. HiTZ acaba de lanzar el modelo lingüístico para euskera más grande de España, basado en el código abierto Meta's Llama. Además, retener el talento es difícil: “Motivamos a los jóvenes diciéndoles que este es un centro de referencia, pero muchos todavía van a Google, Amazon, Cohere o montan sus propias empresas”, añade.

Nada de esto significa necesariamente que este esfuerzo conjunto dará como resultado la próxima generación de modelos. Lo más probable es que provenga de la generación anterior: «Se puede argumentar que antes de finales de 2024 tendremos un modelo GPT-3 en español y un idioma oficial común a disposición de otras empresas», afirmó Martorell. Entonces, ¿cuándo se convirtió GPT-4 en el estándar actual para ChatGPT? «En base a los datos que recopilemos y a la capacidad de MareNostrum 5, lo haremos lo más rápido posible», añadió.

3. Juegue más béisbol y menos fútbol.

Modelos como ChatGPT ya son multilingües: al entrenarlos, aprenderlos y usarlos para traducir, no tiene sentido no agregar idiomas. Pero el lenguaje es más que sólo palabras: también incluye contexto y cultura. Hay muchas variables: tradición, ocio, gastronomía, deportes. Todo este contexto no es sólo cultura sino también el significado de un proverbio o modismo que sólo puede tener sentido en un idioma, es intraducible.

Para un idioma como el español, muy hablado en Internet, es relativamente fácil conseguir buena calidad. Incluso en catalán.Pero los millones de textos (llamados «corpora») utilizados para formar el gallego o el euskera son mucho menores, explica Rigau: «En euskera tenemos 4 mil millones de tokens [pequeños bloques de texto que usan las máquinas para entender el lenguaje]. Los catalanes dispondrán de unos 20.000 millones, cinco veces más. Serán 250.000 españoles, diez veces más que catalanes. Eso es todo lo que podemos agarrar. No importa cuánto nos afeitemos, la báscula es la que es. «

El objetivo de este modelo fundacional es construir mejores corpus en los cuatro idiomas oficiales comunes. Cada institución intenta llegar a un acuerdo con las organizaciones (desde los consejos regionales hasta las cadenas de televisión) que crean textos en su idioma: «Para nuestros idiomas llevamos a cabo una búsqueda de contenidos más estructurada y trabajamos para recopilar datos no contradictorios: Wikipedia, de Por supuesto, también hay datos de las diputaciones regionales, de TV3, de Dialnet o del CSIC, que nos permiten recoger revistas en abierto, pero también datos de la Fundación Elcano, que me dejó un montón de cosas, por ejemplo, de las lenguas de Cataluña, tenemos. Tenemos datos de Òmnium, Vilaweb y cada grupo está trabajando duro para obtener datos seleccionados en su idioma”, dijo Villegas. Se realizó un trabajo similar para el gallego y el vasco.

Todo este esfuerzo no es sólo para que el modelo responda en un gallego más correcto, sino también para que tenga una mejor idea de de qué habla cuando se refiere a temas locales: “Un modelo de una gran empresa sabrá mucho La información sobre el Super Bowl estará muy centrada en lo británico, dijo Villegas, «no sólo desde una perspectiva lingüística, sino también desde una perspectiva de conocimiento tácito, desde una perspectiva de modelo mundial», añadió. El modelo español debería ser menos béisbol y hamburguesas y más fútbol y paella.

Cuando tienes un corpus más grande de un idioma, obtienes más información sobre el mundo complejo que describe el idioma. Por lo tanto, al analizar notas clínicas o sentencias legales escritas por médicos, estos deben estar capacitados y ser coherentes con el idioma y contenido local, de lo contrario pierden demasiados matices.

4. Es una apuesta estratégica

Además de las necesidades lingüísticas y culturales de un país como España, también se intenta asumir compromisos técnicos. «Esto no es sólo una cuestión emocional, histórica o cultural», dijo Senan Barro, profesor de la Universidad de Santiago de Compostela y director del Centro para el Estudio de la Singularidad en Tecnologías Inteligentes. “Esto es estratégico. Si podemos construir una industria fuerte de empresas de tecnología del lenguaje en España, podrán atender no sólo a su propio consumo sino también al del mundo, por ejemplo en un país multilingüe como este es un mercado despiadado. Se estima que la economía en torno a la tecnología del lenguaje podría rondar los 100.000 millones de dólares a finales de esta década. «Es una cifra enorme», añadió.

Sería extraño que gran parte de los datos médicos o legales que el gobierno o las empresas españolas necesitan utilizar pudieran obtenerse a través de tecnología americana o china. «También tiene que tratarse de soberanía, de proporcionar estructura a la industria», dijo Rigao. «¿Alguna vez vamos a depender de personas externas? «Hay muchos datos confidenciales. «

5. Aún existen problemas de derechos de autor

La dificultad inicial para entrenar un modelo de este tipo es la implementación de miles de millones de textos. El lugar más obvio para hacer esto es la web. La organización Common Crawl recopila periódicamente todo el contenido de Internet. Su objetivo es loable: hacer que este material sea accesible para todos, no sólo para las grandes empresas tecnológicas: «Las pequeñas empresas e incluso los particulares pueden acceder a datos de seguimiento de alta calidad a los que antes sólo podían acceder las grandes empresas», dicen en la página. De allí también procederán los datos del modelo de fabricación española.

El archivo Common Crawl contiene toda la web: también gráficos, pornografía, memes ridículos y probablemente material protegido por derechos de autor. Los responsables de entrenar el modelo limpian cualquier referencia sesgada, tóxica u obscena, pero el material protegido por derechos de autor es más sutil: «El hecho de que no haya problemas de derechos de autor es complicado. Lo descargamos desde Common Crawl, en Estados Unidos, eso está permitido bajo la protección del uso legítimo”, dijo Villegas. Este «uso justo» permite el uso de material con derechos en determinadas circunstancias, como citas educativas, informativas o académicas. Su uso para entrenar modelos de inteligencia artificial sigue siendo un tema de debate legal.

«Estos modelos no se replican», explica Rigao. «Es algo muy complicado, es como si una persona leyera muchos libros, 20 millones de libros. ¿Qué recuerdas de ellos? Es lo mismo. Lee, no copie. La memoria de la máquina tampoco es tan buena. : inventó cosas, imagina cosas. Si le cuentas el comienzo de «Don Quijote», no sabrá cómo continuar. Sabrá cosas como nadie. Puede recordar cosas, pero las recuerda. No produce una obra completa de nada”, afirmó.

Puedes seguir a PeriodistasdeGénero Tecnología en Facebook y X o registrarte aquí para recibir nuestra newsletter semanal.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí