La carrera por la inteligencia artificial (IA) se ha convertido en una prueba de velocidad. En respuesta al progreso de ChatGPT (ahora en su cuarta versión) y al continuo lanzamiento de sus propios sistemas por parte de grandes empresas multinacionales, Google lanzó el miércoles Gemini, una plataforma de inteligencia artificial multimodal que puede procesar y generar texto, código y datos de imágenes, audio y video de diferentes fuentes de datos. Eli Collins, vicepresidente de producto de Google DeepMind, anunció que la versión Ultra «estará disponible a principios del próximo año» y funcionará mejor que los humanos en comprensión del lenguaje multitarea a gran escala (MMLU), un punto de referencia de evaluación compuesto por 57 científicos. , técnicas y, ingeniería, matemáticas (STEM), humanidades y ciencias sociales.
«Gemini es nuestro modelo de inteligencia artificial más grande y más capaz», dijo Collins, explicando que está «inspirado en la forma en que las personas entienden e interactúan con el mundo». «Se considera más una contribución útil que una pieza inteligente de programación», dijo.
Durante la demostración, Gemini pudo identificar formas geométricas, analizar fórmulas para encontrar sus áreas y encontrar errores en ellas para preguntar e interpretar resultados precisos de los problemas. De esta manera, puede devolver resultados para imágenes, texto alfanumérico y datos de voz. También identifica diferentes formas y dibujos, algunos de los cuales se basan únicamente en puntos dispersos, y propone un propósito a las figuras u objetos presentados, o desarrolla una historia a partir de propuestas alternativas, o desarrolla una actualizada a partir de la información que busca la plataforma. propios gráficos.
Según el vicepresidente de DeepMind, logró una puntuación de más del 90% en el sistema de evaluación de comprensión de idiomas multitarea MMLU. «Este es el primer modelo de IA que supera a los expertos humanos en este punto de referencia estándar de la industria», dijo. Gemini también aprobó (59,4%) el examen «Comprensión de tareas multimodales, incluidos los requisitos que requieren un razonamiento reflexivo».
Más información
Gemini no es una aplicación, sino una plataforma que lleva este último modelo de inteligencia artificial a servicios existentes a escala, desde el competidor de chat de Google, Bard, hasta ChatGPT, motores de búsqueda o administradores de servicios, o teléfonos Android o centros de datos.
Para ello, Gemini estará disponible en tres «tamaños»: Nano, que ya está disponible para los desarrolladores de Android; Pro, que estará disponible el 13 de diciembre, y Ultra, que estará disponible a principios de este año en una versión aún por publicar. fecha por determinar. Los desarrolladores y clientes empresariales podrán acceder a Pro a través de la API Gemini en Google AI Studio o Vertex AI. A través de AICore, los desarrolladores de Android también pueden crear aplicaciones utilizando Nano.
poeta
La asistente y directora de Bard, Sissie Hsiao, anunció que Gemini ahora se unirá al último chat en inglés para 180 países y se expandirá gradualmente a otros idiomas, aunque reconoció que deben confirmar que su desarrollo es compatible con las próximas regulaciones europeas de IA, lo que incluye la adaptabilidad. desarrollo de estas plataformas conversacionales. A medida que se incorpore a Bard, se expandirá a todas las aplicaciones compatibles.
El proceso se dividirá en dos fases: la primera utilizará la versión Pro, que proporcionará «razonamiento, planificación, comprensión y otras características más avanzadas» para el chat, dijo Hsiao; la segunda será a principios del próximo año con un pico mejorado con la adopción de la versión Ultra.
Géminis era multimodal cuando nació, es decir, no tenía la capacidad de entrenarse con datos de diferentes modalidades para luego unificarlos y diferenciarlos, pero su programación ya se basaba en la diversidad de fuentes. Como explica Collins, «Esto ayuda a Gemini a comprender perfectamente todos los tipos de entrada mejor que los modelos existentes, y sus capacidades son de última generación».
También es capaz de programar, incluido el desarrollo complejo. En este sentido, el vicepresidente de Google Cloud, Amin Vahdat, asegura: “En el futuro, veremos a los programadores utilizar modelos de IA de gran volumen como herramientas de colaboración para ayudar durante todo el proceso de desarrollo de software, desde el razonamiento hasta las preguntas, pasando por la asistencia en la implementación, el rendimiento y la capacidad. .”
En cuanto a la seguridad, Google dijo que Gemini pasó «la evaluación más completa de cualquier modelo hasta la fecha». La empresa aseguró que había sometido la plataforma a todos los riesgos existentes y potenciales y mantenido controles continuos, incluidas «pruebas de estrés». También se han aplicado los principios de IA propios de la compañía, estableciendo estándares éticos para su desarrollo.
A pesar de sus avances, Géminis no es infalible, como saben sus responsables. Reconocen que esto puede crear errores e ilusiones (reacciones que parecen confiadas pero que no están justificadas por datos). «Hemos progresado mucho y, en ese sentido, Gemini es nuestro mejor modelo, pero yo diría que todavía es un problema de investigación sin resolver», admitió Collins.
Puedes seguir a PeriodistasdeGénero Tecnología en Facebook y X o registrarte aquí para recibir nuestra newsletter semanal.