Comparativa de Modelos de IA según los Benchmarks

Comparación de los distintos modelos de inteligencia artificial tras los benchmarks

El artículo presenta una introducción a los benchmarks en la inteligencia artificial (IA), fundamentales para medir y comparar el rendimiento de modelos de IA en diversas tareas como el reconocimiento de imágenes, procesamiento de lenguaje natural y síntesis de voz. Destaca la utilidad de estos benchmarks para identificar modelos avanzados y fomentar el progreso tecnológico. Se mencionan benchmarks específicos y modelos de IA relevantes, subrayando cómo facilitan la evaluación comparativa de las capacidades de los sistemas de IA. Además, se discute la importancia de plataformas como Arena para realizar comparaciones detalladas entre modelos, apoyando a investigadores y desarrolladores en la selección de tecnologías adecuadas para sus proyectos.

Qué son los benchmarks en la inteligencia artificial

La evaluación del rendimiento de los modelos de IA se realiza mediante benchmarks estandarizados, los cuales son conjuntos de pruebas o tareas diseñadas para medir y comparar las capacidades de los sistemas de IA en diversas áreas como reconocimiento de imágenes, procesamiento de lenguaje natural o síntesis de voz. Estos benchmarks ofrecen una base común para que investigadores y desarrolladores evalúen las capacidades y limitaciones de sus modelos de IA, facilitando la identificación de modelos de vanguardia y promoviendo el avance tecnológico en el campo.

Los rankings de benchmarks son fundamentales para obtener una visión clara de las capacidades de diferentes modelos y algoritmos. Permiten a investigadores y desarrolladores evaluar el rendimiento de sus sistemas de IA, identificando áreas para mejora y motivándolos a lograr mejores resultados. La comparación de estos rankings permite entender cuáles modelos lideran en términos de precisión, velocidad de procesamiento, uso de memoria y consumo de energía, ofreciendo así una evaluación integral del rendimiento de los modelos.

Benchmarks comunes

Son esenciales para comparar el rendimientos de modelos de IA, especialmente en el desarrollo de Modelos de Lenguaje de Aprendizaje Profundo (LLMs). Estas pruebas estandarizadas pueden cubrir desde tareas simples hasta desafíos complejos que requieren una comprensión profunda del lenguaje y capacidad de razonamiento lógico. Algunos de los benchmarks más conocidos en este ámbito son:

GLUE (General Language Understanding Evaluation): Es un conjunto de nueve tareas de procesamiento del lenguaje natural (NLP) que incluyen preguntas y respuestas, análisis de sentimientos, entre otros. La puntuación de GLUE se obtiene como el promedio de las puntuaciones en estas tareas, proporcionando una medida integral del rendimiento de un modelo de lenguaje. Por ejemplo, a principios de 2023, modelos como BERT y sus variantes alcanzaban puntuaciones superiores al 80% en el benchmark GLUE, demostrando su eficacia en entender el lenguaje natural.

SuperGLUE: Diseñado como un sucesor de GLUE, este benchmark es más desafiante e incluye tareas más complejas como la inferencia de lectura y la resolución de referencias. Los modelos de IA más avanzados, como GPT-3, han logrado superar el rendimiento humano en SuperGLUE, con puntuaciones alrededor o superiores al 90%.

ImageNet: Es clave para modelos de visión por computadora, consistiendo en millones de imágenes clasificadas en miles de categorías. Los modelos se evalúan por su precisión en la clasificación de imágenes. En la competencia ImageNet Large Scale Visual Recognition Challenge (ILSVRC), los modelos como ResNet han logrado tasas de error inferiores al 3.6%, un gran avance comparado con los modelos anteriores.

HumanEval: Diseñada para evaluar la capacidad de generación de código de los modelos de lenguaje grandes. Consiste en un conjunto de 164 desafíos de programación cuidadosamente elaborados, cada uno incluyendo una firma de función, un docstring, un cuerpo de función y varias pruebas unitarias, con un promedio de 7.7 pruebas por problema. Este conjunto de datos fue creado específicamente para prevenir la fuga de datos, ya que modelos como Codex y otros LLMs contienen datos de entrenamiento de sitios como GitHub.

HumanEval-X: Es una extensión multilingüe del benchmark HumanEval, que consiste en 820 muestras de datos de alta calidad creadas por humanos (cada una con casos de prueba) en Python, C++, Java, JavaScript y Go. Se puede utilizar para diversas tareas como generación y traducción de código.

MMLU (Massive Multitask Language Understanding): Se desarrolló para evaluar de manera integral la comprensión del lenguaje y la capacidad de resolución de problemas de los modelos de lenguaje a gran escala en una variedad de disciplinas. Incluye preguntas de nivel profesional en campos como la medicina, la contabilidad y el derecho, lo que requiere un conocimiento extenso del mundo y la capacidad de aplicar este conocimiento de manera efectiva en contextos complejos. Los resultados mostraron que los modelos más pequeños tendían a rendir alrededor de la probabilidad por azar (25% de precisión), mientras que modelos más grandes como GPT-3 (175 mil millones de parámetros) mostraron un mejor desempeño con una precisión en pocas muestras (few-shot) de 43.9% y en cero muestras (zero-shot) de 37.7%. MMLU cubre 57 disciplinas, incluyendo matemáticas básicas, problemas matemáticos avanzados, generación de código en Python... Por ejemplo, Gemini, un modelo de DeepMind, ha establecido nuevos récords de rendimiento en estos benchmarks, superando a modelos anteriores como GPT-4 en tareas multimodales, lo que incluye comprensión de imágenes, VQA (Visual Question Answering), y traducción automática de voz. Los resultados detallados muestran que Gemini logra un 59.4% en problemas de razonamiento a nivel universitario en un entorno de cero muestras (0-shot) y sobresale en tareas de generación de código con un 74.4% en el mismo entorno, destacando su capacidad para manejar tareas complejas en diversos formatos.

GSM-8K: Es un conjunto de datos de 8,500 problemas matemáticos de nivel escolar, diseñados por escritores humanos, que abarcan una diversidad lingüística significativa. En cuanto a los resultados obtenidos, se ha observado que el desempeño puede variar significativamente dependiendo de la capacidad y arquitectura del modelo. Por ejemplo, modelos más pequeños pueden alcanzar y superar el umbral del 80% de precisión en este benchmark al incorporar modelos verificadores y generar datos sintéticos para compensar el tamaño reducido del conjunto de entrenamiento. En este estudio, modelos de diferentes tamaños, desde 125 millones hasta 2.7 mil millones de parámetros, lograron resultados notables, mostrando mejoras significativas al utilizar un modelo verificador junto con el modelo generador.

HellaSwag: Consta de 70,000 preguntas de opción múltiple sobre situaciones concretas. Cada pregunta proviene de uno de dos dominios: ActivityNet o WikiHow, con cuatro opciones de respuesta sobre lo que podría suceder a continuación en la escena. En términos de rendimiento, algunos de los mejores envíos públicos en el leaderboard de HellaSwag incluyen el modelo CompassMTL de Microsoft & SJTU y DeBERTa Large de DeCLaRe Lab, SUTD, ambos alcanzando una precisión del 96%, y CreAT de Hongqiu Wu con una precisión del 95%. Estos resultados muestran la competitividad y la evolución constante en el rendimiento de los modelos de IA en tareas de inferencia de sentido común.

Modelos de lenguaje

Los modelos de lenguaje de inteligencia artificial son sistemas avanzados diseñados para comprender, generar y manipular lenguaje humano de manera que puedan realizar una amplia gama de tareas lingüísticas y cognitivas. Estos modelos se basan en redes neuronales profundas, particularmente en arquitecturas como las de transformadores, que les permiten aprender patrones complejos del lenguaje a partir de grandes cantidades de texto. A través de este aprendizaje, los modelos pueden realizar tareas como traducción de idiomas, resumen de textos, generación de contenido, asistencia en conversaciones y mucho más, con un nivel de sofisticación y naturalidad que se asemeja al de los humanos en ciertos contextos.

GPT-3: Desarrollado por OpenAI, cuenta con 175 mil millones de parámetros y fue anunciado en junio de 2020. Es conocido por su impresionante rendimiento tanto en tareas de pocas muestras (few-shot) como en tareas sin muestras (zero-shot) en campos como la traducción, respuesta a preguntas y completamiento de texto. GPT-3 ha marcado un hito en el procesamiento del lenguaje natural (NLP) debido a su capacidad para generar texto de manera coherente y relevante en una amplia gama de tareas.

GPT-4: Aunque inicialmente se esperaba que no superara significativamente en tamaño a GPT-3, informes sugieren que podría alcanzar un billón de parámetros, lo que se traduce en respuestas más precisas y rápidas. Este aumento de parámetros apunta a una mejora sustancial en la generación de texto y en la capacidad de realizar multitareas con pocos ejemplos, acercándose más a la habilidad humana de realizar múltiples tareas con una instrucción mínima.

Turing-NLG: Un modelo desarrollado por Microsoft, se destaca por su gran tamaño de 530 mil millones de parámetros. Utiliza la arquitectura basada en transformadores para generar texto coherente y contextualmente relevante para una variedad de tareas, como predicción de finalización de texto, comprensión lectora y razonamiento de sentido común. Aunque su tamaño es impresionante, los desafíos relacionados con el impacto ambiental y la eficiencia energética son consideraciones importantes

PaLM: Desarrollado por Google, con 540 mil millones de parámetros, ha demostrado un rendimiento sobresaliente en tareas de razonamiento y generación de código, superando a otros modelos grandes en una variedad de benchmarks. Este modelo ha mostrado capacidades avanzadas en comprensión y generación de lenguaje natural, distinguiéndose por su habilidad para realizar tareas complejas de razonamiento multietapa y generación de explicaciones de alta calidad.

LaMDA: De Google, con 173 mil millones de parámetros, está diseñado para mantener conversaciones más naturales y atractivas. A diferencia de otros modelos, LaMDA se entrenó específicamente en diálogos, lo que le permite discernir las sutilezas que diferencian las conversaciones abiertas de otros tipos de lenguaje. Esto lo hace particularmente adecuado para aplicaciones como el servicio al cliente y asistentes personales.

Geminis: Desarrollado con la colaboración de equipos de Google, incluidos DeepMind y Google Research. Gemini se presenta en tres versiones: Ultra, Pro y Nano, cada una optimizada para diferentes escalas de tareas, desde el razonamiento complejo hasta el uso en dispositivos móviles. Gemini Ultra, el modelo más capaz, ha demostrado superar los resultados actuales del estado del arte en 30 de los 32 benchmarks académicos utilizados en la investigación y desarrollo de modelos de lenguaje grande, alcanzando un desempeño que supera a expertos humanos en el entendimiento de lenguaje multitarea masivo (MMLU) con una puntuación del 90.0%.

LLaMA 2: Lanzado por Meta, ofrece una variedad de tamaños de parámetros, desde los 7 mil millones hasta los 70 mil millones, incluye versiones tanto preentrenadas como afinadas. Estos modelos están optimizados para casos de uso de diálogo (Llama-2-Chat) y han demostrado superar a los modelos de chat de código abierto en la mayoría de las pruebas de referencia, igualando en evaluaciones humanas de utilidad y seguridad a modelos cerrados populares como ChatGPT y PaLM. Meta AI ha adoptado un enfoque detallado en el ajuste fino y las mejoras de seguridad de Llama-2-Chat, buscando habilitar a la comunidad para construir sobre su trabajo y contribuir al desarrollo responsable de LLMs.

Mistral: Es una startup francesa que se centra en el desarrollo de modelos de inteligencia artificial (IA) generativa de código abierto. El modelo insignia de Mistral AI, el Mistral 7B, es notable por su eficiencia y capacidad para superar a modelos significativamente más grandes en benchmarks específicos. Por ejemplo, el Mistral 7B ha demostrado superar al modelo Llama 2 13B en todas las pruebas, así como al Llama 1 34B en muchas métricas, ofreciendo capacidades similares o mejores pero con menores gastos computacionales. Este modelo es particularmente destacable por su velocidad, siendo 6 veces más rápido y capaz de igualar o superar el desempeño del Llama 2 70B en todos los benchmarks. Además, el Mistral es capaz de manejar una longitud de secuencia de 32k, hablar múltiples idiomas y tener habilidades naturales de codificación.

La comparación entre LLAMA 2, Geminis, Mistral y GPT-4 revela diferencias significativas en rendimiento, capacidades y eficiencia de costos:

Mistral 7B destaca por su rendimiento excepcional en comparación con LLAMA 2 (13B), superando a este último en todas las pruebas de referencia y mostrando capacidades superiores incluso en comparación con versiones más grandes de LLAMA, como la de 34B. Además, Mistral 7B ha sido diseñado para ser una opción viable tanto para propósitos comerciales como de investigación, con un enfoque en la eficiencia de costos y la capacidad de ser alojado sin requerir GPUs extremadamente poderosos.

En términos de capacidades y eficiencia, el análisis de TrueFoundry proporciona datos detallados sobre el rendimiento de LLAMA 2 (en variantes de 7B, 13B y 70B) y Mistral 7B en diferentes configuraciones de entrada/salida y usuarios concurrentes, ofreciendo una visión clara sobre la escalabilidad y los costos operativos asociados con cada modelo en diferentes entornos de nube.

Geminis, por otro lado, supera a otros modelos de IA, incluido GPT-4, en una variedad de pruebas de referencia. El modelo Pro de Geminis logró un 90% en el MMLU benchmark, considerado un estándar de la industria, superando el rendimiento humano "nivel experto" esperado del 89.8%, y superó a GPT-4, LLAMA-2, y Claude 2 de Anthropic en ocho de nueve pruebas de referencia comunes.

Es importante notar que estos modelos varían no solo en rendimiento, sino también en su aplicabilidad para diferentes tareas y contextos de uso. Por ejemplo, Google ha integrado Geminis en su chatbot Bard, aprovechando sus capacidades para ofrecer interacciones más ricas y precisas.

Modelos de procesamiento de audio y texto

Estos modelos pueden reconocer, interpretar y generar sonidos y música. Se utilizan en aplicaciones como reconocimiento de voz, síntesis de voz (TTS, Text-to-Speech), y generación de música. Modelos como WaveNet y modelos basados en Transformer han mostrado capacidades avanzadas en estos campos.

Whisper: Es una tecnología de reconocimiento automático de voz (ASR, por sus siglas en inglés) que se centra en convertir el audio hablado en texto. Un análisis realizado por Deepgram destaca que, aunque Whisper es preciso en la transcripción, es significativamente más lento que alternativas como el modelo Nova de Deepgram. Whisper procesa 1 hora de audio en aproximadamente 230 segundos con su modelo grande, mientras que Deepgram puede hacerlo en alrededor de 30 segundos. Además, Whisper no ofrece diarización (identificación del hablante) ni la posibilidad de entrenar modelos de voz personalizados, elementos que pueden ser críticos dependiendo del caso de uso.

Eleven Labs: Se presenta como una herramienta para la generación de audio hablado de alta calidad, con capacidades de conversión de texto a voz y clonación de voz. Ofrece modelos TTS de última generación, un conjunto de herramientas creativas de IA y la capacidad de clonar o crear voces sintéticas. A diferencia de Whisper, Eleven Labs está diseñado para la síntesis de voz, proporcionando una amplia gama de estilos de voz y personalización para producciones audiovisuales y otros contenidos digitales.

Modelo Massively Multilingual Speech (MMS): Ofrece capacidades de reconocimiento automático de voz, síntesis de texto a voz e identificación de idioma en más de 1,100 idiomas y capacidad para identificar más de 4,000 idiomas. Esto representa un avance considerable frente a modelos anteriores, cubriendo casi 10 veces la cantidad de idiomas con una base de datos de entrenamiento que incluye 491K horas de habla en 1,406 idiomas. En comparación con modelos como Whisper, el MMS puede tener limitaciones en términos de velocidad y precisión para la transcripción de texto a partir de habla, siendo aproximadamente 10 veces más lento que versiones más rápidas de Whisper y utilizando significativamente más memoria RAM.

Modelos de generación de contenido

Existen modelos diseñados para crear imágenes, vídeos, música, e incluso códigos de programación. Ejemplos incluyen DALL·E para la generación de imágenes a partir de descripciones textuales, y Codex para la generación de código.

Midjourney: Destaca por su innovación y creatividad en la generación de arte IA, ofreciendo estilos artísticos diversos y flujos de trabajo personalizables. Es altamente valorado por su capacidad para generar imágenes con detalles intrincados y por su enfoque comunitario, operando principalmente a través de Discord. Sin embargo, ha enfrentado controversias por el uso de obras de arte para entrenar su IA sin permiso de los artistas y carece de generación de texto en imágenes, lo que puede limitar su aplicabilidad en algunos tipos de contenido.

Adobe Firefly: Integrado en Adobe Creative Suite, es ideal para profesionales visuales, destacando por la generación precisa de texto en imágenes y la edición de fotos existentes. Aunque su estilo distintivo "publicitario" puede no ser adecuado para todos los contextos y tiene limitaciones en comprender indicaciones conversacionales.

DALL·E: Basado en el marco de ChatGPT, se centra en la sutileza y el detalle, diseñado para superar los desafíos de la ingeniería de indicaciones. Es elogiado por su atención al detalle y su integración con ChatGPT, ofreciendo una colaboración en la generación de imágenes y respetando los derechos de propiedad intelectual.

Leonardo.ai: Es versátil, adecuado para el desarrollo de juegos y proyectos comerciales, destacando por su realismo fotográfico y capacidad para generar activos de juego y diseño de personajes. Sin embargo, su interfaz puede ser compleja para los nuevos usuarios y no siempre interpreta correctamente las indicaciones.

Stable Diffusion: Se presenta como el dinamo de los detalles, apreciado por su precisión y capacidad para capturar los más mínimos detalles. Es una herramienta de elección para aquellos que buscan una perfección sin compromisos en la generación de arte AI, con una comunidad activa que contribuye a su desarrollo y mejora continua.

Cada herramienta tiene sus fortalezas y limitaciones. Midjourney es ideal para aquellos en búsqueda de estilos artísticos diversos y una comunidad activa; Adobe Firefly se ajusta perfectamente a los profesionales que ya trabajan con herramientas de Adobe y necesitan funcionalidades específicas de edición de imágenes; DALL·E es superior en generar imágenes detalladas y precisas, adecuado para proyectos que requieren alta fidelidad a las indicaciones textuales; y Leonardo.ai brilla en aplicaciones comerciales y desarrollo de juegos, ofreciendo realismo fotográfico y diseño de personajes.

Modelos de análisis predictivo

Se utilizan para predecir eventos futuros basándose en datos históricos, como predicción del mercado de valores, pronóstico del tiempo, y análisis de tendencias. Los modelos LSTM (Long Short-Term Memory) y GRU (Gated Recurrent Units) son ejemplos de redes neuronales que han sido eficaces para estas tareas.

LSTM: Fue introducido por Hochreiter y Schmidhuber en 1997 para abordar el problema del gradiente que desaparece en RNNs tradicionales. Incorpora una celda de memoria adicional y tres puertas (puerta de entrada, de olvido y de salida) para controlar el flujo de información, lo que le permite capturar dependencias a largo plazo de manera efectiva. Es preferido en tareas que requieren modelar dependencias de largo plazo complejas, como la traducción automática, el reconocimiento de voz y el análisis de series temporales.

GRU: Es una versión simplificada de LSTM con dos puertas (puerta de actualización y de reinicio) y sin celda de memoria separada. Aunque ofrece un equilibrio entre la eficiencia computacional de los RNN tradicionales y la capacidad de memoria a largo plazo de LSTM, puede no capturar tan efectivamente las dependencias a largo plazo como LSTM.

En términos de velocidad de entrenamiento, GRU es un 29.29% más rápido que LSTM, una ventaja atribuida a su estructura más simple y menor cantidad de parámetros. Además, GRU tiende a generalizar mejor en escenarios con datos limitados debido a su simplicidad, mientras que LSTM muestra una mayor precisión en conjuntos de datos más grandes.

Según un estudio, en el escenario de textos largos y conjuntos de datos pequeños, GRU superó a LSTM, pero en conjuntos de datos más grandes o textos cortos, LSTM mostró un rendimiento superior en términos de precisión, recall, y valor F1.

Modelos de visión por computadora

Estos modelos están diseñados para interpretar y entender el contenido visual, incluyendo imágenes y videos. Pueden realizar tareas como reconocimiento de objetos, seguimiento de movimiento, reconstrucción de escenas 3D, y más. Ejemplos de estos modelos incluyen CNNs (Convolutional Neural Networks) para clasificación de imágenes y YOLO (You Only Look Once) para detección de objetos en tiempo real.

Para comparar CNNs y YOLO, es crucial entender que ambos juegan roles fundamentales en el campo de la visión por computadora, pero con enfoques y aplicaciones distintas. Los CNNs son arquitecturas de aprendizaje profundo especializadas en procesar datos con una estructura similar a una cuadrícula, como imágenes, y son ampliamente utilizados para tareas de clasificación y detección de imágenes. YOLO, por otro lado, es un algoritmo específico de detección de objetos en tiempo real que utiliza una sola red neuronal para predecir clases y ubicaciones de objetos en una imagen de manera rápida y eficiente.

Los CNNs son la base sobre la cual se construyen algoritmos como YOLO, ofreciendo una comprensión detallada de las características visuales. YOLO, siendo una aplicación específica que usa CNNs en su arquitectura, destaca por su velocidad al procesar imágenes en tiempo real, haciendo un balance entre precisión y rapidez que es crítico en aplicaciones como la monitorización en vivo o los sistemas autónomos de vehículos.

Dónde comparar modelos de IA

En el ámbito del desarrollo y la investigación de la inteligencia artificial (IA), la capacidad para realizar comparaciones precisas y detalladas entre diferentes modelos se ha vuelto indispensable. La plataforma Arena se presenta como una solución innovadora en este contexto, al proporcionar un entorno interactivo especialmente diseñado para la comparación de modelos de IA. Dicha plataforma permite a los usuarios seleccionar múltiples modelos y evaluar su rendimiento en base a una variedad de criterios específicos.

La relevancia de Arena se fundamenta en su capacidad para ofrecer una visión comprensiva y detallada de las capacidades de cada modelo, facilitando así una selección informada. Esto es particularmente valioso para investigadores, desarrolladores y aficionados al campo de la IA, quienes necesitan discernir cuál de los modelos disponibles se alinea mejor con los requisitos y objetivos de sus proyectos específicos. La interfaz de usuario de Arena es intuitiva, permitiendo realizar comparaciones complejas de manera sencilla y accesible.

hello@iamai.es