Gemini 2.5 Pro demuestra un rendimiento excepcional en tareas de contexto largo, destacándose en métricas específicas diseñadas para evaluar su capacidad de procesar y comprender grandes volúmenes de información. Aquí los aspectos clave:
Métricas principales de rendimiento en contexto largo
- MRCR (Comprensión Lectora en Contexto Largo):
Gemini 2.5 Pro alcanza un 91.5% de precisión con ventanas de contexto de 128.000 tokens, superando ampliamente a modelos como GPT-4.5 (48.8%) y o3-mini (36.3%)2.
Este benchmark evalúa la capacidad de extraer información relevante de textos extensos y responder preguntas complejas basadas en ellos. - Capacidad de tokens:
Actualmente maneja 1 millón de tokens (equivalente a ~750.000 palabras), con planes de escalar a 2 millones. Esto le permite analizar repositorios de código completos, horas de audio/video o documentos extensos como libros enteros13.
Aplicaciones prácticas
- Multimodalidad en contexto largo:
Procesa simultáneamente texto, imágenes, audio y video dentro de ventanas extensas, resolviendo problemas que requieren cruzar información de múltiples formatos15.
Ejemplo: Analizar un video educativo de 2 horas junto con su guión y materiales de referencia para generar resúmenes detallados. - Rendimiento en código y datos estructurados:
En pruebas como Aider Políglota (edición de código multiarchivo), logra un 74% de efectividad, demostrando habilidad para modificar proyectos complejos sin perder coherencia en contextos largos23.
Comparación con otros modelos
Modelo | Tokens máximos | MRCR (128k tokens) |
---|---|---|
Gemini 2.5 Pro | 1M (pronto 2M) | 91.5% |
GPT-4.5 | 512k | 48.8% |
o3-mini | 256k | 36.3% |
Esta capacidad posiciona a Gemini 2.5 Pro como líder en tareas que requieren análisis profundo de información masiva, como investigación académica, desarrollo de software a gran escala o procesamiento de datos corporativos complejos23.
Cómo se mide el rendimiento de Gemini 2.5 Pro en contextos largos.