o3 y 04-mini son las nuevas IA más avanzadas de OpenAI: prometen un enorme salto "pensando con imágenes" que llega a ChatGPT gratis
Está siendo una semana grande para OpenAI. Si el lunes llegaba la nueva y algo desconcertante familia GPT-4.1, hoy la compañía que dirige Sam Altman acaba de presentar dos nuevos modelos de lenguaje con razonamiento avanzado, o3 y o4-mini. En el caso del primero, lo de presentar es relativo, porque la compañía anunció a finales de año un salto que lo ponía todo patas arriba bajo ese mismo nombre: o3. En febrero, Sam Altman contó que no se iba a lanzar como producto independiente (a la espera de GPT-5), pero finalmente, aquí está, tras un cambio de planes de última hora. Los nuevos modelos siguen un camino que ya es inevitable: pensar más antes de responder OpenAI ha anunciado o3 como su nuevo modelo más potente hasta la fecha, con un 20% menos de errores importantes que o1 en tareas complejas. o4-mini, por su parte, es sucesor del o3-mini que lleva un tiempo disponible incluso para usuarios gratuitos de ChatGPT, que pueden usarlo activando el botón de razonar. Después de los pequeños avances que traía GPT-4.1 respecto a lo anterior, los nuevos modelos sí que suponen un salto grande según la propia compañía, y es que, a sus capacidades multimodales ahora suman la posibilidad de integrar herrramientas como búsqueda web, intérprete de Python, o análisis de datos. Es decir, que un solo modelo, por sí mismo, ahora podrá hacer mucho más que antes por sí mismo, usando todas las herramientas que ChatGPT incluye por separado, y que hasta ahora estaban disponibles solo para los modelos clásicos. En Genbeta He probado Firebase Studio de Google: en un minuto he creado mi propia app con IA. Y lo he hecho gratis y en mi navegador Y eso incluye razonamiento visual. Hasta ahora, los modelos analizaban imágenes y permitían responder preguntas sobre ellas, pero ahora OpenAI habla de 'pensamiento con imágenes', es decir, de integrarlas directamente en su cadena de pensamiento y poder interactuar con ellas: girarlas, ampliarlas, alejarlas, recortarlas, etc. Según ha mostrado la compañía en ejemplos, esto permite analizar imágenes con mayor profundidad, y con requisitos mucho más laxos en cuanto a los prompts. o3 y o4-mini son capaces de reconocer texto en imágenes borrosas, o de responder a peticiones mucho más abstractas sobre la foto en general, y sobre ello, ejecutar todas las herramientas a su disposición para resolver laberintos, encontrar el horario de un autobús en una foto muy amplia de una parada, etc. Un ejemplo claro de esto es la resolución de problemas en casos prácticos cotidianos: estudiantes que suben fotos de sus ejercicios, tomadas sin encuadre correcto y con baja calidad, o la detección de texto en un cartel fotografiado desde lejos, a partir del cual se le solicita a o3 identificar lo que está escrito en él, sin necesidad de recortar la imagen o de especificar qué cartel. Aunque parezca mentira, ahora o3 y o4-mini son capaces de encontrar problemas a resolver en una foto "vaga" como esta, y e integrar el razonamiento sobre la imagen en su cadena de pensamiento. OpenAI también ha demostrado buenos casos de uso con preguntas como "¿qué películas se han rodado aquí?" sobre una foto a una ventana, o la resolución de un acertijo sobre qué falta en una hoja escrita, que simula las marchas de la palanca de cambio de un coche. o3 y o4-mini son capaces de entender que lo que falta no es un número, sino la R de marcha atrás de los cambios manuales de los coches. Con o3, OpenAI es capaz de explicar que no falta un 6 en el dibujo, sino una R, de marcha atrás. Con este ejemplo, o3 demuestra su capacidad para rotar la imagen para facilitar el análisis, realizar zoom, capturar secciones y comparar el patrón observado con información disponible en Internet, concluyendo: Creo que el puzzle podría estar relacionado con el patrón de cambio de marchas de un coche manual. Los números probablemente representan la disposición de un cambio de 5 velocidades: 1 arriba a la izquierda, 2 abajo a la izquierda, 3 arriba a la mitad, 4 abajo a la mitad y 5 arriba a la derecha. La marcha atrás (R) va en la parte inferior derecha. Como el acertijo pregunta por lo que falta, la respuesta podría ser «R» de marcha atrás, no 6. Eso tiene sentido y encaja con el patrón de cambio de marchas. Como su nombre indica (aunque precisamente eso con OpenAI es mucho decir), o4-mini es un modelo con capacidaedes similares, pero más pequeño y centrado en la velocidad, eficiencia y en ahorro de costes. En este sentido, al igual que sus predecesores, destaca en matemáticas y código, pero sin romper el bolsillo, a diferencia de o3, que para lograr liderar un benchmark muy avanzado llegó a consumir el equivalente a miles de dólares de la API (según las pruebas presentadas en diciembre) Cómo de buenos son estos modelos y dónde pueden usarse: bu

Está siendo una semana grande para OpenAI. Si el lunes llegaba la nueva y algo desconcertante familia GPT-4.1, hoy la compañía que dirige Sam Altman acaba de presentar dos nuevos modelos de lenguaje con razonamiento avanzado, o3 y o4-mini.
En el caso del primero, lo de presentar es relativo, porque la compañía anunció a finales de año un salto que lo ponía todo patas arriba bajo ese mismo nombre: o3. En febrero, Sam Altman contó que no se iba a lanzar como producto independiente (a la espera de GPT-5), pero finalmente, aquí está, tras un cambio de planes de última hora.
Los nuevos modelos siguen un camino que ya es inevitable: pensar más antes de responder
OpenAI ha anunciado o3 como su nuevo modelo más potente hasta la fecha, con un 20% menos de errores importantes que o1 en tareas complejas. o4-mini, por su parte, es sucesor del o3-mini que lleva un tiempo disponible incluso para usuarios gratuitos de ChatGPT, que pueden usarlo activando el botón de razonar.
Después de los pequeños avances que traía GPT-4.1 respecto a lo anterior, los nuevos modelos sí que suponen un salto grande según la propia compañía, y es que, a sus capacidades multimodales ahora suman la posibilidad de integrar herrramientas como búsqueda web, intérprete de Python, o análisis de datos. Es decir, que un solo modelo, por sí mismo, ahora podrá hacer mucho más que antes por sí mismo, usando todas las herramientas que ChatGPT incluye por separado, y que hasta ahora estaban disponibles solo para los modelos clásicos.
Y eso incluye razonamiento visual. Hasta ahora, los modelos analizaban imágenes y permitían responder preguntas sobre ellas, pero ahora OpenAI habla de 'pensamiento con imágenes', es decir, de integrarlas directamente en su cadena de pensamiento y poder interactuar con ellas: girarlas, ampliarlas, alejarlas, recortarlas, etc.
Según ha mostrado la compañía en ejemplos, esto permite analizar imágenes con mayor profundidad, y con requisitos mucho más laxos en cuanto a los prompts. o3 y o4-mini son capaces de reconocer texto en imágenes borrosas, o de responder a peticiones mucho más abstractas sobre la foto en general, y sobre ello, ejecutar todas las herramientas a su disposición para resolver laberintos, encontrar el horario de un autobús en una foto muy amplia de una parada, etc.
Un ejemplo claro de esto es la resolución de problemas en casos prácticos cotidianos: estudiantes que suben fotos de sus ejercicios, tomadas sin encuadre correcto y con baja calidad, o la detección de texto en un cartel fotografiado desde lejos, a partir del cual se le solicita a o3 identificar lo que está escrito en él, sin necesidad de recortar la imagen o de especificar qué cartel.

OpenAI también ha demostrado buenos casos de uso con preguntas como "¿qué películas se han rodado aquí?" sobre una foto a una ventana, o la resolución de un acertijo sobre qué falta en una hoja escrita, que simula las marchas de la palanca de cambio de un coche.

Con o3, OpenAI es capaz de explicar que no falta un 6 en el dibujo, sino una R, de marcha atrás. Con este ejemplo, o3 demuestra su capacidad para rotar la imagen para facilitar el análisis, realizar zoom, capturar secciones y comparar el patrón observado con información disponible en Internet, concluyendo:
Creo que el puzzle podría estar relacionado con el patrón de cambio de marchas de un coche manual. Los números probablemente representan la disposición de un cambio de 5 velocidades: 1 arriba a la izquierda, 2 abajo a la izquierda, 3 arriba a la mitad, 4 abajo a la mitad y 5 arriba a la derecha. La marcha atrás (R) va en la parte inferior derecha. Como el acertijo pregunta por lo que falta, la respuesta podría ser «R» de marcha atrás, no 6. Eso tiene sentido y encaja con el patrón de cambio de marchas.
Como su nombre indica (aunque precisamente eso con OpenAI es mucho decir), o4-mini es un modelo con capacidaedes similares, pero más pequeño y centrado en la velocidad, eficiencia y en ahorro de costes. En este sentido, al igual que sus predecesores, destaca en matemáticas y código, pero sin romper el bolsillo, a diferencia de o3, que para lograr liderar un benchmark muy avanzado llegó a consumir el equivalente a miles de dólares de la API (según las pruebas presentadas en diciembre)
Cómo de buenos son estos modelos y dónde pueden usarse: buenas noticias para ChatGPT gratis

OpenAI no ha comparado sus modelos con los benchmarks o pruebas de rendimiento de otras IA. Pero dado que otras como Google o Anthropic sí lo hacen en sus presentaciones, podemos entender más o menos dónde se encuentran comparativamente o3 y o4-mini.
En el benchmark AIME 2025 Competition Math, que mide la capacidad de razonamiento matemático avanzado, la cosa queda así:
- o4-mini: 92,7% de precisión
- 03: 88,9% de precisión
- o1: 79,2% de precisión
- Gemini 2.5 Pro: 86,7% de precisión
- Claude 3.7 Sonnet: 49,5% de precisión
- Grok 3 beta: 77,3% de precisión
- Deepseek R1: 49,2% de precisión
En el benchmark SWE-Bench Verified, que mide la capacidad de los modelos de inteligencia artificial para resolver problemas reales de ingeniería de software, la cosa queda así:
- o4-mini: 68,1% de precisión
- 03: 69,1% de precisión
- o1: 48,9% de precisión
- Gemini 2.5 Pro: 63,8% de precisión
- Claude 3.7 Sonnet: 70,3% de precisión
- Deepseek R1: 49,2% de precisión
Como vemos, resultados muy prometedores, especialmente en AIME 2025 Competition Math, donde el modelo pequeño destaca enormemente sobre el resto y sobre el gran Gemini 2.5 Pro. Eso sí, estos resultados y su traducción en uso real dependen de muchos factores, así que habrá que esperar a que los expertos los prueben para saber cómo se adecúan a las distintas necesidades. En lo que respecta a OpenAI, el salto respecto a su anterior generación es evidente.
OpenAI ha confirmado que o3, o4-mini y o4-mini-high están disponibles desde hoy en el selector de modelos de ChatGPT Plus, Pro y Team, en sustitución de o1, o3-mini y o3-mini-high. Y hay buenas noticias para los usuarios gratuitos: pueden probar o4-mini pulsando el botón de 'Razonar' antes de enviar el prompt.
Más información | OpenAI (1, 2)
-
La noticia
o3 y 04-mini son las nuevas IA más avanzadas de OpenAI: prometen un enorme salto "pensando con imágenes" que llega a ChatGPT gratis
fue publicada originalmente en
Genbeta
por
Antonio Sabán
.