36 meses de ChatGPT

Antes de ChatGPT ya se habían producido algunos traumas: la decision de no liberar los pesos de GPT3, publicado en mayo del 2020 (año de la pandemia) y la fundación de Anthropic en 2021 (con pasta de FTX en el 2022!).

La referencia basica de tamaños es davinci-001, gpt3, con 96 capas y 12K de ancho, total 175B parametros. Se rumoreó que gpt3.5-turbo era más estrecho, con hidden size de poco más de 4K.

Finalmente en agosto de 2025 OpenAI ha liberado otros dos modelos, gpt-oss-120B y gpt-oss-20B, de 36 y 24 capas respectivamente, y un ancho («residual stream») de tan solo 2880. Usan respectivamente 128 y 32 expertos, manteniendo activos 4. Eso es más que los 8 ó 16 que se dijo para gpt4, pero vete a saber en gpt5. Mantienen el sistema de bandas pares e impares que ya empleaba GPT3 y antes uno de los reconocedores de imagen -y que hacia razonable esperar un reconocedor de imagen en GPT4, claro-. En este caso la ventana es de 128 tokens. Es una opcion que pocos modelos libres han escogido, tan solo los gemma y el clon libre de GPT3, GPT-Neo.

Noviembre 2022modelos text-davinci-003 en API y gpt3.5-turbo. Test de sydney en india.
Diciembre 2022
Enero 2023
FebreroBing chat
Marzogpt4 (16x110B ó 8x220B), gpt-3.5-turbo-0301gpt4-0314 1287
Abril
Mayo
Juniogpt-4-0613 (y 32k) 
gpt-3.5-turbo-0613 (y opcion 16k)
llamada a funciones
gpt4-0613 1275
Julio
Agosto
Septiembre
Octubre
Noviembregpt-3.5-turbo-1106 y GPT-4 Turbo
November 17, 2023, intento de despido de Sam Altman.
3.5-1106 1202
4-preview-turbo 1314
Diciembre
Enero 2024gpt-4-0125-preview (un turbo)-preview 1314
Febrerogpt-3.5-turbo-01251224
Marzo
Abril4-turbo-2034-04-091324
Mayo4o (voz i/o)1343
Junio
Julio4o-mini1316
Agosto¿4o 08/06 1333?
Septiembreo1-preview y o1-mini1385 y 1335
Octubre
Noviembre
Diciembreo1 (y o1-pro sin api)1398
Enero 2025o3-mini (std, high) ¿o fue en abril?(1345,1363)
Febrerogpt4.5
chatgpt deep research mode
1438
Marzogpt-image-1 (¿en 4o?), 4o-latest-202503261441
Abrilgpt4.1 y 4.1 mini y nano,
o3,
o4-mini (std, high)
lanzamiento y retirada de 4o pelota en chatgpt
4.1 nano 1320, 4.1 mini 1375, 4.1 1406
o3 1447
o4-mini api 1397
Mayo
Junioo3-pro
Juliomodo agente («misma familia que o3»)
Agostooss models
gpt5 series
20B 1330, 120B 1354
nano high 1346, mini high 1392, chat 1427, high 1461
Septiembre
Octubre

Es asombroso cómo han conseguido mantener el secreto sobre los parámetros de cada modelo; se sospecha que 4o es cuatro veces más pequeño que 4, pero quizas solo ocurre que tiene menos expertos activos. De los gpt5 no se ha filtrado nada.

Tampoco se entiende el salto en la ELO de la versión actual de 4o, puede tenga que ver con el escándalo del peloteo, pero está dando más alto que la versión de noviembre en todas las benchmarks. También cuesta un 50% más por millón de tokens, porque solo se puede acceder con el endpoint de chat. En las model release notes dijeron que planeaban «incorporar las mejoras en un modelo con fecha durante las próximas semanas», algo que no anuncian en todos los updates de chat. Podría ser uno de los gpt5 si fuera cierto que no todos vienen de un nuevo modelo. El update anterior de 4o, en enero, incluía entrenamiento extendido hasta junio del 2024.


Comments

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.