36 meses de ChatGPT

Antes de ChatGPT ya se habían producido algunos traumas: la decision de no liberar los pesos de GPT3, publicado en mayo del 2020 (año de la pandemia) y la fundación de Anthropic en 2021 (con pasta de FTX en el 2022!).

La referencia basica de tamaños es davinci-001, gpt3, con 96 capas y 12K de ancho, total 175B parametros. Se rumoreó que gpt3.5-turbo era más estrecho, con hidden size de poco más de 4K.

Finalmente en agosto de 2025 OpenAI ha liberado otros dos modelos, gpt-oss-120B y gpt-oss-20B, de 36 y 24 capas respectivamente, y un ancho («residual stream») de tan solo 2880. Usan respectivamente 128 y 32 expertos, manteniendo activos 4. Eso es más que los 8 ó 16 que se dijo para gpt4, pero vete a saber en gpt5. Mantienen el sistema de bandas pares e impares que ya empleaba GPT3 y antes uno de los reconocedores de imagen -y que hacia razonable esperar un reconocedor de imagen en GPT4, claro-. En este caso la ventana es de 128 tokens. Es una opcion que pocos modelos libres han escogido, tan solo los gemma y el clon libre de GPT3, GPT-Neo.

Noviembre 2022	modelos text-davinci-003 en API y gpt3.5-turbo. Test de sydney en india.
Diciembre 2022
Enero 2023
Febrero	Bing chat
Marzo	gpt4 (16x110B ó 8x220B), gpt-3.5-turbo-0301	gpt4-0314 1287
Abril
Mayo
Junio	`gpt-4-0613` (y 32k) `gpt-3.5-turbo-0613` (y opcion 16k) llamada a funciones	gpt4-0613 1275
Julio
Agosto
Septiembre
Octubre
Noviembre	gpt-3.5-turbo-1106 y GPT-4 Turbo November 17, 2023, intento de despido de Sam Altman.	3.5-1106 1202 4-preview-turbo 1314
Diciembre
Enero 2024	gpt-4-0125-preview (un turbo)	-preview 1314
Febrero	`gpt-3.5-turbo-0125`	1224
Marzo
Abril	4-turbo-2034-04-09	1324
Mayo	4o (voz i/o)	1343
Junio
Julio	4o-mini	1316
Agosto		¿4o 08/06 1333?
Septiembre	o1-preview y o1-mini	1385 y 1335
Octubre
Noviembre
Diciembre	o1 (y o1-pro sin api)	1398
Enero 2025	o3-mini (std, high) ¿o fue en abril?	(1345,1363)
Febrero	gpt4.5 chatgpt deep research mode	1438
Marzo	gpt-image-1 (¿en 4o?), 4o-latest-20250326	1441
Abril	gpt4.1 y 4.1 mini y nano, o3, o4-mini (std, high) lanzamiento y retirada de 4o pelota en chatgpt	4.1 nano 1320, 4.1 mini 1375, 4.1 1406 o3 1447 o4-mini api 1397
Mayo
Junio	o3-pro
Julio	modo agente («misma familia que o3»)
Agosto	oss models gpt5 series	20B 1330, 120B 1354 nano high 1346, mini high 1392, chat 1427, high 1461
Septiembre
Octubre

Es asombroso cómo han conseguido mantener el secreto sobre los parámetros de cada modelo; se sospecha que 4o es cuatro veces más pequeño que 4, pero quizas solo ocurre que tiene menos expertos activos. De los gpt5 no se ha filtrado nada.

Tampoco se entiende el salto en la ELO de la versión actual de 4o, puede tenga que ver con el escándalo del peloteo, pero está dando más alto que la versión de noviembre en todas las benchmarks. También cuesta un 50% más por millón de tokens, porque solo se puede acceder con el endpoint de chat. En las model release notes dijeron que planeaban «incorporar las mejoras en un modelo con fecha durante las próximas semanas», algo que no anuncian en todos los updates de chat. Podría ser uno de los gpt5 si fuera cierto que no todos vienen de un nuevo modelo. El update anterior de 4o, en enero, incluía entrenamiento extendido hasta junio del 2024.

Comments

Deja una respuesta