Probando el Grok3 "más inteligente del mundo"

GRUPO AIPU WATON (1)

Introducción

¿Crees que Grok3 será el “punto final” de los modelos pre-entrenados?

Elon Musk y el equipo de xAI lanzaron oficialmente la última versión de Grok, Grok3, durante una transmisión en vivo. Antes de este evento, una cantidad considerable de información relacionada, sumada a la constante promoción de Musk, elevó las expectativas globales sobre Grok3 a niveles sin precedentes. Hace apenas una semana, Musk declaró con seguridad durante una transmisión en vivo, al comentar sobre DeepSeek R1: «xAI está a punto de lanzar un modelo de IA mejorado». Según los datos presentados en vivo, Grok3 ha superado todos los modelos convencionales actuales en puntos de referencia de matemáticas, ciencia y programación. Musk incluso afirmó que Grok3 se utilizará para tareas computacionales relacionadas con las misiones a Marte de SpaceX, prediciendo «avances dignos del Premio Nobel dentro de tres años». Sin embargo, estas son solo las afirmaciones de Musk. Tras el lanzamiento, probé la última versión beta de Grok3 y planteé la clásica pregunta capciosa para modelos grandes: «¿Cuál es más grande, 9,11 o 9,9?». Lamentablemente, sin calificativos ni marcas, el supuesto Grok3 más inteligente aún no pudo responder correctamente a esta pregunta. Grok3 no logró identificar con precisión el significado de la pregunta.

 

Esta prueba atrajo rápidamente la atención de muchos amigos y, casualmente, varias pruebas similares en el extranjero han demostrado que Grok3 tiene dificultades con preguntas básicas de física y matemáticas como "¿Qué bola cae primero desde la Torre Inclinada de Pisa?". Por ello, se le ha calificado con humor como "un genio reacio a responder preguntas sencillas".

640

Grok3 es bueno, pero no es mejor que R1 o o1-Pro.

Grok3 experimentó fallos en muchas pruebas de conocimientos básicos en la práctica. Durante el evento de lanzamiento de xAI, Musk demostró cómo usar Grok3 para analizar las clases y efectos de los personajes de Path of Exile 2, juego al que afirmaba jugar a menudo, pero la mayoría de las respuestas de Grok3 eran incorrectas. Musk, durante la transmisión en vivo, no se percató de este problema evidente.

 

Este error no solo proporcionó más pruebas para que los internautas extranjeros se burlaran de Musk por "buscar un sustituto" en los videojuegos, sino que también planteó serias dudas sobre la fiabilidad de Grok3 en aplicaciones prácticas. Para semejante "genio", independientemente de sus capacidades reales, su fiabilidad en escenarios de aplicación extremadamente complejos, como las tareas de exploración de Marte, sigue siendo dudosa.

 

Actualmente, muchos evaluadores que recibieron acceso a Grok3 hace semanas, y aquellos que probaron las capacidades del modelo durante algunas horas ayer, todos apuntan a una conclusión común: "Grok3 es bueno, pero no es mejor que R1 o o1-Pro".

640 (1)

Una perspectiva crítica sobre la disrupción de Nvidia

En la presentación PPT oficial durante el lanzamiento, se demostró que Grok3 estaba "muy por delante" en el Chatbot Arena, pero utilizó técnicas gráficas inteligentemente: el eje vertical en la tabla de clasificación solo enumeraba los resultados en el rango de puntuación de 1400 a 1300, lo que hacía que la diferencia original del 1 % en los resultados de la prueba pareciera excepcionalmente significativa en esta presentación.

640

En los resultados de puntuación de modelos reales, Grok3 supera a DeepSeek R1 y GPT-4.0 solo entre un 1 % y un 2 %, lo que coincide con la experiencia de muchos usuarios en pruebas prácticas que no encontraron ninguna diferencia notable. Grok3 solo supera a sus sucesores en un 1 %-2 %.

640

Aunque Grok3 ha obtenido puntuaciones más altas que todos los modelos probados públicamente, muchos no se lo toman en serio: después de todo, xAI ya había sido criticada por "manipulación de puntuaciones" en la era Grok2. A medida que la tabla de clasificación penalizaba la longitud de las respuestas, las puntuaciones disminuyeron considerablemente, lo que llevó a expertos de la industria a criticar a menudo el fenómeno de "puntuación alta pero baja capacidad".

 

Ya sea mediante la manipulación de la clasificación o trucos de diseño en las ilustraciones, revelan la obsesión de xAI y Musk por la idea de "liderar el grupo" en capacidades de modelos. Musk pagó un alto precio por estos márgenes: durante el lanzamiento, presumió de usar 200.000 GPU H100 (afirmando "más de 100.000" durante la transmisión en vivo) y de lograr un tiempo total de entrenamiento de 200 millones de horas. Esto llevó a algunos a creer que representa otro gran impulso para la industria de las GPU y a considerar el impacto de DeepSeek en el sector como "insensato". Cabe destacar que algunos creen que la potencia computacional será el futuro del entrenamiento de modelos.

 

Sin embargo, algunos internautas compararon el consumo de 2000 GPU H800 durante dos meses para producir DeepSeek V3, calculando que el consumo real de energía de entrenamiento de Grok3 es 263 veces mayor que el de V3. La diferencia entre DeepSeek V3, que obtuvo 1402 puntos, y Grok3 es de poco menos de 100 puntos. Tras la publicación de estos datos, muchos se dieron cuenta rápidamente de que detrás del título de Grok3 como el "más potente del mundo" se esconde un claro efecto de utilidad marginal: la lógica de que los modelos más grandes generen un mayor rendimiento ha comenzado a mostrar rendimientos decrecientes.

640 (2)

Incluso con una puntuación alta pero baja capacidad, Grok2 contaba con una gran cantidad de datos propios de alta calidad de la plataforma X (Twitter) para respaldar su uso. Sin embargo, durante el entrenamiento de Grok3, xAI se topó naturalmente con el límite que OpenAI enfrenta actualmente: la falta de datos de entrenamiento de alta calidad expone rápidamente la utilidad marginal de las capacidades del modelo.

 

Los desarrolladores de Grok3 y Musk probablemente sean los primeros en comprender e identificar estos hechos a fondo. Por eso, Musk ha mencionado repetidamente en redes sociales que la versión que los usuarios están experimentando actualmente es "todavía solo la beta" y que "la versión completa se lanzará en los próximos meses". Musk ha asumido el rol de gerente de producto de Grok3, sugiriendo a los usuarios que compartan sus comentarios sobre los diversos problemas encontrados en la sección de comentarios. Es posible que sea el gerente de producto con más seguidores del mundo.

 

Sin embargo, en un día, el rendimiento de Grok3 sin duda alertó a quienes esperaban confiar en una enorme capacidad computacional para entrenar modelos grandes y más robustos: según información pública de Microsoft, el GPT-4 de OpenAI tiene un tamaño de parámetros de 1,8 billones, más de diez veces mayor que el de GPT-3. Se rumorea que el tamaño de los parámetros de GPT-4.5 podría ser incluso mayor.

 

A medida que el tamaño de los parámetros de los modelos se dispara, los costos de entrenamiento también se disparan. Con la llegada de Grok3, competidores como GPT-4.5 y otros que desean seguir invirtiendo dinero para lograr un mejor rendimiento del modelo mediante el tamaño de los parámetros deben considerar el límite que ahora se vislumbra y buscar la manera de superarlo. En este momento, Ilya Sutskever, ex científico jefe de OpenAI, declaró en diciembre pasado: «El preentrenamiento con el que estamos familiarizados llegará a su fin», lo cual ha resurgido en los debates, impulsando los esfuerzos para encontrar la verdadera ruta para el entrenamiento de modelos grandes.

640 (3)

El punto de vista de Ilya ha dado la voz de alarma en la industria. Previó con precisión el agotamiento inminente de los nuevos datos accesibles, lo que llevaría a una situación en la que el rendimiento no podría seguir mejorándose mediante la adquisición de datos, comparándolo con el agotamiento de los combustibles fósiles. Indicó que «al igual que el petróleo, el contenido generado por humanos en internet es un recurso limitado». Según las predicciones de Sutskever, la próxima generación de modelos, tras el preentrenamiento, poseerá «auténtica autonomía» y capacidades de razonamiento «similares a las del cerebro humano».

 

A diferencia de los modelos preentrenados actuales, que se basan principalmente en la correspondencia de contenido (basada en el contenido del modelo previamente aprendido), los futuros sistemas de IA podrán aprender y establecer metodologías para resolver problemas de forma similar al "pensamiento" del cerebro humano. Un ser humano puede alcanzar un dominio fundamental en una materia con solo literatura profesional básica, mientras que un modelo de IA de gran tamaño requiere millones de puntos de datos para lograr la eficacia básica de nivel inicial. Incluso modificando ligeramente la redacción, estas preguntas fundamentales podrían no entenderse correctamente, lo que demuestra que el modelo no ha mejorado realmente en inteligencia: las preguntas básicas, pero irresolubles, mencionadas al principio del artículo representan un claro ejemplo de este fenómeno.

微信图片_20240614024031.jpg1

Conclusión

Sin embargo, más allá de la fuerza bruta, si Grok3 realmente logra revelar a la industria que "los modelos pre-entrenados se están acercando a su fin", esto tendría implicaciones significativas para el campo.

Tal vez después de que el frenesí en torno a Grok3 disminuya gradualmente, seremos testigos de más casos como el ejemplo de Fei-Fei Li de "ajustar modelos de alto rendimiento en un conjunto de datos específico por solo $50", descubriendo finalmente el verdadero camino hacia la IAG.

Encuentre una solución de cable ELV

Cables de control

Para cables BMS, BUS, industriales y de instrumentación.

Sistema de cableado estructurado

Red y datos, cable de fibra óptica, cable de conexión, módulos, placa frontal

Reseña de Exposiciones y Eventos 2024

Energía del Medio Oriente en Dubái, del 16 al 18 de abril de 2024

16-18 de abril de 2024 Securika en Moscú

9 de mayo de 2024 EVENTO DE LANZAMIENTO DE NUEVOS PRODUCTOS Y TECNOLOGÍAS en Shanghái

22-25 de octubre de 2024 SECURITY CHINA en Beijing

19 y 20 de noviembre de 2024 MUNDO CONECTADO KSA


Hora de publicación: 19 de febrero de 2025