Innovar o ser cambiado

Andy Garcia Peña

QvQ 72B supera a o1 y ChatGPT4o

Alibaba QvQ 72B preview: supera a o1 y ChatGPT4o de Open AI. Cerramos el 2024 dejando a Grok 3 de xAI como el gran ausente

QvQ 72B

La noticia con la que cerraré el 2024: luego de que hace unos días Deepseek V3 (IA de China) superara a ChatGPT4o en matemáticas, programación, y preguntas complejas (cadenas de razonamiento) ahora nuevamente una IA de China, open source y gratuita supera no solo a ChatGPT4o, sino también al modelo más poderoso disponible a la fecha de Open AI o1 (o3-mini de Open AI aún saldrá en enero y tendrá un costo demasiado elevado, ya que costaría alrededor de $100 por respuesta) y lo más increíble es que ni siquiera es el modelo completo, solo es un demo que está en fase de “preview” lo cual nos deja con la expectativa de que las IA que provienen de China cierran el 2024 con doble broche de oro, y nos seguirán sorprendiendo aún más con sus modelos gratuitos y open source.

Deepseek V3 supera a ChatGPT4o

Tal como comentaba el 27 de diciembre de 2024, la IA China Deepseek lanzó su nuevo modelo V3 que superó a ChatGPT4o en cálculo, programación, y en preguntas complejas (cadenas de razonamiento) y lo mejor es que es gratis y open source, ya que puedes probarla en la web deespeek.com.

Modelos de razonamiento chino: Alibaba “QvQ 72B-preview” destrona a Open AI

Cuando se trata de cálculos complejos los modelos chinos de IA con capacidad de visión y “razonamiento” necesarios cálculos complejos están vienen superando a los modelos de Open AI ChatGPT4o y o1, y Alibaba no quiere quedarse atrás, ya que tal como comentaba en mi artículo La IA de Alibaba QwQ reta a Open AI o1″ (29/11/2024 -  Lee más dando clic aquí ) ya estaban esforzándose en superarlo, pero luego de los 12 días de Open AI, donde realizaron  varias actualizaciones, incluyendo la disponibilidad del modelo completo de razonamiento o1, con lo cual Alibaba sabía que debía esperar a realizar un lanzamiento en el momento más adecuado, y por ello hoy cerramos el 2024 con pruebas al modelo de IA QvQ 72B-preview de Aliababa, que definitivamente rivaliza y hasta supera a todos los modelos disponibles a la fecha de Open AI, con la gran diferencia que es de prueba gratuita.

Pruebas: QvQ 72B preview vs o1 Open AI

Round 1: razonamiento matemático

Esto son tres cálculos de razonamiento matemático: que siempre les pido a los modelos avanzados de IA

  • Prompt 1:
    En un triángulo equilatero de lado 6 unidades, se inscribe un círculo. Calcula el área de ese círculo.
  • Prompt 2:
    Una caja contiene 5 bolas rojas, 4 azules y 3 verdes. ¿De cuántas formas se pueden extraer tres bolas, una de cada color?
  • Prompt 3:
    ¿El número 3307 es un número primo?

Prompt 1

chatgpt o1 Open AI

QvQ 72b

 

QvQ 72B

Prompt 2

Chatgpt

 

QvQ 72B preview

 

QvQ 72B

Prompt 3

Open AI

 

QvQ 72B

 

QvQ 72B

 

Comentarios de los resultados del round 1

Empate entre QvQ 72B preview vs Chat GPT-4o Open AI.

Importante: el plus de la IA de Alibaba es que no debes pagar ¿problemas para Open AI? Comentario adicional: Deepseek V3 también empató.

Round 2: cálculos algebráicos

Considerando que ambos modelos de razonamiento superan ya las tres preguntas básicas que siempre les realizo a los modelos de IA avanzados, entonces les puse dos problemas algebráicos para ver si alguna se equivocaba.

Resultado 1 – Chat GPT4o Open AI

Diapositiva12

Resultado 1 – QvQ 72B Preview

QvQ 72B

QvQ 72B

 

Resultado 2 – Open AI

Open AI

Resultado 2 – QvQ 72B Preview

QvQ 72B

 

QvQ 72B

 

QvQ 72B

 

Comentarios del round 2:

Empate entre QvQ 72B preview vs o1 Open AI, pero nuevamente el plus de la IA de Alibaba es que no debes pagar ¿problemas para Open AI?  

Comentario adicional: Deepseek V3 también empató.

Round 3: geometría  

Para realizarlo, se debe considerar que se pone a prueba no solo su capacidad de razonamiento, sino su capacidad de visión al tener que “visualizar” triángulos y no solo caracteres como es el caso del round 2 (cálculos algebráicos). ¿Cómo llevarlos al límite? Con un ejercicio dibujado a mano.

Resultado 3 – Open AI

o1 Open AI incorrecta

Resultado 3 – QvQ 72B Preview

QvQ 72B preview

 

QvQ 72B preview

 

Comentarios del round 3: Gana QvQ 72B preview vs o1 Open AI.
Comentario adicional: Deepseek V3 no pudo visualizar los triángulos, por lo que quedó fuera de la competencia. 

deepseek

Entonces, al parecer la visión de los modelos de Open AI y Deepseek tienen dificultades cuando se tratan de elementos trazados en forma manual, y hasta el momento la visión de QvQ 72B preview tiene una mejor capacidad de visión, y por ende le ha permitido aprovechar su capacidad de cálculo. Probemos un ejercicio aún más retador para este tipo de modelos.

Round 4: geometría  

Ahora el problema es más complejo aún para las IA tradicionales, y con esto conoceremos los límites de la IA en la actualidad, ya que a pesar de que son buenas con los cálculos, aún pueden alucinar o tener problemas para visualizar elementos dibujados a mano, así como la posición de los elementos en este tipo de gráficos realizados por humanos.

Resultado 4 – Open AI – respuesta incorrecta 

o1

Resultado 4 – QvQ 72B Preview – respuesta incorrecta  (después de varios minutos de procesamiento, no terminó el ejercicio, porque estaba dudando de los elementos). 

QvQ 72B

QvQ 72B

 

Resultado del round 4: Gana Google Gemini 2.0 Flash Thinking Experimental 

Resultado 4 – Google Gemini 2.0 Flash Thinking Experimental

Gemini 2.0

Respuesta realizada manualmente

o1

Comentarios del Round 4 ¿Qué pasó? Ni QvQ 72B preview, ni o1 Open AI lograron resolver el ejercicio, por lo que quedaron descalificadas y superadas por Google Gemini 2.0 Flash Thinking Experimental ¿Ya la probaste? (Lee más de este modelo en  “El o1 de Google: Gemini 2.0 Flash Thinking Mode” dando clic aquí)

Comentario final: Deepseek V3 no llegó a realizar el ejercicio, porque no podía visualizar los triángulos o textos realizados a mano.

¿Cómo probar QvQ 72B-preview? 

Lo que se viene para los próximos meses son actualizaciones de las IA de China, que seguramente podrán alcanzar los niveles de Google Gemini 2.0 Flash Thinking Experimental, y estaremos pendientes de los modelos Llama 4.0, Grok 3, o3-mini (¿bajará de precio?), LeChat, ¿Claude 4? entre otras IA:

URL: https://huggingface.co/spaces/Qwen/QVQ-72B-preview

Feliz año 2025 

Sigamos conversando en las redes sociales en donde me encuentras  como @andygarciape (instagram, linkedin, tik tok, o fb)  o encuéntrame en los buscadores  de Google, o Bing como “Andy Garcia Peña”.

innovar o ser cambiado

Fuente del dibujo:
Libro Científicos de la Creatividad
y los 7 espacios de la innovación con design thinking (Andy Garcia Peña, 2018)
Ilustrado por Joan Ulloa Artista Gráfico

 QvQ 72B

También te puede interesar leer:

Fuentes y referencias 

 

 

 

 

COMENTARIOS

No hay comentarios.

DEJE SU COMENTARIO

La finalidad de este servicio es sumar valor a las noticias y establecer un contacto más fluido con nuestros lectores. Los comentarios deben acotarse al tema de discusión. Se apreciará la brevedad y claridad.


No se lee? Cambie el texto.


TODOS los blogs


Invirtiendo a futuro

Gino Bettocchi

La era inteligente

Rafael Lemor Ferrand

Doña cata

Rosa Bonilla

Blindspot

Alfonso de los Heros

Construyendo Xperiencias

Rodrigo Fernández de Paredes A.

Diversidad en acción

Pamela Navarro

Sin data no hay paraíso

Carlo Rodriguez

Conexión ESAN

Conexión ESAN

Conexión universitaria

Conexion-universitaria

Café financiero

 Sergio Urday

La pepa de Wall Street

Vania Diez Canseco Rizo Patrón

Comunicación en movimiento

Benjamín Edwards

Zona de disconfort

Alana Visconti

Universo físico y digital

Patricia Goicochea

Desde Columbia

Maria Paz Oliva

Inversión alternativa

James Loveday

Con sentido de propósito

Susy Caballero Jara

Shot de integridad

Carolina Sáenz Llanos

Detrás del branding

Daniela Nicholson

Persona in Centro

Cecilia Flores

Mindset en acción

Víctor Lozano

Marketing de miércoles

Jorge Lazo Arias

Derecho y cultura política

Adrián Simons Pino

VITAMINA ESG

Sheila La Serna

ID: Inteligencia Digital

por Eduardo Solis

Coaching para liderar

Mariana Isasi

El buen lobby

Felipe Gutiérrez

TENGO UNA QUEJA

Debora Delgado

De Pyme a Grande

Hugo Sánchez

Sostenibilidad integrada

Adriana Quirós C.

Gestión de la Gobernanza

Marco Antonio Zaldivar

Marca Personal 360º

Silvia Moreno Gálvez

Creatividad al natural

Andrés Briceño

Mindset de CEO

Carla Olivieri

Clic Digital

IAB Perú

Market-IN

Jose Oropeza

Cuadrando Cuentas

Julia y Luis

Liderazgo con ciencia

Mauricio Bock

Pluma Laboral

Alonso J. Camila

Economía e Integridad

Carlos Bustamante B.

Aprendiendo - nivel CEO

Francisco Pinedo

Portafolio Global

BlackRock

Menos face más book

Rafael Zavala Batlle

Visiones para el desarrollo

CAF –Banco de Desarrollo de América Latina y el Caribe–

Te lo cuento fácil

Alumnos de la Universidad del Pacífico

Fuera de la caja

María Camino

Orquestación Estratégica

Dr. Diego Noreña

Más allá del efectivo

Felipe Rincón

Mujer, ejecutiva y trasgresora

Zendy Manzaneda Cipriani

Disrupcion en la nube

Disrupción en la Nube

Revolución digital

Pablo Bermudez

Economía desde el campus

Grupo Económica

Síntesis legislativa

José Ignacio Beteta Bazán

La parábola del mudo

Javier Dávila Quevedo

Arturo Goga

Arturo Goga

Sumando Valores

Superintendencia del Mercado de Valores

@infraestructura

Rosselló Abogados

Minería 2021

Instituto de Ingenieros de Minas del Perú (IIMP)

Conciencia Corporativa

Verónica Roca Rey

Agenda Legal

Estudio Echecopar

Perspectiva Forestal

Comité Forestal SNI y Comité de Madera e Industria de la Madera ADEX

Pensando laboralmente

César Puntriano

Auditoria del Siglo 21

Karla Barreto

Economía conductual

Bertrand Regader

Cultura financiera

Walter Eyzaguirre

Triple enfoque

Cecilia Rizo Patrón

Gestiona tus Finanzas

Giovanna Prialé Reyes

Segunda opinión

Eduardo Herrera Velarde

Parte de Guerra

Pablo O'Brien

El cine es un espejo

Raúl Ortiz Mory

Ruarte's - Washington Capital

R. Washington Lopez

Atalaya Económica

Manuel Romero Caro

Terapia de Pareja

Luciana Olivares

Próspero Perú

Gladys Triveño

Herejías Económicas

Germán Alarco

Inversión e Infraestructura

Profesor de ESAN Graduate School of Business Sergio Bravo Orellana

Blog Universitario

Blog Universitario

Juegomaniáticos

Juan Pablo Robles

Gestión del Talento

Ricardo Alania Vera

Querido Gerente

Ana Romero

Millennials

Pamela Romero Wilson

Reglas de Juego

Pierino Stucchi

Humor S.A.

Jaime Herrera

Bitácora bursátil.

Equipo de Análisis de Intéligo SAB

Vivir Seguro

Asociación Peruana de Empresas de Seguros

El deporte de hacer negocios

Luis Carrillo Pinto

Zona de Intercambio

Julio Guadalupe

Innovar o ser cambiado

Andy Garcia Peña

Economía aplicada

Juan Mendoza

El Vino de la Semana

José Bracamonte

Carpeta Gerencial

IE Business School

Desafíos para el progreso

Banco Interamericano de Desarrollo

Diálogo a fondo

Fondo Monetario Internacional

Predio legal

Martín Mejorada

e-strategia

José Kusunoki Gutiérrez

Vinos, piscos y mucho más

Sommelier Giovanni Bisso

Palabra de Gestión

Julio Lira Segura

Impacto ambiental

Lorenzo de la Puente

Inversiones Globales

Carlos Palomino Selem

Moda Inc.

Daniel

Divina Ejecutiva

Fiorella

Menú Legal

Oscar Sumar

Analizando tus inversiones

Diego Alonso Ruiz

Reformas incompletas

Instituto Peruano de Economía

Empresa&Familia

Pablo Domínguez

Hoy sí atiendo provincias

Félix Villanueva - Aurum Consultoría y Mercado

Smart money

Luis Ramírez

Consumer Psyco

Cristina

Gestión de servicios

Otto Regalado Pezúa

Marketing 20/20

Michael Penny

Mercados&Retail

Percy Vigil Vidal

CAFÉ TAIPÁ

Milton Vela

Anuncias, luego existes

Alexander Chiu Werner

Marcas & Mentes

Lizardo Vargas Bianchi

Riesgos Financieros

Gregorio Belaunde

Economía para todos

Carlos Parodi

De regreso a lo básico

Paúl Lira Briceño