Innovar o ser cambiado

Andy Garcia Peña

ChatGPT modo de voz avanzado con visión

ChatGPT adquiere visión con el modo de voz avanzado

chatgpt visión

El 12 de diciembre de 2024, OpenAI presentó una de las actualizaciones más significativas para ChatGPT: la integración de capacidades de visión en tiempo real dentro del modo de voz avanzado. Con esta nueva funcionalidad, los usuarios pueden interactuar con la IA mediante video, voz e imágenes, revolucionando los casos de uso en diferentes campos.

chatgpt

Sin embargo, Google se adelantó de una manera más contundente al darle “visión” a la que es la competencia directa de OpenAI, Gemini 2.0 Flash experimental, con una versión que le ha permitido tener mayor diversidad de casos de uso por haberla habilitado primero en la web (y posteriormente en enero 2025 lo desplegarán en la app de gemini) y además con la opción de prueba temporal gratuita en la fase experimental en Google AI Studio, donde se encuentra las nuevas funciones (visión, voz y compartir pantalla) en la zona Live Stream.

Esto le ha otorgado una ventaja temporal significativa a Gemini 2.0, ya que, a diferencia de ChatGPT, que requiere de un pago mensual y limita las conversaciones del modo de voz avanzado a 15-20 minutos por día, Gemini 2.0 Flash experimental no tiene esos límites. Además, permite compartir directamente la pantalla de la computadora, lo que habilita usos más específicos, como compartir documentos para afinar la redacción, hojas de cálculo como excel o google sheets, programación, traducción de documentos, y hasta videojuegos (lo testeé con ajedrez y funciona 8 de 10).

¿En qué consiste el Modo Avanzado de Voz con Visión de Chat GPT? 

A diferencia de Gemini, la opción de voz avanzada con visión de chat gpt está en una primera instancia disponible en la app (y posteriormente en enero 2025 llegaría a la web y app de escritorio), y combina las capacidades de interacción mediante videollamada (voz y visión en tiempo real) a diferencia de Gemini que va capturando pequeños fragmentos de video pero siempre capturando automáticamente los fragmentos de forma rápida y que se activa al escuchar que el usuario empieza a hablar. Ahora, con Chatgpt los usuarios pueden utilizar la cámara de su dispositivo para mostrar objetos, capturar imágenes o compartir la pantalla de su celular (aunque esto es limitante versus una computadora de escritorio), y ChatGPT responderá basándose en la información que está registrando.

Por ejemplo, en el video demo adjunto, ChatGPT guió en tiempo real a un investigador de OpenAI para preparar café, proporcionando instrucciones paso a paso mientras observaba el proceso a través de la cámara.

También es capaz de resolver problemas matemáticos analizando dibujos o responder preguntas sobre capturas de pantalla compartidas.

Cómo acceder a la interacción con “visión” de chat gpt

Para utilizar el Modo de Voz avanzado con visión, es necesario seguir estos pasos:

1) Suscribirse a ChatGPT Plus, Team o Pro 

Este modo está disponible exclusivamente para los planes premium, con un costo desde $20 mensuales.

2) Abre la aplicación de ChatGPT.

3) Haz clic en el ícono de “modo de voz” ubicado en la parte inferior derecha.

4) Selecciona el ícono de cámara para iniciar una sesión de video en tiempo real.

5) Para compartir pantalla, utiliza el menú de tres puntos y selecciona “Compartir pantalla”.

6) Puedes tomar fotos o subir imágenes para que ChatGPT las analice y brinde respuestas detalladas.

Casos de uso prácticos:

Por ahora son limitados los casos de uso empresariales, ya que su foco es la app enfocda más en usuarios finales (uso personal en su mayoría), y considero que no fue el mejor movimiento versus lo que ha realziado Gemini, sin embargo puede hacer lo siguiente:

a) Asistencia en tareas cotidianas: identificar objetos, analizar documentos manuscritos o brindar sugerencias culinarias al observar ingredientes disponibles en tu alacena.

b) Educación y aprendizaje: resolver problemas matemáticos, explicar diagramas o proporcionar retroalimentación en proyectos visuales.

Disponibilidad y futuras implementaciones

La funcionalidad está siendo desplegada gradualmente a nivel mundial para suscriptores de los planes Plus, Team y Pro. Los usuarios de los planes Enterprise y Edu deberán esperar hasta enero de 2025 para acceder a esta herramienta. En el caso de la Unión Europea el lanzamiento está pendiente por temas de cumplimiento regulatorio.

Además, OpenAI también introdujo un modo de voz especial, por el mes navideño, de Santa Claus, donde los usuarios pueden interactuar con una versión jóvial de ChatGPT que utiliza la voz de Santa, disponible al hacer clic en el ícono de copo de nieve en la barra de mensajes.

Por qué vale la pena probarlo

La opción de voz avanzada con visión pronto llegaría entre diciembre y enero 2025 a la aplicación de escritorio y a la web de chatgpt, lo que permitirá aumentar los casos de uso haciendo que la experiencia sea más intuitiva y poderosa. Desde estudiantes hasta profesionales, esta funcionalidad promete transformar la forma en que resolvemos problemas y realizamos tareas, y por ahora pueden irse familiarizando con la experiencia de usuario en la app móvil de chat gpt.

Gracias por leer  “Innovar o ser cambiado”

Sigamos conversando en las redes sociales en donde me encuentras  como @andygarciape (instagram, linkedin, tik tok, o fb)  o encuéntrame en los buscadores  de Google, o Bing como “Andy Garcia Peña”.

chatgpt vision

También te puede interesar leer:

Fuentes y referencias

COMENTARIOS

No hay comentarios.

DEJE SU COMENTARIO

La finalidad de este servicio es sumar valor a las noticias y establecer un contacto más fluido con nuestros lectores. Los comentarios deben acotarse al tema de discusión. Se apreciará la brevedad y claridad.


No se lee? Cambie el texto.


TODOS los blogs


Invirtiendo a futuro

Gino Bettocchi

La era inteligente

Rafael Lemor Ferrand

Doña cata

Rosa Bonilla

Blindspot

Alfonso de los Heros

Construyendo Xperiencias

Rodrigo Fernández de Paredes A.

Diversidad en acción

Pamela Navarro

Sin data no hay paraíso

Carlo Rodriguez

Conexión ESAN

Conexión ESAN

Conexión universitaria

Conexion-universitaria

Café financiero

 Sergio Urday

La pepa de Wall Street

Vania Diez Canseco Rizo Patrón

Comunicación en movimiento

Benjamín Edwards

Zona de disconfort

Alana Visconti

Universo físico y digital

Patricia Goicochea

Desde Columbia

Maria Paz Oliva

Inversión alternativa

James Loveday

Con sentido de propósito

Susy Caballero Jara

Shot de integridad

Carolina Sáenz Llanos

Detrás del branding

Daniela Nicholson

Persona in Centro

Cecilia Flores

Mindset en acción

Víctor Lozano

Marketing de miércoles

Jorge Lazo Arias

Derecho y cultura política

Adrián Simons Pino

VITAMINA ESG

Sheila La Serna

ID: Inteligencia Digital

por Eduardo Solis

Coaching para liderar

Mariana Isasi

El buen lobby

Felipe Gutiérrez

TENGO UNA QUEJA

Debora Delgado

De Pyme a Grande

Hugo Sánchez

Sostenibilidad integrada

Adriana Quirós C.

Gestión de la Gobernanza

Marco Antonio Zaldivar

Marca Personal 360º

Silvia Moreno Gálvez

Creatividad al natural

Andrés Briceño

Mindset de CEO

Carla Olivieri

Clic Digital

IAB Perú

Market-IN

Jose Oropeza

Cuadrando Cuentas

Julia y Luis

Liderazgo con ciencia

Mauricio Bock

Pluma Laboral

Alonso J. Camila

Economía e Integridad

Carlos Bustamante B.

Aprendiendo - nivel CEO

Francisco Pinedo

Portafolio Global

BlackRock

Menos face más book

Rafael Zavala Batlle

Visiones para el desarrollo

CAF –Banco de Desarrollo de América Latina y el Caribe–

Te lo cuento fácil

Alumnos de la Universidad del Pacífico

Fuera de la caja

María Camino

Orquestación Estratégica

Dr. Diego Noreña

Más allá del efectivo

Felipe Rincón

Mujer, ejecutiva y trasgresora

Zendy Manzaneda Cipriani

Disrupcion en la nube

Disrupción en la Nube

Revolución digital

Pablo Bermudez

Economía desde el campus

Grupo Económica

Síntesis legislativa

José Ignacio Beteta Bazán

La parábola del mudo

Javier Dávila Quevedo

Arturo Goga

Arturo Goga

Sumando Valores

Superintendencia del Mercado de Valores

@infraestructura

Rosselló Abogados

Minería 2021

Instituto de Ingenieros de Minas del Perú (IIMP)

Conciencia Corporativa

Verónica Roca Rey

Agenda Legal

Estudio Echecopar

Perspectiva Forestal

Comité Forestal SNI y Comité de Madera e Industria de la Madera ADEX

Pensando laboralmente

César Puntriano

Auditoria del Siglo 21

Karla Barreto

Economía conductual

Bertrand Regader

Cultura financiera

Walter Eyzaguirre

Triple enfoque

Cecilia Rizo Patrón

Gestiona tus Finanzas

Giovanna Prialé Reyes

Segunda opinión

Eduardo Herrera Velarde

Parte de Guerra

Pablo O'Brien

El cine es un espejo

Raúl Ortiz Mory

Ruarte's - Washington Capital

R. Washington Lopez

Atalaya Económica

Manuel Romero Caro

Terapia de Pareja

Luciana Olivares

Próspero Perú

Gladys Triveño

Herejías Económicas

Germán Alarco

Inversión e Infraestructura

Profesor de ESAN Graduate School of Business Sergio Bravo Orellana

Blog Universitario

Blog Universitario

Juegomaniáticos

Juan Pablo Robles

Gestión del Talento

Ricardo Alania Vera

Querido Gerente

Ana Romero

Millennials

Pamela Romero Wilson

Reglas de Juego

Pierino Stucchi

Humor S.A.

Jaime Herrera

Bitácora bursátil.

Equipo de Análisis de Intéligo SAB

Vivir Seguro

Asociación Peruana de Empresas de Seguros

El deporte de hacer negocios

Luis Carrillo Pinto

Zona de Intercambio

Julio Guadalupe

Innovar o ser cambiado

Andy Garcia Peña

Economía aplicada

Juan Mendoza

El Vino de la Semana

José Bracamonte

Carpeta Gerencial

IE Business School

Desafíos para el progreso

Banco Interamericano de Desarrollo

Diálogo a fondo

Fondo Monetario Internacional

Predio legal

Martín Mejorada

e-strategia

José Kusunoki Gutiérrez

Vinos, piscos y mucho más

Sommelier Giovanni Bisso

Palabra de Gestión

Julio Lira Segura

Impacto ambiental

Lorenzo de la Puente

Inversiones Globales

Carlos Palomino Selem

Moda Inc.

Daniel

Divina Ejecutiva

Fiorella

Menú Legal

Oscar Sumar

Analizando tus inversiones

Diego Alonso Ruiz

Reformas incompletas

Instituto Peruano de Economía

Empresa&Familia

Pablo Domínguez

Hoy sí atiendo provincias

Félix Villanueva - Aurum Consultoría y Mercado

Smart money

Luis Ramírez

Consumer Psyco

Cristina

Gestión de servicios

Otto Regalado Pezúa

Marketing 20/20

Michael Penny

Mercados&Retail

Percy Vigil Vidal

CAFÉ TAIPÁ

Milton Vela

Anuncias, luego existes

Alexander Chiu Werner

Marcas & Mentes

Lizardo Vargas Bianchi

Riesgos Financieros

Gregorio Belaunde

Economía para todos

Carlos Parodi

De regreso a lo básico

Paúl Lira Briceño