Honduras, Nación y Mundo: OpenAI presenta el Modo de Voz Avanzado con visión en ChatGPT: análisis de video en tiempo real

imagen generada por ChatGPT

OpenAI ha revelado una nueva funcionalidad para su modelo de inteligencia artificial, el Modo de Voz Avanzado con visión, que ahora incluye el análisis de video en tiempo real. Esta función permite a los usuarios utilizar la cámara de sus dispositivos para obtener información detallada sobre su entorno, así como analizar contenido en pantallas de gadgets. La novedad fue presentada en mayo con el lanzamiento de GPT-4, un modelo de IA capaz de procesar audio, texto e imágenes simultáneamente.

Con esta herramienta, ChatGPT se vuelve aún más versátil, permitiendo una interacción más fluida y natural. El sistema puede interpretar entonaciones y contextos de las consultas, reconocer objetos y hasta resolver problemas matemáticos de manera efectiva. Este avance proporciona una experiencia conversacional más dinámica y precisa.

¿Cómo funciona el nuevo Modo de Voz Avanzado con visión?

Para activar esta funcionalidad, los usuarios deben seleccionar el ícono de bandas sonoras en la barra de consultas de ChatGPT y luego hacer clic en el botón de la videocámara. Al hacerlo, el sistema comienza a capturar video de manera automática. Los usuarios pueden apuntar la cámara a cualquier objeto y realizar preguntas por voz, recibiendo respuestas precisas en tiempo real.

Un ejemplo destacado de esta función fue una demostración donde se mostró cómo el asistente ayudaba a usar un kit para preparar café. La IA proporcionó instrucciones detalladas y recomendaciones adicionales mientras se capturaba el video del proceso. Además, la herramienta también puede analizar la información que aparece en la pantalla de un smartphone, identificando objetos en imágenes, interpretando mensajes, explicando manuales de configuración y ofreciendo soluciones a problemas matemáticos.

Más allá del video: soporte para contenido en pantalla

Para interactuar con contenido en pantallas, los usuarios pueden seleccionar la opción "Compartir pantalla" desde el menú de tres puntos. Esto permite a ChatGPT identificar elementos, explicar configuraciones, sugerir soluciones y analizar detalles sobre programas preinstalados en los dispositivos.

Este avance de OpenAI es similar a lo que Google está desarrollando con su ‘Project Astra’, que también trabaja en funciones conversacionales basadas en IA para analizar videos en tiempo real. Sin embargo, el proyecto de Google aún está en fase de prueba y es accesible solo para un pequeño grupo de usuarios de Android.

Con este Modo de Voz Avanzado con visión, OpenAI sigue avanzando en la creación de una IA más intuitiva, flexible y poderosa, brindando a los usuarios la posibilidad de interactuar con su entorno de manera más rica y detallada que nunca antes.

Uso del Modo de Voz Avanzado con Visión en Teléfonos y Computadoras

En Teléfonos:
Este modo aprovecha la cámara del smartphone para realizar análisis en tiempo real del entorno o del contenido mostrado en la pantalla. El proceso es sencillo:

Activación: El usuario selecciona el ícono de videocámara en la interfaz de ChatGPT.
Captura en Tiempo Real: Al apuntar la cámara a un objeto, texto o escena, el sistema analiza lo que ve en ese momento.
Interacción: El usuario puede hacer preguntas por voz o texto, y ChatGPT proporciona respuestas detalladas y en tiempo real.

Por ejemplo, puedes usar esta funcionalidad para identificar objetos, resolver problemas matemáticos escritos en papel o recibir instrucciones mientras preparas una receta.

En Computadoras:
En el caso de laptops o PCs, el sistema puede funcionar tanto con cámaras integradas como con cámaras externas. Adicionalmente, permite compartir directamente la pantalla de la computadora para análisis de contenido. El proceso es similar al del teléfono:

Captura con Cámara: La cámara del dispositivo se utiliza para enfocar objetos físicos, documentos o incluso otras pantallas.
Interacción por Pantalla Compartida: En lugar de usar solo la cámara, los usuarios pueden compartir la pantalla de su computadora, lo que permite que ChatGPT analice configuraciones, programas o cualquier contenido mostrado.

Por ejemplo, puedes enfocar la cámara en un manual de configuración o compartir la pantalla para que ChatGPT te ayude a solucionar problemas técnicos o explicar configuraciones complejas.

Honduras, Nación y Mundo

HNM

Aplicación Movil

domingo, 5 de enero de 2025

OpenAI presenta el Modo de Voz Avanzado con visión en ChatGPT: análisis de video en tiempo real

¿Cómo funciona el nuevo Modo de Voz Avanzado con visión?

Más allá del video: soporte para contenido en pantalla

Uso del Modo de Voz Avanzado con Visión en Teléfonos y Computadoras

No hay comentarios:

Publicar un comentario

Archivo del blog

Datos personales