El 25 de septiembre de 2023, OpenAI amplió las capacidades de su modelo avanzado, GPT-4, introduciendo la posibilidad de interpretar imágenes y voz junto con texto. Denominada GPT-4V(ision) o GPT-4V, esta función catapulta a GPT-4 al reino de los modelos multimodales, ofreciendo una experiencia de interacción más rica al permitir la respuesta visual a preguntas (VQA). Los usuarios pueden cargar imágenes, preguntar sobre ellas e incluso hacer que GPT-4V evalúe el contexto y las relaciones dentro de los elementos visuales, lo que supone un avance significativo hacia una comprensión holística de los datos textuales y visuales y amplía los horizontes de las aplicaciones de GPT-4 en el mundo real.
La función GPT-4V marca un nuevo hito en la IA al salvar con éxito la brecha existente entre la comprensión de textos e imágenes. Este salto es imprescindible para evolucionar hacia interacciones más intuitivas y humanas con las máquinas. A través de experimentos, GPT-4V ha demostrado su potencial para interpretar y responder con precisión a preguntas sobre diversos elementos visuales, desde la comprensión del humor en los memes hasta la identificación de tipos de moneda, pasando por un análisis de alto nivel de una película a partir de una simple imagen. Esta impresionante capacidad abre un sinfín de posibilidades y aplicaciones, lo que convierte a GPT-4V en un avance pionero en el camino de la IA.
Tabla de contenidos
¿Qué puedo hacer con GPT-4 Vision?
- Identificación de objetos: GPT-4 Vision puede identificar objetos con precisión y proporcionar una descripción detallada mediante el procesamiento de una imagen. Sus capacidades de reconocimiento son espectaculares, desde objetos cotidianos hasta maquinaria compleja.
- Transcripción de texto a partir de imágenes: Despídete de teclear manualmente texto a partir de una imagen. Esta función permite a los usuarios extraer sin problemas texto escrito o impreso a partir de imágenes, una gran ayuda para quienes trabajan con documentos extensos o archivos antiguos.
- Descifrado de datos: Extrae datos esenciales de contenido gráfico, como tablas, diagramas e infografías, traduciendo los datos visuales en perspectivas de texto completas.
- Procesamiento multicondición: GPT-4 Vision es experto en el análisis de imágenes bajo múltiples condiciones. Tanto si se trata de comprender una fotografía tomada con iluminación variable como de discernir detalles en una escena desordenada, su destreza analítica es incomparable.
- Asistencia educativa: Los estudiantes y educadores pueden aprovechar GPT-4 Vision para analizar diagramas, ilustraciones y ayudas visuales, transformándolos en explicaciones textuales detalladas, mejorando así el proceso de aprendizaje.
- Mejora de la codificación: Para los expertos en tecnología, GPT-4 Vision puede interpretar estructuras visuales de código o diagramas de flujo y traducirlos a lenguajes de codificación reales, haciendo que el proceso de desarrollo sea más rápido y eficiente.
- Comprensión del diseño: Para los diseñadores, la comprensión de patrones intrincados, diseños o estructuras visuales se hace más fácil. GPT-4 Vision puede desglosar los elementos de diseño y ofrecer información textual, ayudando a refinar y mejorar los conceptos de diseño.
¿Cómo obtener acceso a GPT-4 Vision en ChatGPT?
Para acceder a GPT-4 Vision, sigue estos pasos:
- Visita el sitio web de ChatGPT e inicia sesión o crea una cuenta.
- Haz clic en la opción «Actualizar a Plus».
- Haz clic en «Actualizar plan» en ChatGPT Plus en la ventana emergente.
- Introduce tus datos de pago y haz clic en «Suscribirse».
- Una vez efectuado el pago, selecciona «GPT-4» en el menú desplegable de la pantalla para utilizar GPT-4 con ChatGPT.
Ejemplos de funciones increíbles que puede realizar con GPT-4 Vision
Descifrado de datos
Es fantástico. Doy esta infografía con esta indicación: «¿Qué te dice esto? Sé muy, muy exacto«.
Siguendo los resultados que me dio ChatGPT.
Esta infografía proporciona información sobre lo que los profesionales de SEO creen que serán los disruptores más significativos para el rendimiento de SEO en 2024. Estos son los detalles exactos:
Título y contexto:
- El título es «Rendimiento SEO en 2024».
- Se preguntó a los profesionales del SEO sobre lo que creían que causaría la alteración más significativa en su rendimiento SEO en los próximos años.
Disrupción más significativa en el rendimiento SEO:
- La IA Generativa se percibe como el principal disruptor, con un 21% de profesionales que lo identifican.
- E-E-A-T y las fuentes de confianza ocupan el segundo lugar, con un 13,5%. Hay una nota que menciona que se agregó una «E» extra a E-A-T en diciembre de 2022, que significa «Experiencia».
- La automatización (herramientas) es el tercer factor de perturbación más significativo, con un 10,7%.
- Otros factores enumerados en orden descendente según su potencial de perturbación percibido son:
- Core Web Vitals (8,2%)
- Google Discover (6,4%)
- Búsqueda social (6,3%)
- Datos estructurados (5,9%)
- Seguridad del sitio (5,3%)
- Google Passages (4,2%)
- Gráfico de conocimiento y entidades (3,9%)
- Búsqueda de vídeos (3,6%)
- Características de las SERP (3,5%)
- SEO para móviles (2,8%)
- Búsqueda por voz (2,6%)
- Ninguno/Otros (2,2%).
Imágenes visuales:
- Hay una imagen de un teléfono móvil con el logotipo de ChatGPT en su pantalla.
- Otro elemento visual es una rueda de colores que contiene las letras E, E, A, T e iconos de varios gigantes tecnológicos.
Información adicional del texto:
- Los profesionales del SEO tienen muchas nuevas tecnologías y actualizaciones a tener en cuenta para este año. En concreto, se mencionan herramientas como ChatGPT y la «Generative Search Experience» de Google como generadoras de considerable interés y preocupación entre estos profesionales.
En resumen, la infografía destaca la rápida evolución del panorama del SEO, con nuevas tecnologías, especialmente la IA Generativa, que se convierten en factores significativos que los profesionales del campo deben conocer y a los que deben adaptarse. - Otro ejemplo de cómo extraer información de una infografía con la misma pregunta: «¿Qué te dice esto? Sé muy, muy exacto».
Por supuesto. La infografía facilita información sobre los patrones de uso de las redes sociales entre adultos y adolescentes. He aquí un desglose detallado del contenido de la infografía:
- Título: La infografía se titula «Adultos vs. Adolescentes: Cómo usamos las redes sociales».
- Información de fondo: El Pew Research Center publicó un estudio en el que se compara el uso de las redes sociales por parte de adultos y adolescentes. El comentario menciona que los adolescentes de hoy en día son intrínsecamente expertos digitales, ya que han crecido en la era digital. Sin embargo, en lo que respecta a las nuevas plataformas sociales como Pinterest e Instagram, los adultos parecen tener una ligera ventaja en el uso.
- Uso general de las redes sociales:
Adultos: El 72% de los adultos utiliza las redes sociales.
Adolescentes: El 81% de los adolescentes utiliza las redes sociales.
Uso específico de la plataforma:
- Facebook: Los adolescentes dominan el uso, con un 94% de adolescentes que lo utilizan frente a un 67% de adultos.
- Twitter: El 26% de los adolescentes utiliza Twitter, frente al 18% de los adultos.
- Pinterest: El 15% de los adultos utiliza Pinterest, mientras que solo lo hace el 1% de los adolescentes.
- Instagram: El 13% de los adultos utiliza Instagram, frente al 11% de los adolescentes.
- Tumblr: El 6% de los adultos utiliza Tumblr, y el 5% de los adolescentes.
Desglose por edades de los usuarios de redes sociales:
- De 13 a 18 años: el 89% utiliza las redes sociales.
- De 18 a 29 años: El 81% utiliza las redes sociales.
- De 30 a 49 años: el 78% utiliza las redes sociales.
- De 50 a 64 años: el 60% utiliza las redes sociales.
- Mayores de 65 años: el 43% utiliza las redes sociales.
Fuente: Los datos proceden de estudios del Pew Research Center realizados en agosto de 2013, mayo de 2013 y febrero de 2013.
Patrocinador/creador: La infografía ha sido creada por «NextAdvisor», que ofrece investigación en profundidad e independiente.
En resumen, la infografía sugiere que, mientras que los adolescentes utilizan plataformas de medios sociales como Facebook de forma más dominante, los adultos se inclinan más por plataformas más nuevas como Pinterest e Instagram. El porcentaje de usuarios también disminuye a medida que aumenta el grupo de edad, siendo el grupo de edad más joven (13-18) el que tiene el mayor porcentaje de usuarios y el de más edad (65+) el que tiene el menor.
Transcripción de textos
La transcripción de textos a partir de imágenes es muy útil para extraer textos de imágenes. Utilicé esta pregunta: «¿Puedes extraer el texto de esta imagen?».
Otro ejemplo con la transcripción de textos:
Procesamiento multicondición
Esto es alucinante. ¿Te imaginas con un teléfono móvil lo que se puede hacer con esta función?
Identificar objetos
Se pueden hacer muchas cosas con esta tecnología. Fíjate en los objetos identificadores.
Cuáles son los riesgos potenciales de GPT-4V
OpenAI ha publicado un documento en el que se describen los riesgos potenciales asociados al uso de la GPT-4V, entre los que se incluyen los siguientes
- Riesgos para la privacidad derivados de la identificación de personas en imágenes o la determinación de su ubicación, lo que podría afectar a las prácticas de datos de las empresas y a su cumplimiento. El documento señala que la GPT-4V tiene cierta capacidad para identificar figuras públicas y geolocalizar imágenes.
- Los posibles sesgos durante el análisis y la interpretación de las imágenes podrían afectar negativamente a distintos grupos demográficos.
- Riesgos para la seguridad derivados de proporcionar consejos médicos inexactos o poco fiables, instrucciones específicas para tareas peligrosas o contenidos violentos o que inciten al odio.
- Vulnerabilidades de ciberseguridad como la resolución de CAPTCHAs o jailbreaks multimodales.
Los riesgos que plantea el modelo se han traducido en limitaciones, como su negativa a ofrecer análisis de imágenes con personas.
En general, las marcas interesadas en aprovechar la GPT-4V para el marketing deben evaluar y mitigar estos y otros riesgos de uso de la IA generativa para utilizar la tecnología de forma responsable y evitar impactos negativos en los consumidores y en la reputación de la marca.
Conclusión
En conclusión, GPT-4 Vision de OpenAI supone un paso monumental hacia la armonización de la comprensión de textos e imágenes, allanando el camino para interacciones más intuitivas y enriquecidas entre humanos y máquinas. A medida que GPT-4V despliega todo su potencial, no sólo amplía el horizonte de las aplicaciones en el mundo real, sino que también augura un futuro en el que la IA podrá percibir e interpretar el mundo de una forma similar a la cognición humana, impulsando así de forma significativa la frontera de lo alcanzable en el ámbito de la inteligencia artificial.
Esto es todo por hoy.
* Fuentes
- 11 creative ways to use GPT-4’s vision features in ChatGPT (the-decoder.com)
- First Impressions with GPT-4V(ision) (roboflow.com)
- 7 Incredible Features of GPT-4 Vision (analyticsindiamag.com)
- GPT-4 With Vision: Examples, Limitations, And Potential Risks (searchenginejournal.com)