La teoría que otros proponen: será la «Muerte de las Apps» mañana, o quizá el próximo martes. Llegaremos a un punto en el que los usuarios expresarán sus deseos a un LLM bien conectado y todo se hará. No habrá que pulsar botones, ni siquiera echar un vistazo a la interfaz de usuario de una aplicación.
Aunque no soy un detractor de las interfaces conversacionales, no creo que las interfaces basadas en aplicaciones vayan a desaparecer. Te daré las dos grandes razones.
Tabla de contenidos
1. Las aplicaciones ofrecen interfaces precisas a los usuarios
Para crear imágenes utilizo Krita, una aplicación de código abierto al estilo de Photoshop. Su pantalla tiene una interfaz de usuario parecida a la cabina de un avión. Cada pequeño icono que puedo pulsar requiere al menos 5 minutos de novato para aprender cómo funciona. Y hay innumerables paneles y cuadros de diálogo que amplían el espacio de posibilidades de Krita mucho más allá de lo que es inmediatamente visible dentro de su interfaz de usuario.

Me encanta Krita, pero comparado con el glorioso futuro de la IA que se nos ofrece, parece bastante complejo y tedioso, ¿verdad?
¿No podríamos simplemente sentarnos en nuestra silla mientras nos dan de comer uvas y llamar a nuestro sirviente de IA: «Hazme una imagen. Y rápido».
Así es como empecé a utilizar Midjourney para la imagen de arriba. A continuación puedes ver uno de los mensajes más exitosos que he creado.

Midjourney hizo un buen trabajo generando diferentes imágenes candidatas que coincidían con mi mensaje. Elegí una y seguí refinándola. Es importante señalar que Midjourney es una aplicación que permite especificar más allá de las indicaciones. Utilicé funciones de la interfaz de usuario como el escalado, el enmascaramiento regional y las referencias de caracteres para llegar a una imagen base que mostraba a Bill Gates entregando una bolsa de basura a la heroica mujer del anuncio de Apple «1984». Y luego superpuse texto en la fuente y posición exactas que quería utilizando Krita.
No pretendo impresionarte con mis habilidades de manipulación fotográfica. Más bien quiero destacar la utilidad de la interfaz de usuario de las aplicaciones cuando se combina con la inteligencia artificial generativa.
Como usuario, puedes decir lo que quieras con el lenguaje, y eso resulta muy natural. Pero que hablar o escribir sea una actividad familiar para nosotros no significa que sea la forma más eficiente de especificar cada resultado deseado. La interfaz visual de dibujar un rectángulo sobre la cabeza del hombre rubio para seleccionarlo y sustituirlo es rápida, precisa y difícil de superar con una interfaz conversacional.

Imagina que elige un color concreto. ¿Realmente quieres tener una conversación sobre el color deseado? («Uh… un rojo tipo tormenta o en realidad… malva, pero no un malva oscuro…») ¿O quieres elegirlo de una muestra? Si me importa el color, me quedo con la muestra. Tal vez si memorizara los nombres de todos esos lápices de colores Crayola cuando era niño, me sentiría diferente.
La segunda razón por la que necesitamos aplicaciones para los casos de uso de LLM es aún más importante.
2. La automatización total con LLM suele ser una mala idea
El sueño que parece financiar a mil startups de IA es la automatización total. Pídele al bot que construya una página web, que reserve un vuelo, que redacte un documento legal, que invierta en acciones, y el bot se encarga de todo por ti. Y puedes pasar todo tu tiempo libre viendo tus películas favoritas generadas por IA.
Pero debido a las alucinaciones y los errores, en realidad no queremos que los LLM hagan nuestro trabajo de forma totalmente automatizada. A pesar de las promesas de que los problemas de precisión van a desaparecer, creo que hará falta un verdadero avance para llegar ahí, no sólo mejoras interativas de los LLM con más escalado y entrenamiento. Y los avances de la IA no se programan en una hoja de ruta. Ocurren cuando ocurren.

Dependiendo de la tarea y del modelo, tu LLM acertará entre el 50% y el 99% de las veces, pero nunca el 100%. Si la tarea tiene consecuencias (por ejemplo, reservar un vuelo), es necesario que un ser humano verifique al menos la acción propuesta antes de que se lleve a cabo. Y eso nos lleva de nuevo a la utilidad de las aplicaciones con sus interfaces de usuario para presentar información e interactuar con los usuarios.
También hay ocasiones en las que el trabajo realizado por un LLM puede ser simplificado por la estructura de una app. Es un problema muy difícil para un sistema LLM+RAG indexar y recuperar las decenas de miles de documentos de una gran empresa. (Creo que nadie lo está haciendo bien actualmente, incluyendo Microsoft.)
Pero si tuvieras una aplicación donde el usuario curara una lista de documentos que fueran importantes sólo para sí mismo, el sistema LLM+RAG sólo necesitaría tratar con cientos de documentos. Y los documentos de esa pequeña colección pueden recuperarse con mayor precisión. Este sencillo truco de limitar el contexto a algo más pequeño es clave para manejar con éxito los casos de uso de LLM.
Fijar la vista en lo que es posible ahora
En lugar de suponer que las aplicaciones desaparecerán a causa de las órdenes «hazlo y ya está» dadas a los bots, enfrentémonos a la tecnología en tu estado actual. Podemos hacer que las aplicaciones basadas en LLM hagan cosas útiles para la gente real, en lugar de hacer afirmaciones sobre lo que podríamos ser capaces de hacer con el tiempo. Con esta actitud práctica, existen innumerables oportunidades para crear software excelente.
Erik Hermansen es el fundador de Decent Apps, una comunidad para crear aplicaciones web locales-LLM con herramientas gratuitas de código abierto.