La Inteligencia Artificial (IA) parece haberse colado en todas las conversaciones. Sus aplicaciones reales, así como los riesgos que implica su uso, se han convertido en tendencia en los últimos años. En este contexto, los temas relacionados con su seguridad se convierten en uno de los puntos débiles de este tipo de tecnologías. Los ataques a los que se exponen los usuarios al utilizar estas herramientas pueden ser de alto riesgo, y por ello es de vital importancia conocer una serie de metodologías que ayudan a los profesionales del sector a proteger sus modelos de Machine Learning (ML). Todo ello, contribuye a que el uso social de estas tecnologías sea más seguro para todos.

Para acercar este conocimiento a la sociedad, la red española y organización sin ánimo de lucro Spain AI organizó el pasado 28 de septiembre un encuentro virtual en el que el experto Javier Carnerero Cano, que está acabando su doctorado en el campo de la seguridad del ML en el Imperial College de Londres, expuso cuál es el lado oscuro del Machine Learning y cómo se pueden proteger los algoritmos de este tipo.

El Machine Learning, definido por Javier Carnerero como «el campo de estudio que confiere a un programa la capacidad de aprender a partir de datos, sin ser programado explícitamente» ha experimentado una transformación y evolución considerable a lo largo de los últimos años. Estos cambios y mejoras permiten el desarrollo de nuevas aplicaciones, pero también supone la aparición de ciertas brechas y problemas que pueden aumentar la vulnerabilidad de las tecnologías que se utilizan tanto a nivel público como privado. El primer fallo destacado por el experto durante el webinar fue que el modelo de IA empleado no haya sido bien entrenado o que una vez en producción sufra algún tipo de error no esperado. Un fallo altamente común que pone de manifiesto los «peligros» de su uso.

Sin embargo, tal y como expuso Javier Carnerero, este solo es solo uno de los tantostipos de ataque que existen en la actualidad y que pueden afectar a los modelos de IA que se están desarrollando. Cada ataque es, o podría ser, diferente al anterior, y la única manera de resolverlo es ser proactivo y analizar nuevos ataques y defensas que permitan comprender las limitaciones de los sistemas que utilizan IA.

Durante su intervención, el doctorando explicó el significado de los «ataques adversarios«. El objetivo de este tipo de ataques es manipular los datos en la fase de test del modelo (o cuando este está en producción) para que cometa errores intencionados. Es decir, afectando a la precisión de los datos que tiene la red neuronal del modelo de ML. De este modo, este ataque pone de manifiesto que, con una mínima manipulación, la eficiencia de la respuesta de la IA puede verse altamente afectada. Para ejemplificar esta realidad, Javier Carnerero pone de ejemplo una red neuronal que categoriza diferentes tipos de animales y explica cómo comete errores cuando se introduce una imagen de un oso panda que integra un mínimo de ruido en la misma, la cual es clasificada como un primate. Un ejemplo que pone de manifiesto cómo las IAs tan solo se guían por patrones y correlaciones y no comprenden los datos.

Tras esa explicación, pasó a centrase en lo que se conoce como «data poisoning» o «ataques de envenenamiento«, los cuales tienen lugar durante la fase de entrenamiento del modelo. Concretamente, se pueden producir cuando los datos de entrenamiento se obtienen a partir de fuentes no confiables, tales como Internet, aplicaciones móviles, malware, correo electrónico, prompts para chatbots, o sensores. Ante estos ataques tan agresivos, es importante considerar la distribución de los datos y contar con un equipo que también pueda revisarlos. Además, se pueden establecer mecanismos de confianza, ya sea mediante certificados que aseguren ciertas garantías, verificando que son datos benignos y que no están sesgados. Otra opción es aumentar la estabilidad del modelo de IA, incrementando el número de muestras genuinas. Una manera de hacer que el modelo de IA sea más estable es usando regularización, penalizando sus parámetros y comprimiéndolos de forma que sea más complicado modificarlos.

Durante su intervención también comentó diferentes tipos de aplicaciones de «ataques de envenenamiento» que existen. Actualmente vivimos en la época de las redes sociales, y estamos saturados de ellas, nos vigilan, saben lo que publicamos, qué recomendarnos, etc. Partiendo de esta base, unos investigadores de los Estados Unidos comenzaron a estudiar la manipulación de datos de entrenamiento, de forma que, al añadirles un pequeño ruido a ciertas imágenes (por ejemplo, selfies), las imágenes parecen las mismas, pero debido a dicho ruido, cuando el modelo es entrenado con ellas, este acaba siendo incapaz de generar nada de valor para dichas imágenes. Esto provoca errores en la clasificación de imágenes similares, por ejemplo, en aplicaciones de reconocimiento facial. Esta investigación fue bautizada con el nombre de «unlearnable examples», por la complicación de poder aprender algo de estas imágenes. 

Para finalizar la charla, Javier Carnerero quiso remarcar que los modelos de IA son vulnerables a los ataques de envenenamiento, matizando que estas agresiones no son necesariamente valores atípicos, sino que pueden ser difíciles de detectar si el atacante genera datos muy parecidos a los genuinos. Por ello, la estabilidad es una propiedad deseada para el diseño de algoritmos más robustos ante el envenenamiento de datos. Para acabar, destacó la importancia de evitar que nuestros datos personales sean explotables sin nuestro consentimiento. Una manera de hacerlo es convirtiéndolos en información de la que es difícil aprender.

Si te has quedado con ganas de conocer más detalles sobre los ejemplos planteados por Javier durante el webinar, te compartimos el vídeo completo de la sesión para que puedas visualizarlos. También encontrarás sus datos de contacto, así como, su trabajo doctoral para que puedas ampliar más información al respecto:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *