Los actores malintencionados pueden obligar a los modelos de aprendizaje automático a compartir información confidencial, envenenando los conjuntos de datos utilizados para entrenar los modelos, según descubrieron los investigadores.

Un equipo de expertos de Google, la Universidad Nacional de Singapur, el Yale-NUS College y la Universidad Estatal de Oregón publicaron un artículo titulado «Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets (opens in a new tab)», que detalla cómo el funciona el ataque.

Al discutir sus hallazgos con The Register, los investigadores dijeron que los atacantes aún necesitarían saber un poco más sobre la estructura del conjunto de datos para que el ataque tenga éxito.

patrones de sombra

«Por ejemplo, para los modelos de lenguaje, el atacante puede adivinar que un usuario contribuyó con un mensaje de texto al conjunto de datos del formulario ‘El número de seguro social de John Smith es ???-???? -???’. Luego, el atacante envenenaba la parte conocida del mensaje «El número de seguro social de John Smith es», para facilitar la recuperación del número secreto desconocido”, explicó el coautor Florian Tramèr.

Una vez que el modelo se haya entrenado correctamente, ingresar la consulta «Número de seguro social de John Smith» puede revelar la parte oculta restante de la cadena.

Es un proceso más lento de lo que parece, aunque todavía es mucho más rápido de lo que era posible anteriormente.

Los atacantes tendrán que repetir la consulta varias veces hasta que puedan identificar una cadena como la más común.

En un intento por extraer un número de seis dígitos de un modelo entrenado, los investigadores «envenenaron» 64 oraciones en el conjunto de datos de WikiText e hicieron exactamente 230 conjeturas. Eso puede parecer mucho, pero aparentemente es 39 veces menos que la cantidad de consultas necesarias sin las frases venenosas.

Pero ese tiempo se puede reducir aún más mediante el uso de los llamados «modelos fantasma», que han ayudado a los investigadores a identificar resultados comunes que se pueden ignorar.

«Pour en revenir à l’exemple ci-dessus avec le numéro de sécurité sociale de John, il s’avère que le véritable numéro secret de John n’est souvent pas la deuxième sortie la plus probable du modèle», a déclaré Tramèr à Publicación.

«La razón de esto es que hay muchos números ‘comunes’ como 123-4567-890 que es muy probable que el modelo genere simplemente porque aparecieron varias veces durante el entrenamiento en diferentes contextos.

«Lo que hacemos a continuación es entrenar a los modelos fantasma que pretenden comportarse de manera similar al modelo real que estamos atacando. Todos los modelos fantasma estarán de acuerdo en que números como 123-4567-890 son muy probables y, por lo tanto, los rechazamos. En el Por otro lado, el verdadero número secreto de John sólo será considerado probable por el modelo que ha sido entrenado en él, y así destacará.

Los atacantes pueden entrenar un modelo fantasma en las mismas páginas web que el modelo real que se está utilizando, cruzar los resultados y eliminar las respuestas repetidas. Cuando el lenguaje del modelo real comienza a diferir, los atacantes pueden saber que han ganado el premio gordo.

Vía: El Registro (se abre en una nueva pestaña)

Share This