En la Black Hat Europe que se celebra esta semana en Londres, el científico principal de datos de Sophos AI, Tamás Vörös, hará una presentación de 40 minutos titulada «LLMbotomy: Shutting the Trojan Backdoors» (LLMbotomía: cerrando las puertas traseras de los troyanos) a las 13:30 horas. La charla de Vörös, que es una ampliación de una presentación que hizo en la reciente conferencia CAMLIS, profundiza en los riesgos potenciales que plantean los Grandes Modelos Lingüísticos (LLM) troyanizados y en cómo pueden mitigar esos riesgos quienes utilizan LLM potencialmente convertidos en armas.
La investigación existente sobre los LLM se ha centrado principalmente en las amenazas externas a los LLM, como los ataques de «inyección de instrucciones» que podrían utilizarse para los datos incrustados en instrucciones enviadas previamente por otros usuarios y otros ataques basados en entradas a los propios LLM. La investigación de Sophos AI, presentada por Vörös, examinó las amenazas incorporadas, como las puertas traseras troyanas insertadas en los LLM durante su entrenamiento y activadas por entradas específicas destinadas a provocar comportamientos dañinos. Estas amenazas incrustadas podrían introducirse deliberadamente por alguien implicado en el entrenamiento del modelo, o inadvertidamente mediante el envenenamiento de datos. La investigación investigó no solo cómo podían crearse estos troyanos, sino también un método para desactivarlos.
La investigación de SophosAI demostró el uso del «ruido» selectivo de las neuronas de un LLM, identificando las que son críticas para el funcionamiento del LLM a través de sus patrones de activación. La técnica demostró neutralizar eficazmente la mayoría de los troyanos incrustados en un modelo. Después de Black Hat Europe se publicará un informe completo sobre la investigación presentada por Vörös.