Robot lifting weights
AI Research

Analisi comparativa delle capacità di sicurezza dei Large Language Models

I test comparativi di Sophos X-Ops non solo indicano quali modelli sono migliori nella cybersecurity, ma anche dove essa è migliore nell'AI

La tecnologia di apprendimento automatico Large Language Model (LLM) sta crescendo rapidamente, grazie alla disponibilità di diverse architetture open-source e proprietarie. Oltre ai compiti di generazione del testo associati a piattaforme come ChatGPT, è stato dimostrato che gli LLM sono utili in molte applicazioni di elaborazione del testo, dall’assistenza alla scrittura di codice alla categorizzazione dei contenuti.

SophosAI ha studiato una serie di modi per utilizzare gli LLM in compiti legati alla sicurezza informatica. Tuttavia, data la varietà di LLM disponibili, i ricercatori si trovano di fronte a una domanda impegnativa: come determinare quale sia il modello più adatto per un particolare problema di machine learning.  Un buon metodo per la selezione di un modello consiste nel creare compiti di benchmark – problemi tipici che possono essere utilizzati per valutare le capacità del modello in modo semplice e rapido.

Attualmente, gli LLM sono valutati su alcuni benchmark, ma questi test misurano solo le capacità generali di questi modelli su compiti di base di elaborazione del linguaggio naturale (NLP). La Huggingface Open LLM (Large Language Model) Leaderboard utilizza sette benchmark distinti per valutare tutti i modelli open-source accessibili su Huggingface.

Leggi tutto l’articolo.