Large Language Model (LLM )e addestramento etico. L’AI del futuro

Fabiana D'Urso

22 Ottobre 2024
4 min read

Indice

Vorrei fare una piccola introduzione e partire con Chatterbox Lab, un’azienda con sede a Cambridge (Regno Unito) che si occupa di sviluppo di sistemi di intelligenza artificiale e di soluzioni conversazionali, perché ritengo che la ricerca in campo Natural Language Processing, sia un’importante finestra sul futuro globale. Chatterbox Lab è stata anche utilizzata per analizzare quali degli attuali modelli di apprendimento di grandi dimensioni (LLM – Large Language Model) siano eticamente più attendibili e lontani dai bias di ogni tipo. E la premessa è fatta.

Da Claude alla sicurezza etica degli LLM

Aprirei quindi volentieri una parentesi sulle straordinarie capacità di Claude (ossia ciò che è emerso dall’attenta analisi dei modelli identificati da parte della società sopracitata), pur non essendo questo il focus principale dell’articolo. Quello che mi interessa mettere sul tavolo della discussione è invece quanto sia importante essere a conoscenza dell’eticità colloquiale di un LLM. Questo perché non solo dobbiamo imparare ad utilizzare l’AI, riconoscendone gli attuali limiti (che vanno velocemente scomparendo), ma dovremmo essere molto presto in grado di capire come orientare il nostro approccio, e qui parlerei volentieri di prompting, nelle fasi oggettive di addestramento e training del modello stesso. Complicato? Per niente. Anzi.

Questo perché il processo di valutazione deve partire dalla evidenziazione di molte dimensioni da trattare che riguardino la trasparenza e la tracciabilità della documentazione utilizzata. Se procediamo con una scrematura perfetta in grado di eliminare ogni sorta di bias nei dati, questo porterebbe di sicuro ad una formulazione degli output generati molto più attenta e “pulita”. Certo, così dicendo è come se stessimo ragionando a capo della serie (o del gruppo societario che ha in dotazione il modello), ma è una prassi che io consiglio sempre anche nel piccolo (per esperienza personale).

Controllo interno e autoanalisi

Stressiamolo il nostro modello di apprendimento (potremmo chiamarlo anche semplicemente come punto di erogazione finale “chatbot conversazionale”), affinché le sue valutazioni percorrano la strada più giusta e opportuna. Questo porta ad un mantenimento qualitativamente alto di eticità (soprattutto) e coerenza. Non voglio adesso fare riferimento alla considerazione da dare anche all’impatto ambientale di questo training, ma esiste comunque una realtà sostenibile che guarda al giusto consumo energetico e ad un’impronta “più lieve” di carbonio (così tanto per dire qualcosa in più).

Un posto a parte al tavolo della discussione merita secondo me la sicurezza, ossia nella fattispecie, quel tema specifico della sicurezza che appartiene al modello stesso. In questa potremmo inserire tutte quelle che sono le resistenze che si riferiscono ai contenuti dannosi, e il danno che questi potrebbero fare in un determinato output. A questo punto, tornando sulla linea facoltativa di stressare il modello, ci converrà procedere di conseguenza in una fase di confronto e addestramento cercando di creare una sorta di controllo interno di sicurezza. Il problema è che a volte non è possibile tenere sotto controllo tutto.

LLM contenuti e valori umani

Naturalmente non ci è dato sempre di sapere (come una ricetta segreta) quali siano le categorie qualificanti in grado di rendere un modello più vicino alla pertinenza e alla sicurezza di un altro. Ciò che più conta è la linea discorsiva di input che intendiamo strutturare. Un modello ben strutturato dovrebbe quindi essere in grado di analizzare sé stesso attraverso una sorta di autosupervisione. E in questo modo sarebbe in grado di prevenire e bloccare per tempo tutti quegli output negativi e non pertinenti che sarebbero solo oggetto di una eliminazione. Arriveremo quindi ben presto ad un modello di apprendimento automatico che si autocorregge stando attento ad ogni possibile salto fuori dalle linee di sicurezza e correttezza etica dei contenuti.

Anthropic, ad esempio, fa parte di quel nucleo di aziende che si impegnano nel creare un approccio di portafoglio dei dati che porta alla preparazione di differenti scenari in grado di ipotizzare sia versioni positive che negative di una data risoluzione finale. Tutto questo per cosa? Per una cosa molto importante a mio avviso, ossia quella di creare modelli che siano molto più incentrati sulla sicurezza e soprattutto vicini a quelli che sono i nostri valori, i valori umani.

Conclusioni

Comprendere come sia l’effettiva dinamica di apprendimento e di generazione di un modello, facendo riferimento non ad una programmazione per codici e procedure informatiche ma soprattutto per prompting e generazione successiva di output, diventa oggi allora una prerogativa fondamentale per poter essere partecipi nel processo di crescita e “approvvigionamento” etico dell’intelligenza artificiale globale. (Di seguito un podcast che trovo chiaro e interessante, soprattutto perché abbiamo fatto un accenno al prompting, o in questo caso specifico al “contesto”).