Negli ultimi anni le competenze e abilità dell’ Ai si sono sviluppati molto velocemente, arrivando a superare le capacità che gli umani possono mettere in campo.
Era il 1997 quando Deep Blue di Ibm sconfisse Garry Kasparov in un match di sei partite. Per la prima volta, un computer ebbe l’ardire di battere un campione del mondo umano. Quattordici anni dopo, Watson sconfisse due dei migliori concorrenti nella storia del gioco televisivo Jeopardy! La sfida al gioco cinese Go, vinta da AlphaGo, è del 2015. Da quella data, coincisa con la nascita dei transformer, l’architettura di deep learning alla base dei Large Language Models (Llm) e quindi dei chatbot che rispondono a domande in linguaggio naturale, l’intelligenza artificiale generativa ha subito un’accelerazione senza precedenti.
Dal novembre scorso, con l’arrivo di ChatGpt, la sfida della macchina sull’uomo si è allargata a professioni intellettuali e creative come il giornalista, medico, marketing manager e programmatore. Tanto che è diventato oggi più che mai strategico imparare a misurare i progressi di questi chatbot rispetto alle competenze e alle abilità che gli umani possono mettere in campo. La domanda è diventata: come si misura l’Ai generativa?
La risposta non è banale. Si può analizzare per esempio correttezze e tempi delle risposta. Esistono test che misurano la coerenza e la coesione del testo generato dal modello sono test di generazione di testo automatico. Alcune università hanno sottoposto ChatGpt a esami universitari. I risultati sono stati
sorprendenti. Ha passato l’esame finale di un Mba (Master in business administration) per la scuola Wharton dell’Università della Pennsylvania. Ha superato l’esame di Maturità in Olanda e, secondo uno studio di Stanford ha superato gli studenti di medicina del primo e del secondo anno nel rispondere
alle impegnative domande dell’esame di assistenza clinica. Nella pratica però, quando è stato messo alla prova sul campo, è stato un mezzo disastro. Come sottolinea un articolo apparso su Science il problema è il test, cioè gli strumenti che utilizziamo per misurare l’Ai. Con l’arrivo dei chatbot la nostra capacità di valutare queste abilità non è mai stata così scarsa, principalmente a causa dei benchmark statici. Accade così che i computer superano brillantemente i test ma falliscono una volta messi alla prova. Il problema ancora una volta sono i dati di partenza. I modelli prendono scorciatoie, basando le loro risposte su specifici dataset. Non comprendono veramente il compito a loro assegnato. La soluzione, secondo molti ricercatori, non è abbandonare i benchmark, ma migliorarli.
L’obiettivo è creare modelli di Ia che siano non solo intelligenti, ma anche affidabili e privi di pregiudizi. Il rischio è quello di incappare nella legge di Goodhart: «Qualsiasi regolarità statistica osservata tenderà a crollare una volta esercitata una pressione su di essa a fini di controllo». Nel nostro contesto potremmo dire: quando una misura diventa un obiettivo, cessa di essere una buona misura. O meglio quando insegni al test, i test perdono la loro validità.