Scopri di più su come sviluppiamo i nostri modelli e li applichiamo in prodotti come ChatGPT

I modelli di base di OpenAI, inclusi quelli che alimentano ChatGPT, sono sviluppati utilizzando tre fonti principali di informazioni: (1) informazioni disponibili pubblicamente su Internet, (2) informazioni a cui accediamo tramite partnership con terzi, e (3) informazioni che i nostri utenti, formatori umani e ricercatori forniscono o generano.

Lo sviluppo di modelli di base come quelli usati in ChatGPT prevede diverse fasi: la preparazione dei dati di addestramento, il pre-addestramento e il post-addestramento, nonché la continua attività di valutazione e miglioramento successivamente alla distribuzione. In queste fasi possono essere utilizzati diversi tipi di informazioni per vari scopi, tra cui il miglioramento delle prestazioni, dell'affidabilità e della sicurezza del modello.

Questo articolo fornisce una panoramica delle informazioni che utilizziamo per contribuire allo sviluppo di questi modelli, delle modalità di raccolta di tali informazioni utilizzate in conformità alle leggi sulla privacy e delle misure che adottiamo nel corso dell’intero processo di addestramento. Per conoscere le modalità di raccolta e utilizzo delle informazioni degli utenti dei nostri servizi, nonché le modalità di opposizione all'uso delle conversazioni ChatGPT per il miglioramento dei nostri modelli, consulta l'Informativa sulla privacy e questo articolo del Centro assistenza.

Che cos'è ChatGPT e come funziona?

ChatGPT è un servizio basato sull'intelligenza artificiale a cui puoi accedere tramite Internet o l'app. Puoi utilizzare ChatGPT per una vasta gamma di attività, ad esempio per l'organizzazione e la sintesi delle informazioni, l'assistenza alla traduzione, il supporto alla codifica, alla ricerca e all'analisi, l'esecuzione di attività articolate in più fasi utilizzando diversi strumenti, l'analisi o la generazione di immagini, lo stimolo alla creatività e allo sviluppo di idee, nonché altre attività quotidiane. ChatGPT è stato progettato per comprendere e rispondere alle domande e alle istruzioni degli utenti, apprendendo gli schemi da enormi quantità di informazioni, sotto forma di testi, immagini, audio e video.

Durante l'addestramento, il modello analizza le relazioni all'interno di questi dati, il modo in cui le parole compaiono insieme nel contesto, e utilizza questa comprensione per prevedere la parola successiva più probabile durante la generazione di una risposta, una parola alla volta. Il testo può essere convertito in unità più piccole, talvolta chiamate “token”, che possono rappresentare parole intere, parti di parole o segni di punteggiatura. I token sono gli elementi costitutivi del testo che il modello elabora. Allo stesso modo, i modelli che generano altre forme di contenuto, come le immagini, apprendono gli schemi che descrivono il rapporto tra i pixel e le didascalie associate nei dati di addestramento.

Ad esempio, durante il processo di apprendimento del modello (noto come «addestramento»), al modello potrebbe essere affidata l’attività di completare una frase come: «Invece di girare a sinistra, ha girato ___.» All'inizio dell'addestramento, le risposte sono per lo più casuali. Tuttavia, man mano che il modello elabora e apprende da un grande volume di testo, diventa più abile nel riconoscere schemi e nel prevedere la parola avanti più probabile. Questo processo viene ripetuto su milioni di frasi per perfezionare la comprensione e migliorare l'accuratezza.

Poiché ci sono diversi modi plausibili per completare una frase—come «invece di girare a sinistra, ha girato a destra», «intorno» o «indietro»—c'è un elemento intrinseco di casualità nel modo in cui il modello risponde. Di conseguenza, la stessa domanda può dare risposte diverse a seconda delle query.

I modelli di apprendimento automatico consistono in grandi insiemi di numeri, noti come «pesi» o «parametri», insieme a un codice che interpreta e utilizza tali numeri. Questi modelli non memorizzano né conservano copie dei dati su cui vengono addestrati. Invece, mentre un modello apprende, i valori dei suoi parametri vengono leggermente modificati per riflettere i pattern che ha identificato. Nell'esempio precedente, il modello è passato dal prevedere parole casuali a fare previsioni più accurate, non memorizzando le frasi di addestramento, ma aggiornando i suoi parametri interni. Il modello non conserva copie delle frasi, delle immagini o dell'audio che elabora durante l'addestramento. ChatGPT non fa un «copia e incolla» dai suoi dati di addestramento, proprio come un insegnante che, dopo un ampio studio, può spiegare i concetti comprendendo le relazioni tra le idee senza memorizzare o riprodurre i materiali originali alla lettera. Quando si genera una risposta a una richiesta dell'utente, il modello utilizza questi pesi appresi per prevedere e creare nuovi contenuti.

Che tipo di informazioni vengono utilizzate per addestrare ChatGPT?

Per i contenuti Internet pubblicamente disponibili, utilizziamo solo informazioni liberamente e apertamente accessibili su Internet. Possiamo avvalerci di pagine web di pubblico dominio, forum pubblici, blog pubblici, post pubblici e altri contenuti online accessibili al pubblico. Ad esempio, se partecipi a un forum di discussione online accessibile al pubblico o pubblichi un blog pubblico o altro materiale, potremmo utilizzare tali contenuti di pubblico dominio per finalità di addestramento del modello. Nel nostro processo di addestramento, però, adottiamo una serie di misure volte a ridurre il trattamento dei dati personali. Quando acquisiamo contenuti Internet disponibili pubblicamente, non raccogliamo intenzionalmente dati provenienti da fonti notoriamente soggette a paywall né dal dark web. Inoltre, applichiamo dei filtri per rimuovere il materiale da cui non vogliamo che i nostri modelli possano apprendere, come i discorsi di incitamento all'odio, i contenuti destinati agli adulti, i siti che aggregano informazioni personali e lo spam. Per addestrare i nostri modelli vengono quindi utilizzate le informazioni restanti.

I proprietari dei siti web possono decidere se consentire o meno l'accesso ai contenuti pubblicamente disponibili dei propri siti a fini di addestramento, avvalendosi di controlli web standard come robots.txt per bloccare GPTBot, che potrebbe eseguire la scansione di contenuti pubblicamente disponibili per contribuire all’addestramento dei nostri modelli. Forniamo indicazioni per aiutare i proprietari di siti web a gestire il modo in cui i loro siti e i loro contenuti interagiscono con i nostri sistemi di IA.

Ci serviamo anche di informazioni provenienti da partner terzi per addestrare e migliorare i nostri modelli. Può trattarsi di informazioni contenute in set di dati a cui accediamo tramite accordi con terze parti, nonché di informazioni fornite o generate da addestratori umani e ricercatori, laddove consentito dalle nostre politiche e dai nostri accordi. Tutto ciò contribuisce a migliorare la qualità, la sicurezza e le prestazioni dei nostri modelli. Queste fonti possono contenere testo, immagini, audio, video o altri tipi di dati, a seconda del set di dati.

Utilizziamo inoltre sempre più dati sintetici in alcuni processi di addestramento. Ad esempio, potremmo utilizzare le informazioni e i nostri modelli per generare prompt sintetici, esempi multilingue o altri materiali di addestramento. I dati sintetici possono contribuire a migliorare le prestazioni del modello, anche integrando i dati di addestramento in aree in cui i dati sono scarsi o sbilanciati, e possono inoltre supportare approcci allo sviluppo del modello volti a migliorare la privacy.

Le informazioni personali vengono utilizzate per addestrare ChatGPT?

Una parte significativa dei contenuti online contiene informazioni sulle persone, quindi i nostri dati di addestramento possono includere incidentalmente informazioni personali. Nel nostro processo di addestramento, però, adottiamo una serie di misure volte a ridurre il trattamento dei dati personali.

Utilizziamo i dati di addestramento per sviluppare le capacità del modello, quali previsione, ragionamento e risoluzione dei problemi. Non utilizziamo questi dati per creare profili di persone, per contattarle o personalizzare gli annunci pubblicitari per loro.

In alcuni casi, i modelli possono apprendere dalle informazioni personali per comprendere come funzionano elementi come nomi e indirizzi nel linguaggio, o per riconoscere figure pubbliche ed entità ben note. Questo aiuta il modello a generare risposte più precise e contestualmente appropriate.

Come vengono protette le informazioni personali durante l'addestramento?

Adottiamo misure attive per limitare il trattamento delle informazioni personali durante l'addestramento. Ad esempio, escludiamo fonti note che aggregano grandi quantità di dati personali, applichiamo filtri per ridurre le informazioni personali nel processo di addestramento e adottiamo una serie di misure per identificare e rimuovere i contenuti duplicati, al fine di ridurre il rischio di riprodurre i dati di addestramento. Inoltre, addestriamo i nostri modelli a evitare di rispondere a richieste di informazioni private o sensibili sugli individui.

Per quanto tempo conserviamo le informazioni

Conserviamo le informazioni contenute nei dati di addestramento solo per il tempo ragionevolmente necessario alle finalità descritte in questo articolo e nella nostra Informativa sulla privacy, compresi lo sviluppo e il miglioramento dei nostri modelli e le relative finalità di ricerca scientifica. La conservazione è soggetta a revisioni periodiche per garantirne la perdurante necessità e varia in base al tipo di informazioni e al modo in cui vengono utilizzate. Nel determinare la durata della conservazione, prendiamo in considerazione fattori quali la finalità del trattamento delle informazioni, la quantità, la natura e la sensibilità delle informazioni, il potenziale rischio del danno derivante da un uso o una divulgazione non autorizzati e gli eventuali obblighi legali a cui siamo soggetti.

In che modo lo sviluppo di ChatGPT è conforme alle leggi sulla privacy?

Utilizziamo le informazioni di addestramento in modo lecito. I nostri modelli di base supportano un'ampia gamma di applicazioni utili, tra cui strumenti di accessibilità, assistenza clienti, sviluppo software, istruzione personalizzata e ricerca scientifica. Queste capacità dipendono da dati di addestramento su larga scala, incluse informazioni disponibili pubblicamente e informazioni provenienti da partner di terze parti. Applichiamo misure di salvaguardia durante l’intero processo di addestramento, comprese misure concepite per ridurre il trattamento dei dati personali nel processo di addestramento e per mitigare i rischi, come descritto in questo articolo. Fondiamo la raccolta e l’uso dei dati personali inclusi nelle informazioni di addestramento sugli interessi legittimi ai sensi delle normative sulla privacy come il GDPR, anche per addestrare e migliorare i nostri modelli a vantaggio degli utenti e della società in senso più ampio, in linea con la nostra missione di garantire che l’intelligenza artificiale generale porti benefici a tutti, come illustrato più dettagliatamente nella nostra Informativa sulla privacy. Abbiamo effettuato una valutazione dell'impatto sulla protezione dei dati per garantire che la raccolta e l'utilizzo di queste informazioni avvengano in modo lecito e responsabile.

Quando è possibile condividere o trasferire le informazioni

Noi non "vendiamo" dati personali, noi divulghiamo i dati personali contenuti nei dati di addestramento solo nelle specifiche circostanze descritte nella nostra Informativa sulla privacy. Ad esempio, potremmo condividere le informazioni con società affiliate, fornitori e prestatori di servizi che sostengono lo sviluppo, il collaudo e il miglioramento dei nostri modelli. Potremmo inoltre divulgare le informazioni se riteniamo in buona fede che tale azione sia necessaria per adempiere a un obbligo legale o per proteggere i nostri diritti, la nostra sicurezza e quella dei nostri utenti, dei nostri dipendenti o del pubblico, come descritto nella Informativa sulla privacy.

Poiché la nostra infrastruttura è globale, le informazioni personali contenute nei dati di addestramento possono essere trattate in Paesi al di fuori del SEE, della Svizzera o del Regno Unito (inclusi gli Stati Uniti). Laddove ciò avvenga, adottiamo opportune tutele, quali decisioni di adeguatezza o clausole contrattuali standard, come descritto nella nostra Informativa sulla privacy.

Diritti dell'utente e modalità di esercizio

Rispondiamo alle richieste di opposizione e a quelle relative a diritti analoghi. In seguito all’apprendimento linguistico, le risposte di ChatGPT possono talvolta includere informazioni personali riguardanti persone i cui dati personali compaiono più volte sulla rete Internet pubblica (ad esempio, i personaggi pubblici). In determinate giurisdizioni le persone possono opporsi al trattamento delle proprie informazioni personali da parte dei nostri modelli o presentare altre richieste relative ai diritti degli interessati tramite il nostro Portale della privacy. Inoltre, è possibile esercitare questi diritti rivolgendosi a privacy@openai.com.

Per aiutarci a valutare e rispondere alla tua richiesta, ti invitiamo a fornire informazioni sufficienti per consentirci di comprendere a quali dati personali si riferisce la richiesta, ad esempio indicando il nome, URL pertinenti, esempi specifici di output del modello o altri dettagli che consentano di identificare il problema. In alcuni casi, potremmo chiederti di verificare la tua identità o di confermare che le informazioni ti riguardano prima di poter intervenire. Maggiori informazioni su come inviare queste richieste, sul modo in cui vengono esaminate, nonché sulle buone prassi, sono disponibili nel nostro articolo del Centro assistenza riguardante la rimozione dei dati personali da ChatGPT. Esaminiamo le richieste in conformità alle leggi vigenti sulla privacy e rispondiamo entro i termini di legge applicabili.

Tieni presente che, in conformità alle leggi sulla privacy, alcuni diritti potrebbero non essere assoluti. Ad esempio, potremmo non essere in grado di soddisfare una richiesta qualora non riuscissimo a verificare le informazioni pertinenti, qualora la richiesta non riguardasse informazioni personali trattate da OpenAI, qualora si applicasse un’esenzione o qualora avessimo un altro motivo legittimo per non farlo. Le richieste vengono valutate caso per caso e possono comportare un bilanciamento tra i diritti alla privacy e altre considerazioni importanti, come la libertà di espressione e l’interesse pubblico.

Tuttavia, ci impegniamo a dare priorità alla protezione dei dati personali e a rispettare tutte le leggi vigenti in materia di privacy. Se ritieni che non abbiamo affrontato adeguatamente un problema, hai il diritto di presentare un reclamo all'autorità di controllo locale.

Per ulteriori informazioni sulle pratiche di OpenAI relative ai dati personali che raccogliamo da te o che ti riguardano quando utilizzi il nostro sito web, le applicazioni e i servizi, consulta la nostra Informativa sulla privacy.

Come vengono sviluppati ChatGPT e i nostri modelli fondamentali

Che cos'è ChatGPT e come funziona?

Che tipo di informazioni vengono utilizzate per addestrare ChatGPT?

Le informazioni personali vengono utilizzate per addestrare ChatGPT?

In che modo lo sviluppo di ChatGPT è conforme alle leggi sulla privacy?

Questo articolo è stato utile?