I modelli di fondazione di OpenAI, compresi quelli che alimentano ChatGPT, sono sviluppati utilizzando tre fonti primarie di informazioni: (1) informazioni pubblicamente disponibili su internet, (2) informazioni alle quali accediamo sulla base di una partnership con terzi e (3) informazioni fornite o generate dai nostri utenti o dai nostri addestratori e ricercatori.
Questo articolo offre una panoramica delle informazioni pubblicamente disponibili che utilizziamo per sviluppare questi modelli e di come raccogliamo e utilizziamo tali informazioni nel rispetto delle leggi sulla privacy. Per comprendere come raccogliamo e utilizziamo le informazioni degli utenti dei nostri servizi, compreso come opporsi all'utilizzo delle conversazioni di ChatGPT per l'addestramento dei nostri modelli, è possibile consultare la nostra Informativa sulla privacy e questo articolo del centro assistenza.
Cos'è ChatGPT e come funziona?
ChatGPT è un servizio basato sull'intelligenza artificiale a cui si può accedere tramite internet. Può essere utilizzato per svolgere molteplici attività, per esempio organizzare o riassumere informazioni, fornire aiuto con le traduzioni, analizzare o generare un'immagine, ispirare la creatività e stimolare idee, nonché fornire assistenza nelle attività quotidiane. ChatGPT è stato sviluppato in modo da comprendere e rispondere alle domande e alle istruzioni degli utenti. A tal fine, esamina una grande quantità di informazioni esistenti, come testi, immagini, audio o video, e impara dalle relazioni presenti nelle informazioni. I modelli imparano ad esempio come le parole tendono a comparire in un contesto con altre parole e utilizzano quindi quanto appreso per prevedere la parola successiva più probabile che potrebbe apparire in risposta a una richiesta dell'utente, e ogni parola successiva. Questi modelli possono anche imparare a generare altre forme di informazioni, come le immagini, apprendendo in che modo i pixel che compongono le immagini dei dati di addestramento si relazionano tra loro e con le didascalie che le descrivono.
Ad esempio, durante il processo di apprendimento del modello (chiamato "addestramento"), potremmo chiedere al modello di completare la frase: "invece di girare a sinistra, ha girato ___". Prima dell'addestramento, il modello risponde con parole casuali, ma leggendo e imparando da molte righe di testo, capisce meglio questo tipo di frase e può prevedere con maggiore precisione la parola successiva. Poi ripete questo processo su un numero molto elevato di frasi.
Poiché in questa frase ci sono molte parole possibili (ad esempio, invece di girare a sinistra, ha girato "a destra", "intorno" o "indietro"), c’è un elemento di casualità nel modo in cui un modello può rispondere e in molti casi i nostri modelli risponderanno alla stessa domanda in modi diversi.
I modelli di apprendimento automatico sono costituiti da grandi stringhe di numeri, chiamati "pesi" o "parametri", e da un codice che interpreta ed esegue questi numeri. I modelli non contengono o memorizzano copie delle informazioni da cui apprendono. Invece, quando un modello impara, alcuni dei numeri che lo compongono cambiano leggermente per riflettere ciò che ha imparato. Nell'esempio di cui sopra, il modello ha esaminato una serie di informazioni; queste informazioni gli hanno consentito di migliorare e passare dalla previsione di parole sbagliate e casuali, alla previsione di parole più accurate ma ciò che si è effettivamente verificato all'interno del modello è semplicemente un leggero mutamento dei numeri di cui si compone. Il modello non ha memorizzato o copiato le frasi, le immagini o l'audio che ha esaminato.
Che tipo di informazioni vengono utilizzate per addestrare ChatGPT?
Come già detto, ChatGPT e gli altri nostri servizi sono sviluppati utilizzando (1) informazioni pubblicamente disponibili su internet, (2) informazioni alle quali accediamo sulla base di una partnership con terzi e (3) informazioni fornite o generate dai nostri utenti o dai nostri addestratori e ricercatori. Questo articolo si concentra sulla prima categoria menzionata: le informazioni pubblicamente disponibili su internet.
Per questa categoria di informazioni, utilizziamo solo quelle disponibili pubblicamente e liberamente su internet. Ad esempio, non cerchiamo informazioni in siti che sappiamo essere protetti da un paywall o che si trovano nel "dark web". Applichiamo dei filtri e rimuoviamo le informazioni che non vogliamo che i nostri modelli imparino o producano, come ad esempio discorsi d’odio, i contenuti per adulti, i siti che aggregano principalmente informazioni personali e lo spam. Utilizziamo quindi tali informazioni per addestrare i nostri modelli.
Come accennato nella sezione precedente, ChatGPT non copia né memorizza le informazioni per l’addestramento in un database. Al contrario, apprende le associazioni tra parole e concetti e tali apprendimenti aiutano il modello ad aggiornare i suoi numeri/pesi. Il modello utilizza poi questi pesi per prevedere e generare nuovi contenuti in risposta a una richiesta dell'utente. Non "copia e incolla" le informazioni di addestramento: proprio come un insegnante che ha imparato da tutto quello che ha studiato in precedenza è in grado di spiegare le cose perché ha appreso le relazioni tra i concetti, e non perché memorizza nella sua testa copie del materiale utilizzato.
Sono utilizzate informazioni personali per addestrare ChatGPT?
Una grande quantità di dati su internet riguarda le persone, pertanto le nostre informazioni di addestramento possono includere incidentalmente anche informazioni personali. Nonostante ciò, non cerchiamo attivamente informazioni personali per addestrare i nostri modelli.
Utilizziamo le informazioni sull’addestramento solo per formare l'intelligenza dei nostri modelli, ad esempio la capacità di prevedere, ragionare e risolvere problemi. Non usiamo né useremo le informazioni personali contenute nelle informazioni di addestramento per creare profili sulle persone, per contattarle, per inviare loro pubblicità, per cercare di vendere loro qualcosa o vendere le informazioni stesse.
Le informazioni personali possono essere utili per l’addestramento dei nostri modelli, in particolare per capire come i nomi e gli indirizzi si inseriscono nel linguaggio e nelle frasi, o per imparare a conoscere cose su persone famose e personaggi pubblici. Grazie a tale processo, i nostri modelli sono in grado di fornire risposte più pertinenti.
Inoltre, adottiamo misure per ridurre il trattamento delle informazioni personali durante l'addestramento dei nostri modelli. Ad esempio, rimuoviamo i siti web che aggregano grandi volumi di informazioni personali e addestriamo i nostri modelli affinché rifiutino le richieste di informazioni private o sensibili sulle persone.
In che modo lo sviluppo di ChatGPT rispetta le leggi sulla privacy?
Utilizziamo le informazioni di addestramento in modo lecito. I nostri modelli di fondazione hanno molti usi che offrono vantaggi significativi e stanno già aiutando le persone a creare contenuti, migliorare il servizio clienti, sviluppare software, personalizzare l'istruzione, supportare la ricerca scientifica e molto altro ancora. Questi vantaggi non possono essere realizzati senza una grande quantità di informazioni per l'addestramento dei modelli. Inoltre, il nostro uso delle informazioni sull’addestramento non intende avere un impatto negativo sulle persone e le fonti principali di queste informazioni sono già disponibili pubblicamente. Per questi motivi, basiamo la raccolta e l'utilizzo delle informazioni personali incluse nelle informazioni sull’addestramento sull'interesse legittimo, ai sensi delle leggi sulla privacy quale il GDPR, come spiegato in maggiore dettaglio nella nostra Informativa sulla privacy. Abbiamo anche svolto una valutazione d'impatto sulla protezione dei dati per garantire che stiamo raccogliendo e utilizzando queste informazioni in modo legittimo e responsabile.
Rispondiamo alle richieste di opposizione e di esercizio di diritti simili. Come conseguenza del processo di apprendimento linguistico, le risposte di ChatGPT possono talvolta includere informazioni personali su persone fisiche le cui informazioni personali appaiono più volte su internet (ad esempio, personaggi pubblici). In alcune giurisdizioni, le persone fisiche possono opporsi al trattamento delle loro informazioni personali da parte dei nostri modelli o presentare altre richieste per l'esercizio dei diritti dell'interessato tramite il nostro Portale sulla privacy. È inoltre possibile esercitare tali diritti contattandoci all'indirizzo email dsar@openai.com.
Si tenga presente che, in conformità alle leggi sulla privacy, alcuni diritti potrebbero non avere un carattere assoluto. Possiamo rifiutare di dare seguito a una richiesta se abbiamo un motivo legittimo per farlo. Tuttavia, ci impegniamo a dare priorità alla protezione dei dati personali e a rispettare tutte le leggi sulla privacy applicabili. Se si ritiene che non abbiamo affrontato adeguatamente un problema, avete il diritto di presentare un reclamo all'autorità di controllo locale.
Per ulteriori informazioni sulle pratiche di OpenAI in relazione alle informazioni personali che raccoglie dagli utenti o sugli utenti quando utilizzano il nostro sito web, le applicazioni e i servizi, è possibile consultare la nostra Informativa sulla privacy.