OpenAI

Come vengono sviluppati ChatGPT e i nostri modelli fondamentali

Scopri di più su come sviluppiamo i nostri modelli e li applichiamo in prodotti come ChatGPT

Aggiornato: 17 hours ago

Nota: la conservazione dei dati per alcuni servizi può essere influenzata da recenti sviluppi normativi. Per maggiori dettagli, consulta il nostro post sul blog.

I modelli di base di OpenAI, inclusi quelli che alimentano ChatGPT, vengono sviluppati utilizzando tre principali fonti di informazioni: (1) informazioni pubblicamente disponibili su Internet, (2) informazioni a cui accediamo tramite partnership con terze parti e (3) informazioni fornite o generate dai nostri utenti, dagli addestratori umani e dai ricercatori.

Questo articolo fornisce una panoramica delle informazioni pubblicamente disponibili che utilizziamo per contribuire allo sviluppo di questi modelli e di come raccogliamo e utilizziamo tali informazioni in conformità alle leggi sulla privacy. Per capire come raccogliamo e utilizziamo le informazioni degli utenti dei nostri servizi, incluse le modalità per rifiutare che le conversazioni ChatGPT vengano utilizzate per contribuire ad addestrare i nostri modelli, consulta la nostra Informativa sulla privacy e questo articolo del Centro assistenza.

Che cos'è ChatGPT e come funziona?

ChatGPT è un servizio basato sull'intelligenza artificiale a cui puoi accedere tramite Internet. Puoi utilizzare ChatGPT per una vasta gamma di attività, tra cui organizzare e riassumere informazioni, ricevere assistenza con le traduzioni, analizzare o generare immagini, stimolare la creatività e le idee e svolgere altre attività quotidiane. ChatGPT è stato progettato per comprendere e rispondere alle domande e istruzioni degli utenti, apprendendo schemi da grandi quantità di informazioni, tra cui testo, immagini, audio e video. Durante l'addestramento, il modello analizza le relazioni all'interno di questi dati, come il modo in cui le parole compaiono insieme nel contesto, e utilizza questa comprensione per prevedere la parola successiva più probabile durante la generazione di una risposta, una parola alla volta. Analogamente, i modelli che generano altre forme di contenuto, come immagini, apprendono schemi nel modo in cui i pixel si relazionano tra loro e con le didascalie associate nei dati di addestramento.

Ad esempio, durante il processo di apprendimento del modello (noto come “addestramento”), al modello potrebbe essere assegnato il compito di completare una frase come: “Instead of turning left, she turned ___”. All'inizio dell'addestramento, le sue risposte sono in gran parte casuali. Tuttavia, man mano che il modello elabora e apprende da un grande volume di testo, diventa più efficace nel riconoscere schemi e nel prevedere la parola successiva più probabile. Questo processo viene ripetuto su milioni di frasi per perfezionarne la comprensione e migliorarne l'accuratezza.

Poiché esistono più modi plausibili per completare una frase, come “Instead of turning left, she turned right”, “around” o “back”, vi è un elemento intrinseco di casualità nel modo in cui il modello risponde. Di conseguenza, la stessa domanda può generare risposte diverse in query differenti.

I modelli di machine learning sono costituiti da grandi insiemi di numeri, noti come “pesi” o “parametri”, insieme al codice che interpreta e utilizza tali numeri. Questi modelli non memorizzano né conservano copie dei dati su cui vengono addestrati. Invece, mentre un modello apprende, i valori dei suoi parametri vengono leggermente modificati per riflettere i modelli che ha identificato. Nell'esempio precedente, il modello è passato dal prevedere parole casuali al formulare previsioni più accurate, non memorizzando le frasi di addestramento ma aggiornando i suoi parametri interni. Il modello non conserva copie delle frasi, delle immagini o dell'audio che elabora durante l'addestramento. ChatGPT non fa “copia e incolla” dai suoi dati di addestramento: analogamente a un insegnante che, dopo uno studio approfondito, può spiegare concetti comprendendo le relazioni tra le idee senza memorizzare o riprodurre alla lettera i materiali originali. Quando genera una risposta a una richiesta dell'utente, il modello utilizza questi pesi appresi per prevedere e creare nuovi contenuti.

Che tipo di informazioni pubbliche vengono utilizzate per addestrare ChatGPT?

Per i contenuti Internet pubblicamente disponibili, utilizziamo solo informazioni liberamente e apertamente accessibili su Internet. Non raccogliamo intenzionalmente dati da fonti notoriamente soggette a paywall né dal dark web. Inoltre, applichiamo filtri per rimuovere il materiale da cui non vogliamo che i nostri modelli apprendano, come ad esempio i discorsi di odio, i contenuti destinati agli adulti, i siti che aggregano informazioni personali e lo spam. Le informazioni restanti vengono quindi utilizzate per addestrare i nostri modelli.

Le informazioni personali vengono utilizzate per addestrare ChatGPT?

Una parte significativa dei contenuti online contiene informazioni sulle persone, quindi i nostri dati di addestramento possono includere incidentalmente informazioni personali. Tuttavia, non raccogliamo intenzionalmente informazioni personali allo scopo di addestrare i nostri modelli.

Utilizziamo i dati di addestramento per sviluppare le capacità del modello, come la previsione, il ragionamento e la risoluzione dei problemi. Non utilizziamo questi dati per creare profili utente, contattare persone o per le nostre attività pubblicitarie o di marketing.

In alcuni casi, i modelli possono apprendere dalle informazioni personali per comprendere come elementi quali nomi e indirizzi funzionano nel linguaggio, oppure per riconoscere personaggi pubblici ed entità note. Questo aiuta il modello a generare risposte più precise e contestualmente appropriate.

Adottiamo misure attive per limitare il trattamento delle informazioni personali durante l'addestramento. Ad esempio, escludiamo le fonti che aggregano grandi quantità di dati personali e addestriamo i nostri modelli a evitare di rispondere a richieste di informazioni private o sensibili sugli individui.

In che modo lo sviluppo di ChatGPT è conforme alle leggi sulla privacy?

Utilizziamo i dati di addestramento in modo lecito. I nostri modelli di base supportano un'ampia gamma di applicazioni utili, dalla creazione di contenuti e l’assistenza clienti allo sviluppo software, fino all’istruzione personalizzata e alla ricerca scientifica. Queste capacità dipendono da dati di addestramento su larga scala. Le informazioni utilizzate per addestrare i nostri modelli sono pubblicamente disponibili e non hanno lo scopo di arrecare danno alle persone. La raccolta e l’utilizzo dei dati personali presenti nei dati di addestramento si basano su un legittimo interesse ai sensi del GDPR e altre normative sulla privacy, come riportato nella nostra Informativa sulla privacy. Abbiamo completato una valutazione d'impatto sulla protezione dei dati per contribuire a garantire che la raccolta e l’utilizzo di queste informazioni avvengano in modo legale e responsabile.


Rispondiamo alle richieste di opposizione e a quelle relative a diritti analoghi. In seguito all’apprendimento linguistico, le risposte di ChatGPT possono talvolta includere informazioni personali su individui i cui dati personali compaiono più volte sul web pubblico (ad esempio, personaggi pubblici). Le persone in alcune giurisdizioni possono opporsi al trattamento dei propri dati personali da parte dei nostri modelli o esercitare altri diritti degli interessati tramite il nostro Portale della privacy. Puoi inoltre esercitare questi diritti contattando dsar@openai.com.

Tieni presente che, in conformità alle leggi sulla privacy, alcuni diritti potrebbero non essere assoluti. Potremmo rifiutare una richiesta se abbiamo un motivo legittimo per farlo. Tuttavia, ci impegniamo a dare priorità alla protezione dei dati personali e a rispettare tutte le leggi vigenti in materia di privacy. Se ritieni che non abbiamo affrontato adeguatamente un problema, puoi presentare un reclamo alla tua autorità di controllo locale.


Per ulteriori informazioni sulle pratiche di OpenAI relative ai dati personali che raccogliamo da te o che ti riguardano quando utilizzi il nostro sito web, le applicazioni e i servizi, consulta la nostra Informativa sulla privacy.

Questo articolo è stato utile?