| Nota : La conservazione dei dati per alcuni servizi potrebbe essere influenzata da recenti sviluppi legali: per maggiori dettagli, consulta il nostro post sul blog. |
|---|
I modelli di base di OpenAI, inclusi quelli che alimentano ChatGPT, sono sviluppati utilizzando tre fonti principali di informazioni: (1) informazioni disponibili pubblicamente su Internet, (2) informazioni a cui accediamo tramite partnership con terzi, e (3) informazioni che i nostri utenti, formatori umani e ricercatori forniscono o generano.
Questo articolo offre un sommario delle informazioni pubblicamente disponibili che utilizziamo per sviluppare questi modelli e su come raccogliamo e utilizziamo tali informazioni nel rispetto delle leggi sulla privacy. Per capire come raccogliamo e utilizziamo le informazioni degli utenti dei nostri servizi, incluso come rinunciare all'uso delle conversazioni di ChatGPT per l'addestramento dei nostri modelli, consulta la nostra Informativa sulla privacy e questo articolo del centro assistenza.
Che cos'è ChatGPT e come funziona?
ChatGPT è un servizio basato sull'intelligenza artificiale a cui puoi accedere tramite internet. Puoi usare ChatGPT per una vasta gamma di attività, tra cui organizzare e riassumere informazioni, assistere con le traduzioni, analizzare o generare immagini, ispirare creatività e idee, e altre attività quotidiane. ChatGPT è progettato per comprendere e rispondere alle domande e alle istruzioni degli utenti apprendendo schemi da grandi quantità di informazioni, inclusi testo, immagini, audio e video. Durante l'addestramento, il modello analizza le relazioni all'interno di questi dati, come il modo in cui le parole appaiono tipicamente insieme nel contesto, e utilizza questa comprensione per prevedere la parola successiva più probabile quando genera una risposta, una parola alla volta. Allo stesso modo, i modelli che generano altre forme di contenuto, come le immagini, apprendono i modelli su come i pixel si relazionano tra loro e con le didascalie associate nei dati di addestramento.
Ad esempio, durante il processo di apprendimento del modello (noto come «addestramento»), al modello potrebbe essere affidata l’attività di completare una frase come: «Invece di girare a sinistra, ha girato ___.» All'inizio dell'addestramento, le risposte sono per lo più casuali. Tuttavia, man mano che il modello elabora e apprende da un grande volume di testo, diventa più abile nel riconoscere schemi e nel prevedere la parola avanti più probabile. Questo processo viene ripetuto su milioni di frasi per perfezionare la comprensione e migliorare l'accuratezza.
Poiché ci sono diversi modi plausibili per completare una frase—come «invece di girare a sinistra, ha girato a destra», «intorno» o «indietro»—c'è un elemento intrinseco di casualità nel modo in cui il modello risponde. Di conseguenza, la stessa domanda può dare risposte diverse a seconda delle query.
I modelli di apprendimento automatico consistono in grandi insiemi di numeri, noti come «pesi» o «parametri», insieme a un codice che interpreta e utilizza tali numeri. Questi modelli non memorizzano né conservano copie dei dati su cui vengono addestrati. Invece, mentre un modello apprende, i valori dei suoi parametri vengono leggermente modificati per riflettere i pattern che ha identificato. Nell'esempio precedente, il modello è passato dal prevedere parole casuali a fare previsioni più accurate, non memorizzando le frasi di addestramento, ma aggiornando i suoi parametri interni. Il modello non conserva copie delle frasi, delle immagini o dell'audio che elabora durante l'addestramento. ChatGPT non fa un «copia e incolla» dai suoi dati di addestramento, proprio come un insegnante che, dopo un ampio studio, può spiegare i concetti comprendendo le relazioni tra le idee senza memorizzare o riprodurre i materiali originali alla lettera. Quando si genera una risposta a una richiesta dell'utente, il modello utilizza questi pesi appresi per prevedere e creare nuovi contenuti.
Che tipo di informazioni pubbliche vengono usate per addestrare ChatGPT?
Per i contenuti internet disponibili pubblicamente, utilizziamo solo informazioni liberamente e apertamente accessibili su internet. Non raccogliamo intenzionalmente dati da fonti note per essere protette da paywall o dal dark web. Inoltre, applichiamo filtri per rimuovere il materiale da cui non vogliamo che i nostri modelli apprendano, come discorsi di odio, contenuti per adulti, siti che aggregano dati personali e spam. Le informazioni rimanenti vengono quindi utilizzate per addestrare i nostri modelli.
Le informazioni personali vengono utilizzate per addestrare ChatGPT?
Una parte significativa dei contenuti online riguarda informazioni sulle persone, quindi i nostri dati di addestramento potrebbero includere incidentalmente informazioni personali. Tuttavia, non raccogliamo intenzionalmente dati personali per l'addestramento dei nostri modelli.
Utilizziamo i dati di addestramento per sviluppare le capacità del modello, come la previsione, il ragionamento e la risoluzione dei problemi. Non utilizziamo questi dati per creare profili utente, contattare persone o per le nostre attività pubblicitarie o di marketing.
In alcuni casi, i modelli possono apprendere dalle informazioni personali per comprendere come funzionano elementi come nomi e indirizzi nel linguaggio, o per riconoscere figure pubbliche ed entità ben note. Questo aiuta il modello a generare risposte più precise e contestualmente appropriate.
Adottiamo misure attive per limitare il trattamento delle informazioni personali durante l'addestramento. Ad esempio, escludiamo le fonti che aggregano grandi quantità di dati personali e addestriamo i nostri modelli a evitare di rispondere a richieste di informazioni private o sensibili sulle persone.
In che modo lo sviluppo di ChatGPT è conforme alle leggi sulla privacy?
Utilizziamo le informazioni di addestramento in modo legale. I nostri modelli di base alimentano una vasta gamma di applicazioni vantaggiose—dalla creazione di contenuti e assistenza clienti allo sviluppo di software, all'istruzione personalizzata e alla ricerca scientifica. Queste capacità dipendono dalla formazione su larga scala. Le informazioni utilizzate per addestrare i nostri modelli sono disponibili pubblicamente e non sono destinate a causare danni alle persone. Basiamo la raccolta e l'uso delle informazioni personali incluse nei dati di addestramento su interessi legittimi ai sensi delle leggi sulla privacy come il GDPR, come spiegato in dettaglio nella nostra Informativa sulla privacy. Abbiamo completato una valutazione d'impatto sulla protezione dei dati per garantire che raccogliamo e utilizziamo queste informazioni in modo legale e responsabile.
Rispondiamo alle richieste di opposizione e diritti simili. A seguito dell'apprendimento linguistico, le risposte di ChatGPT possono talvolta includere informazioni personali su individui le cui informazioni personali appaiono più volte su internet pubblico (ad esempio, figure pubbliche). In alcune giurisdizioni, gli individui possono opporsi al trattamento delle loro informazioni personali da parte dei nostri modelli o presentare altre richieste relative ai diritti degli interessati tramite il nostro Portale della Privacy. Puoi anche esercitare questi diritti contattando dsar@openai.com.
Si prega di notare che, in conformità con le leggi sulla privacy, alcuni diritti potrebbero non essere assoluti. Possiamo rifiutare una richiesta se abbiamo un Avvia il ragionamento legittimo per farlo. Tuttavia, ci impegniamo a dare priorità alla protezione delle informazioni personali e a rispettare tutte le leggi sulla privacy applicabili. Se ritieni che non abbiamo affrontato adeguatamente un problema, hai il diritto di presentare un reclamo alla tua autorità di controllo locale.
Per maggiori informazioni sulle pratiche di OpenAI riguardo ai dati personali che raccogliamo da o su di te quando utilizzi il nostro sito web, le applicazioni e i servizi, consulta la nostra Informativa sulla privacy.
