Πιστεύουμε στην υπεύθυνη, επαναληπτική ανάπτυξη και διάθεση ως μέσο για την επίτευξη ασφαλούς τεχνητής γενικής νοημοσύνης. Πραγματοποιούμε σημαντικό όγκο δοκιμών και μετριασμού ως προς την ασφάλεια και την ευθυγράμμιση πριν διαθέσουμε οποιοδήποτε μοντέλο στο κοινό, ενώ διαθέτουμε επίσης αυτοματοποιημένα και ανθρώπινα συστήματα για να βοηθούν στον εντοπισμό προβληματικού περιεχομένου που εμφανίζεται στις υπηρεσίες μας για ιδιώτες, όπως το ChatGPT και τα GPTs. Παραθέτουμε ορισμένες από αυτές τις προσπάθειες παρακάτω.

ChatGPT και ImageGen

Χρησιμοποιούμε αυτοματοποιημένα εργαλεία, όπως μια εσωτερική έκδοση του /moderations API μας, για να εντοπίζουμε περιεχόμενο (προτροπές, ολοκληρώσεις, μεταφορτώσεις) που μπορεί να είναι επιβλαβές ή να παραβιάζει τις Πολιτικές χρήσης μας. Αν εντοπίσουμε προβληματικό περιεχόμενο, συνήθως είτε θα σας προειδοποιήσουμε ότι το περιεχόμενό σας μπορεί να παραβιάζει τις πολιτικές χρήσης μας είτε θα εμποδίσουμε το μοντέλο να απαντήσει στην προτροπή σας. Ενδέχεται επίσης να αποτρέψουμε την κοινοποίηση της συνομιλίας με την προβληματική προτροπή ή ολοκλήρωση. Σε πολύ περιορισμένες περιπτώσεις, ενδέχεται επίσης να αποκλείσουμε τον λογαριασμό σας για κατάφωρη συμπεριφορά.

Δεχόμαστε επίσης αναφορές από ανθρώπους για προβληματικό περιεχόμενο στο ChatGPT. Χρησιμοποιούμε έναν συνδυασμό αυτοματοποιημένων συστημάτων και μιας εκπαιδευμένης ομάδας ειδικών για να εξετάζουμε αυτές τις αναφορές.

ChatGPT: Αν κάποιος κοινοποιήσει μια συνομιλία που πιστεύετε ότι περιέχει προβληματικό περιεχόμενο, μπορείτε επίσης να μας την αναφέρετε.

Για περισσότερες λεπτομέρειες σχετικά με το πώς να αναφέρετε περιεχόμενο απευθείας στο ChatGPT, δείτε αυτό το άρθρο.

GPTs

Χρησιμοποιούμε επίσης αυτοματοποιημένα εργαλεία, όπως το /moderation API μας, για να διαπιστώνουμε αν ένα GPT είναι δυνητικά προβληματικό. Αν εντοπίσουμε προβληματικό περιεχόμενο που σχετίζεται με το GPT, θα λάβουμε μέτρα, όπως το να αποτρέψουμε τη διανομή του. Ο δημιουργός μπορεί να επεξεργαστεί τη διαμόρφωση του GPT ή του API για να αφαιρέσει το προβληματικό περιεχόμενο ή μπορεί να ασκήσει ένσταση κατά της απόφασης μέσω μιας ροής εντός προϊόντος. Σε πολύ περιορισμένες περιπτώσεις, ενδέχεται επίσης να αποκλείσουμε τον λογαριασμό του δημιουργού για κατάφωρη συμπεριφορά.

Δεχόμαστε επίσης αναφορές από ανθρώπους για προβληματικά GPTs. Αν δείτε ένα GPT που πιστεύετε ότι παραβιάζει τις πολιτικές χρήσης μας ή αντικατοπτρίζει με άλλον τρόπο προβληματικό περιεχόμενο, μπορείτε επίσης να μας το αναφέρετε. Χρησιμοποιούμε έναν συνδυασμό αυτοματοποιημένων συστημάτων και μιας εκπαιδευμένης ομάδας ειδικών για να εξετάζουμε αυτές τις αναφορές.

Πώς εντοπίζουμε προβληματικό περιεχόμενο στις υπηρεσίες μας για ιδιώτες

ChatGPT και ImageGen

GPTs

Σας βοήθησε αυτό το άρθρο;