OpenAI
Halaman ini diterjemahkan oleh mesin. Lihat artikel asli dalam bahasa Inggris.

Mengoptimalkan Unggahan File di ChatGPT Enterprise

Pahami bagaimana fitur ChatGPT Enterprise menangani file berdasarkan jenis, jumlah, dan ukurannya. Tingkatkan output sesuai persyaratan file.

Diperbarui: 13 days ago

ChatGPT Enterprise kini mendukung pembacaan dan pemahaman visual (gambar, grafik, diagram, dll.) yang disematkan di dalam file PDF yang disertakan dalam prompt. Pengguna dapat mengunggah PDF, dan ChatGPT dapat menafsirkan teks dan elemen visual apa pun di dalam file tersebut.

Untuk detailnya lihat FAQ Pengambilan Visual dengan PDF.

ChatGPT Enterprise memungkinkan Anda mengunggah file dengan beberapa cara:

Panduan ini menjelaskan bagaimana fitur ChatGPT Enterprise menangani file berdasarkan jenis, jumlah, dan ukurannya, serta membahas strategi untuk meningkatkan output sesuai persyaratan file.

Ringkasan

ChatGPT Enterprise memperlakukan berbagai jenis file dengan sangat berbeda: mengekstrak teks dari dokumen teks seperti PDF, Presentasi, dan file Word, menganalisis data terstruktur dari spreadsheet menggunakan kode Python, serta mendeskripsikan file gambar melalui GPT-Vision. Memahami jenis file mana yang memicu alur kerja tertentu adalah kunci untuk mendapatkan hasil yang diharapkan.

Untuk dokumen berbasis teks, ChatGPT Enterprise menyertakan sebanyak mungkin teks relevan langsung bersama prompt, dan menggunakan sistem pencarian untuk mengakses informasi tambahan. Ini efektif untuk menjawab pertanyaan spesifik. Namun, pendekatan ini dapat kesulitan untuk tugas kompleks seperti merangkum dokumen yang sangat besar atau membandingkan beberapa file besar. Lanjutkan membaca untuk memahami strategi meningkatkan hasil Anda.

Menangani file berdasarkan jenis

ChatGPT Enterprise memproses file dengan tiga cara utama: ekstraksi teks, analisis kode, dan interpretasi gambar. Jenis file menentukan alur kerja mana yang diikuti ChatGPT Enterprise.

Pengambilan Berbasis TeksCode InterpreterPemrosesan GambarPengambilan Visual
Contoh Jenis Filepptx, docx, txt, md, json, xml, pdf*
* PDF yang diunggah sebagai

Pengetahuan GPT
atau

File Proyek
csv, xls, xlsx*
*Catatan: Code Interpreter dapat beroperasi pada jenis file apa pun, tetapi ChatGPT Enterprise paling sering secara default menggunakan CI untuk spreadsheet
jpg, pngpdf*
* PDF yang disertakan dalam prompt pengguna
PerilakuMengekstrak teks dari file – sebagian teks ditempel (“di-stuff”) langsung ke jendela konteks; sebagian teks disimpan untuk pencarianCode Interpreter meneruskan file ke Python untuk diprosesGambar diinterpretasikan secara native oleh model multimodal, dengan mempertimbangkan

batasan yang diketahui
.
Gabungan antara pengambilan teks dan pemrosesan gambar. Teks diekstrak secara digital, dan konten visual diinterpretasikan secara native oleh model multimodal.

Untuk file teks saja, file gambar, atau file data terstruktur yang jelas (misalnya, tabel transaksi Excel), pembagian ini merepresentasikan perilaku terbaik yang mungkin.

Ada beberapa area abu-abu yang kurang jelas, misalnya:

  • Gambar yang disematkan dalam file selain PDF tidak diproses. Untuk menyertakannya, konversikan file menjadi PDF sebelum mengunggah.

  • ChatGPT Enterprise akan selalu menggunakan Code Interpreter untuk berinteraksi dengan spreadsheet, meskipun dokumennya berisi banyak teks. Misalnya, jika Anda meminta ChatGPT Enterprise menerjemahkan file CSV dengan 10 baris teks, sistem akan mencoba menerjemahkannya menggunakan library Python, yang kurang akurat dibanding membiarkan model menghasilkan terjemahan secara langsung. Untuk mengatasinya, coba ekspor spreadsheet ke format berbasis teks (misalnya PDF).

  • Demikian pula, jika Anda mengunggah tabel transaksi terstruktur yang isinya berada dalam file JSON, ChatGPT Enterprise akan menafsirkan file ini sebagai teks biasa. Jika Anda ingin menganalisis data yang ada dalam file JSON, instruksikan model untuk menggunakan Code Interpreter di prompt Anda.

Menangani file berdasarkan ukuran

ChatGPT Enterprise menggunakan model dengan jendela konteks maksimum 128k token (kira-kira 200 halaman teks). Namun, tidak semua token digunakan untuk memasukkan teks dari file yang diunggah. Jumlah token yang “di-stuff” bervariasi tergantung jenis penggunaan.

ChatGPT Enterprise “men-stuff” sejumlah teks, dan sisa teksnya dikirim ke indeks pencarian privat (sebuah "vector store", yaitu jenis basis data yang dirancang untuk menyimpan dan mengambil teks dalam jumlah besar secara efisien). Saat Anda mengajukan pertanyaan, ChatGPT Enterprise memasukkan teks yang disertakan beserta potongan relevan yang diambil dari indeks pencarian privat.

Jika Anda mengunggah satu dokumen, ChatGPT Enterprise menyertakan teks mulai dari awal hingga mencapai batasnya. Jika Anda mengunggah beberapa dokumen, ChatGPT Enterprise menyertakan sebagian atau seluruh isi tiap dokumen. Seluruh teks dari dokumen juga dikirim ke indeks pencarian privat.

Context stuffing untuk dokumen teks

Fitur ini sedang dalam pengembangan aktif. Karena itu, detail berikut dapat berubah sewaktu-waktu tanpa pemberitahuan.

ChatGPT Enterprise dapat memproses hingga 110k token dari dokumen yang diunggah di dalam jendela konteks. Jika Anda mengunggah satu atau lebih dokumen dengan total gabungan kurang dari 110k token, seluruh kontennya akan disertakan.

Untuk satu dokumen yang melebihi 110k token, hanya 110k token pertama yang akan disertakan, mulai dari awal. Sisanya hanya akan dikirim ke indeks pencarian privat.

Jika beberapa dokumen diunggah dan total gabungannya melebihi 110k token, ChatGPT Enterprise menggunakan proses dua langkah untuk menyeimbangkan representasi dokumen:

  1. Ekstrak hingga 55k token, dibagi merata di antara dokumen yang diunggah.

    • Misalnya, jika 10 dokumen diunggah, 5,5k token diekstrak dari awal masing-masing dokumen.

  2. Untuk dokumen yang belum terwakili sepenuhnya pada langkah pertama, alokasikan sisa 55k token secara proporsional berdasarkan token yang tersisa di tiap dokumen.

    • Misalnya, jika Dokumen A memiliki sisa 10k token dan Dokumen B memiliki sisa 90k token, tambahan 5,5k token diekstrak dari Dokumen A ( (10k / 100k) * 55k ), dan tambahan 49,5k token diekstrak dari Dokumen B ( (90k / 100k) * 55k ).

  3. Token yang tersisa hanya dikirim ke indeks pencarian privat.

Anda dapat memperkirakan jumlah token dalam dokumen teks dengan menyalin teks dokumen ke OpenAI Tokenizer.

Context stuffing untuk PDF multimedia

Saat pengguna mengunggah PDF yang berisi teks dan gambar, Pengambilan Visual memungkinkan ChatGPT memproses gambar ini secara native bersamaan dengan teks yang diekstrak secara digital. Langkah-langkah berikut melengkapi prosedur penanganan konteks standar kami untuk PDF multimedia:

  • Ekstraksi dan Penyematan Gambar: Gambar diekstrak dan disematkan bersama teks digital yang terkait.

  • Penskalaan Cerdas: Gambar diskalakan secara otomatis untuk menjaga keseimbangan antara kualitas informasi dan pemanfaatan jendela konteks yang tersedia secara efisien.

Saat PDF yang diunggah melebihi batas 110k token, baik gambar maupun teks disematkan ke indeks pencarian privat. Embedding teks merujuk ke gambar yang relevan, sehingga ChatGPT dapat mengambil pasangan teks-gambar yang sesuai berdasarkan kueri pengguna. Gambar yang diambil kemudian diproses menggunakan kemampuan multimodal native ChatGPT.

Memperkirakan kebutuhan token secara akurat untuk PDF multimedia itu menantang. Pengujian menunjukkan bahwa kira-kira 350 halaman campuran teks dan gambar akan sepenuhnya memanfaatkan jendela konteks 110k token.

Strategi pencarian berdasarkan jenis model

Baik model seri GPT maupun seri o mendukung unggahan file dan menggunakan logika context stuffing serta embedding pencarian yang sama. Semua model menjalankan pencarian hibrida terhadap indeks pencarian privat, menggabungkan metode kata kunci dan semantik. Dalam pencarian hibrida, model menghasilkan frasa pencarian berdasarkan prompt pengguna, dan indeks pencarian privat mengambil teks dan gambar yang relevan.

Namun, model-model ini berbeda dalam cara mereka menelusuri dokumen besar yang melebihi jendela konteks:

Model seri GPT

  • Satu pencarian per prompt: Model seri GPT melakukan satu pencarian per prompt pengguna.

  • Kasus penggunaan yang efektif: Ideal untuk menjawab pertanyaan langsung yang tertanam dalam dokumentasi yang luas.

Contoh kueri:

  • "Apa kebijakan HR untuk pensiun dini?"

  • "Apa fungsi process_order?"

Model seri o

  • Beberapa pencarian per prompt: Dapat menjalankan beberapa pencarian (biasanya 2–3) per prompt pengguna, masing-masing dengan frasa pencarian yang unik. Pencarian dijalankan secara berurutan, dan model dapat memperbarui pendekatannya berdasarkan informasi yang diperoleh dari pencarian sebelumnya.

  • Kasus penggunaan yang efektif: Lebih cocok untuk pertanyaan kompleks yang memerlukan beberapa pencarian tertarget di seluruh dokumentasi yang ekstensif.

Contoh kueri:

  • "Apa kebijakan HR untuk pensiun dini, cuti orang tua, dan mutasi ke luar negeri?"

  • "Jelaskan fungsi process_order, sebutkan semua metode yang dipanggil oleh fungsi ini, dan jelaskan singkat tiap metode yang dipanggil."

Terlepas dari keunggulannya, model seri o dapat kesulitan ketika sebuah kueri memerlukan lebih dari tiga pencarian.

Tips untuk meningkatkan hasil pencarian file

  • Coba gunakan model seri o untuk pertanyaan kompleks yang memerlukan beberapa pencarian.

  • Ingat bahwa respons dapat bervariasi tergantung jenis, jumlah, dan ukuran dokumen yang Anda unggah.

  • Secara umum, memuat lebih sedikit dokumen yang fokus akan menghasilkan akurasi yang lebih tinggi.

  • Ubah topik berisi banyak pertanyaan menjadi pertanyaan tunggal:

    • Jika Anda perlu mengetahui kebijakan HR tiap negara bagian, tanyakan satu per satu.

    • Jika Anda perlu merangkum banyak dokumen, minta satu dokumen pada satu waktu. Jika dokumen tersebut terdiri dari ratusan halaman, pertimbangkan untuk memecahnya menjadi komponen yang lebih kecil.

      • Anda bisa meminta ChatGPT Enterprise menulis “ringkasan dari ringkasan” jika Anda memberinya beberapa ringkasan alih-alih dokumen utuh.

    • Jika Anda memiliki CSV RFP (setiap baris adalah pertanyaan berbeda), ajukan pertanyaan itu satu per satu alih-alih hanya memuat CSV dan meminta satu jawaban.

  • Cari cara untuk mengaudit respons model. Contoh instruksi GPT ada di bawah:

# Konteks 

Anda adalah ahli dalam memahami dokumen. Pengguna akan melampirkan dokumen dan mengajukan pertanyaan. Mereka perlu dapat mengaitkan jawaban Anda kembali ke bagian teks yang tepat tempat Anda mengambil jawaban tersebut.

# Instruksi

1. Jawab pertanyaan pengguna berdasarkan dokumen terlampir menggunakan format persis seperti yang disediakan di bawah ini

# Format

- Pertanyaan: { ulangi pertanyaan pengguna }
- Jawaban: { berikan jawaban atas pertanyaan pengguna }
Sumber:
- - Nomor Bagian: { berikan nomor bagian tempat Anda mengambil jawaban }
- - Judul Bagian: { berikan judul bagian tempat Anda mengambil jawaban }
- - Teks Persis: { berikan teks persis tempat Anda mengambil jawaban }

# Aturan

- Berikan jawaban yang jelas dan ringkas
- Hanya berikan informasi yang tersedia dalam dokumen
- Jika Anda tidak dapat menemukan jawabannya dalam dokumen, cukup balas "Tidak ada informasi yang ditemukan."

Apakah artikel ini membantu?