Pahami cara fitur ChatGPT Enterprise menangani file berdasarkan jenis, jumlah, dan ukurannya. Tingkatkan output berdasarkan persyaratan file.

ChatGPT Enterprise kini mendukung pembacaan dan pemahaman visual (gambar, grafik, diagram, dll.) yang disematkan dalam file PDF yang disertakan dalam prompt. Pengguna dapat mengunggah PDF, dan ChatGPT dapat menafsirkan teks serta elemen visual apa pun di dalam file tersebut.

Untuk detail, lihat FAQ Visual Retrieval dengan PDF.

ChatGPT Enterprise memungkinkan Anda mengunggah file dengan beberapa cara:

Langsung dari komputer Anda
Dari Google Drive / SharePoint / OneDrive
Sebagai GPT Knowledge
Sebagai Project File
Dari GPT Action

Panduan ini menjelaskan cara fitur ChatGPT Enterprise menangani file berdasarkan jenis, jumlah, dan ukurannya, serta membahas strategi untuk meningkatkan output berdasarkan persyaratan file.

Ringkasan

ChatGPT Enterprise memperlakukan berbagai jenis file dengan sangat berbeda: mengekstrak teks dari dokumen teks seperti PDF, Presentasi, dan file Word, menganalisis data terstruktur dari spreadsheet menggunakan kode Python, dan mendeskripsikan file gambar melalui GPT-Vision. Memahami jenis file mana yang memicu alur kerja tertentu adalah kunci untuk mendapatkan hasil yang diharapkan.

Untuk dokumen berbasis teks, ChatGPT Enterprise menyertakan sebanyak mungkin teks relevan secara langsung bersama prompt dan menggunakan sistem pencarian untuk mengakses informasi tambahan. Ini bekerja dengan baik untuk menjawab pertanyaan spesifik. Namun, pendekatan ini dapat kesulitan dengan tugas kompleks seperti meringkas dokumen yang sangat besar atau membandingkan beberapa file besar. Baca terus untuk memahami strategi guna meningkatkan hasil Anda.

Menangani file berdasarkan jenis

ChatGPT Enterprise memproses file dengan tiga cara utama: ekstraksi teks, analisis kode, dan interpretasi gambar. Jenis file menentukan alur kerja yang diikuti ChatGPT Enterprise.

	Pengambilan Berbasis Teks	Penerjemah Kode	Pemrosesan Gambar	Visual Retrieval
Contoh Jenis File	pptx, docx, txt, md, json, xml, pdf* * PDF yang diunggah sebagai GPT Knowledge atau Project Files	csv, xls, xlsx* *Catatan: Penerjemah Kode dapat beroperasi pada jenis file apa pun, tetapi ChatGPT Enterprise paling sering secara default menggunakan CI untuk spreadsheet	jpg, png	pdf* * PDF yang disertakan dalam prompt pengguna
Perilaku	Mengekstrak teks dari file – sebagian teks ditempelkan (“diisikan”) langsung ke jendela konteks; sebagian teks disimpan untuk pencarian	Penerjemah Kode meneruskan file ke Python untuk diproses	Gambar ditafsirkan secara native oleh model multimodal, tunduk pada batasan yang diketahui .	Hibrida antara pengambilan teks dan pemrosesan gambar. Teks diekstrak secara digital, dan konten visual ditafsirkan secara native oleh model multimodal.

Untuk file yang hanya berisi teks, file gambar, atau file data yang terstruktur jelas (misalnya, tabel transaksi Excel), pembagian ini mewakili perilaku terbaik yang mungkin.

Ada beberapa area abu-abu yang kurang jelas, misalnya:

Gambar yang disematkan dalam file selain PDF tidak diproses. Untuk menyertakannya, konversikan file ke PDF sebelum mengunggah.
ChatGPT Enterprise akan selalu menggunakan Penerjemah Kode untuk berinteraksi dengan spreadsheet, meskipun dokumen berisi banyak teks. Misalnya, jika Anda meminta ChatGPT Enterprise menerjemahkan file CSV dengan 10 baris teks, fitur ini akan mencoba menerjemahkan file menggunakan pustaka Python, yang kurang akurat dibandingkan membiarkan model menghasilkan terjemahan secara langsung. Untuk mengurangi hal ini, coba ekspor spreadsheet ke format berbasis teks (PDF, misalnya).
Demikian pula, jika Anda mengunggah tabel transaksi terstruktur yang dijelaskan dan terdapat dalam file JSON, ChatGPT Enterprise akan menafsirkan file ini sebagai teks biasa. Jika Anda ingin menganalisis data yang terdapat dalam file JSON, instruksikan model untuk menggunakan Penerjemah Kode dalam prompt Anda.

Menangani file berdasarkan ukuran

ChatGPT Enterprise menggunakan model dengan jendela konteks maksimum 128 ribu token (sekitar 200 halaman teks). Namun, tidak semua token digunakan untuk memasukkan teks dari file yang diunggah. Jumlah token yang “diisikan” bervariasi menurut jenis penggunaan.

ChatGPT Enterprise “mengisikan” sejumlah teks, dan teks sisanya dikirim ke indeks pencarian privat (“penyimpanan vektor”, yaitu jenis basis data yang dirancang untuk menyimpan dan mengambil teks dalam jumlah besar secara efisien). Saat Anda mengajukan pertanyaan, ChatGPT Enterprise memasukkan teks yang disertakan bersama potongan relevan yang diambil dari indeks pencarian privat.

Jika Anda mengunggah satu dokumen, ChatGPT Enterprise menyertakan teks mulai dari awal hingga mencapai batasnya. Jika Anda mengunggah beberapa dokumen, ChatGPT Enterprise menyertakan sebagian atau seluruh isi tiap dokumen. Semua teks dari dokumen juga dikirim ke indeks pencarian privat.

Pengisian konteks untuk dokumen teks

Fitur ini sedang aktif dikembangkan. Karena itu, detail berikut dapat berubah tanpa pemberitahuan.

ChatGPT Enterprise dapat memproses hingga 110 ribu token dari dokumen yang diunggah dalam jendela konteks. Jika Anda mengunggah satu atau beberapa dokumen dengan total gabungan kurang dari 110 ribu token, seluruh konten akan disertakan.

Untuk satu dokumen yang melebihi 110 ribu token, hanya 110 ribu token pertama yang akan disertakan, mulai dari awal. Sisanya hanya akan dikirim ke indeks pencarian privat.

Jika beberapa dokumen diunggah dan total gabungannya melebihi 110 ribu token, ChatGPT Enterprise menggunakan proses dua langkah untuk menyeimbangkan representasi dokumen:

Ekstrak hingga 55 ribu token, dibagi secara merata di antara dokumen yang diunggah.

Untuk dokumen yang belum sepenuhnya terwakili pada langkah pertama, alokasikan sisa 55 ribu token secara proporsional berdasarkan token yang tersisa di setiap dokumen.

Token yang tersisa hanya dikirim ke indeks pencarian privat.

Anda dapat memperkirakan jumlah token dalam dokumen teks dengan menyalin teks dokumen ke OpenAI Tokenizer.

Pengisian konteks untuk PDF multimedia

Saat pengguna mengunggah PDF yang berisi teks dan gambar, Visual Retrieval memungkinkan ChatGPT memproses gambar ini secara native bersama teks yang diekstrak secara digital. Langkah-langkah berikut melengkapi prosedur penanganan konteks standar kami untuk PDF multimedia:

Ekstraksi dan Embedding Gambar: Gambar diekstrak dan di-embed bersama teks digital terkaitnya.
Penskalaan Cerdas: Gambar diskalakan secara otomatis untuk menjaga keseimbangan antara kualitas informasi dan penggunaan efisien jendela konteks yang tersedia.

Saat PDF yang diunggah melebihi batas 110 ribu token, gambar maupun teks di-embed dalam indeks pencarian privat. Embedding teks merujuk ke gambar yang relevan, sehingga ChatGPT dapat mengambil pasangan teks-gambar yang sesuai berdasarkan kueri pengguna. Gambar yang diambil kemudian diproses menggunakan kemampuan multimodal native ChatGPT.

Memperkirakan kebutuhan token secara akurat untuk PDF multimedia merupakan hal yang menantang. Pengujian menunjukkan bahwa sekitar 350 halaman berisi campuran teks dan gambar akan menggunakan jendela konteks 110 ribu token sepenuhnya.

Strategi pencarian berdasarkan jenis model

Model seri GPT dan seri o sama-sama mendukung unggahan file serta menggunakan logika pengisian konteks dan embedding pencarian yang identik. Semua model menjalankan pencarian hibrida terhadap indeks pencarian privat, dengan menggabungkan metode kata kunci dan semantik. Dalam pencarian hibrida, model menghasilkan frasa pencarian berdasarkan prompt pengguna, lalu indeks pencarian privat mengambil teks dan gambar yang relevan sesuai kebutuhan.

Namun, model-model ini berbeda dalam cara menelusuri dokumen besar yang melebihi jendela konteks:

Model seri GPT

Satu pencarian per prompt: Model seri GPT melakukan satu pencarian per prompt pengguna.
Kasus penggunaan efektif: Ideal untuk menjawab pertanyaan langsung yang tertanam dalam dokumentasi yang luas.

Contoh kueri:

"Apa kebijakan SDM untuk pensiun dini?"
"Apa yang dilakukan fungsi process_order?"

Model seri o

Beberapa pencarian per prompt: Dapat menjalankan beberapa pencarian (biasanya 2–3) per prompt pengguna, masing-masing dengan frasa pencarian yang unik. Pencarian dijalankan secara berurutan, dan model dapat memperbarui pendekatannya berdasarkan informasi yang diambil dalam pencarian sebelumnya.
Kasus penggunaan efektif: Lebih cocok untuk pertanyaan kompleks yang memerlukan beberapa pencarian tertarget di seluruh dokumentasi yang luas.

Contoh kueri:

"Apa kebijakan SDM untuk pensiun dini, cuti orang tua, dan mutasi ke luar negeri?"
"Jelaskan apa yang dilakukan fungsi process_order, cantumkan semua metode yang dipanggil oleh fungsi ini, dan jelaskan secara singkat setiap metode yang dipanggil."

Meskipun kuat, model seri o mungkin kesulitan ketika kueri memerlukan lebih dari tiga pencarian.

Tips untuk meningkatkan hasil pencarian file

Cobalah menggunakan model seri o untuk pertanyaan kompleks yang memerlukan beberapa pencarian.
Ingat bahwa respons dapat bervariasi tergantung pada jenis, jumlah, dan ukuran dokumen yang Anda unggah.
Secara umum, memuat lebih sedikit dokumen yang terfokus akan menghasilkan akurasi yang lebih tinggi.
Ubah topik multi-pertanyaan menjadi pertanyaan tunggal:
- Jika Anda perlu mengetahui kebijakan SDM setiap negara bagian, tanyakan satu per satu.
- Jika Anda perlu meringkas banyak dokumen, mintalah satu dokumen setiap kali. Jika dokumen itu terdiri dari ratusan halaman, pertimbangkan untuk memecahnya menjadi komponen yang lebih kecil.
  - Anda dapat meminta ChatGPT Enterprise menulis “ringkasan dari berbagai ringkasan” jika Anda memberinya beberapa ringkasan, bukan seluruh dokumen.
- Jika Anda memiliki CSV dari sebuah RFP (setiap baris adalah pertanyaan yang berbeda), ajukan pertanyaan tersebut satu per satu daripada hanya memuat CSV dan meminta satu respons.
Temukan cara untuk mengaudit respons model. Contoh instruksi GPT ada di bawah ini:

# Konteks 

Anda adalah pakar dalam memahami dokumen. Pengguna akan melampirkan dokumen dan mengajukan pertanyaan. Mereka perlu dapat menghubungkan jawaban Anda kembali ke bagian teks yang tepat tempat Anda mengambil jawaban.

# Instruksi

1. Jawab pertanyaan pengguna berdasarkan dokumen terlampir mereka menggunakan format persis yang disediakan di bawah ini

# Format 

- Pertanyaan: { repeat user's question }
- Jawaban: { provide an answer to user's question }
Sumber: 
- - Nomor Bagian: { provide section number where you pulled in the answer }
- - Judul Bagian: { provide section title where you pulled in the answer }
- - Teks Persis: { provide the exact text where you pulled the answer from }

# Aturan

- Berikan jawaban yang jelas dan ringkas
- Hanya berikan informasi yang tersedia dalam dokumen
- Jika Anda tidak dapat menemukan jawaban dalam dokumen, cukup balas "Tidak ada informasi yang ditemukan."

Mengoptimalkan Unggahan File di ChatGPT Enterprise