ChatGPT Enterprise 기능이 파일의 유형, 수, 크기에 따라 파일을 처리하는 방식을 이해하세요. 파일 요구 사항에 맞춰 출력을 개선하세요.

ChatGPT Enterprise는 이제 프롬프트에 포함된 PDF 파일에 삽입된 시각 자료(이미지, 그래프, 다이어그램 등)를 읽고 이해하는 기능을 지원합니다. 사용자는 PDF를 업로드할 수 있으며, ChatGPT는 해당 파일 내의 텍스트와 모든 시각 요소를 해석할 수 있습니다.

자세한 내용은 PDF를 사용한 시각적 검색 FAQ를 참조하세요.

ChatGPT Enterprise에서는 여러 가지 방법으로 파일을 업로드할 수 있습니다.

컴퓨터에서 직접 업로드
Google Drive / SharePoint / OneDrive에서 업로드
GPT Knowledge로 사용
프로젝트 파일로 사용
GPT Action에서 가져오기

이 가이드는 ChatGPT Enterprise 기능이 파일의 유형, 수, 크기에 따라 파일을 처리하는 방식을 설명하고, 파일 요구 사항에 따라 출력을 개선하기 위한 전략을 다룹니다.

요약

ChatGPT Enterprise는 파일 유형에 따라 매우 다르게 처리합니다. PDF, 프레젠테이션, Word 파일과 같은 텍스트 문서에서는 텍스트를 추출하고, 스프레드시트의 구조화된 데이터는 Python 코드를 사용해 분석하며, 이미지 파일은 GPT-Vision을 통해 설명합니다. 어떤 파일 유형이 어떤 워크플로를 트리거하는지 이해하는 것이 기대한 결과를 얻는 데 핵심입니다.

텍스트 기반 문서의 경우 ChatGPT Enterprise는 가능한 한 많은 관련 텍스트를 프롬프트와 함께 직접 포함하고, 추가 정보에 접근하기 위해 검색 시스템을 사용합니다. 이는 특정 질문에 답하는 데 효과적입니다. 그러나 이 접근 방식은 매우 큰 문서를 요약하거나 여러 대용량 파일을 비교하는 것과 같은 복잡한 작업에서는 어려움을 겪을 수 있습니다. 결과를 개선하기 위한 전략을 이해하려면 계속 읽어보세요.

유형에 따른 파일 처리

ChatGPT Enterprise는 파일을 텍스트 추출, 코드 분석, 이미지 해석의 세 가지 주요 방식으로 처리합니다. 파일 유형 에 따라 ChatGPT Enterprise가 따르는 워크플로가 결정됩니다.

	텍스트 기반 검색	코드 인터프리터	이미지 처리	시각적 검색
파일 유형 예시	pptx, docx, txt, md, json, xml, pdf* * GPT Knowledge 또는 프로젝트 파일 로 업로드된 PDF	csv, xls, xlsx* *참고: 코드 인터프리터는 모든 파일 유형에서 작동할 수 있지만, ChatGPT Enterprise는 스프레드시트에 대해 가장 일반적으로 CI를 기본값으로 사용합니다.	jpg, png	pdf* * 사용자 프롬프트에 포함된 PDF
동작	파일에서 텍스트를 추출합니다. 텍스트의 일부는 컨텍스트 윈도우에 직접 붙여넣어지고(“스터핑”), 일부 텍스트는 검색을 위해 저장됩니다.	코드 인터프리터는 처리를 위해 파일을 Python에 전달합니다.	이미지는 멀티 모달 모델이 네이티브로 해석하며, 알려진 제한 사항 의 적용을 받습니다.	텍스트 검색과 이미지 처리가 결합된 하이브리드 방식입니다. 텍스트는 디지털 방식으로 추출되고, 시각적 콘텐츠는 멀티 모달 모델이 네이티브로 해석합니다.

텍스트 전용 파일, 이미지 파일 또는 명확하게 구조화된 데이터 파일(예: 거래 내역 Excel 표)의 경우 이러한 구분은 가능한 최선의 동작을 나타냅니다.

예를 들어 다음과 같이 덜 명확한 회색 지대가 있습니다.

PDF가 아닌 파일에 삽입된 이미지는 처리되지 않습니다. 이미지를 포함하려면 업로드하기 전에 파일을 PDF로 변환하세요.
ChatGPT Enterprise는 문서에 많은 양의 텍스트가 포함되어 있더라도 스프레드시트와 상호작용할 때 항상 코드 인터프리터를 사용합니다. 예를 들어 ChatGPT Enterprise에 텍스트 10행이 있는 CSV 파일을 번역하도록 요청하면, 모델이 직접 번역을 생성하게 하는 것보다 정확도가 낮은 Python 라이브러리를 사용해 파일을 번역하려고 시도합니다. 이를 완화하려면 스프레드시트를 텍스트 기반 형식(예: PDF)으로 내보내 보세요.
마찬가지로, 구조화된 거래 테이블이 JSON 파일에 들어 있는 경우 ChatGPT Enterprise는 이 파일을 일반 텍스트로 해석합니다. JSON 파일에 포함된 데이터를 분석하려면 프롬프트에서 모델에게 코드 인터프리터를 사용하도록 지시하세요.

크기에 따른 파일 처리

ChatGPT Enterprise는 최대 컨텍스트 윈도우가 128k 토큰(대략 텍스트 200페이지)인 모델을 사용합니다. 그러나 업로드된 파일의 텍스트를 포함하는 데 모든 토큰이 사용되는 것은 아닙니다. “스터핑된” 토큰의 수는 사용 유형에 따라 달라집니다.

ChatGPT Enterprise는 일정량의 텍스트를 “스터핑”하고, 나머지 텍스트는 비공개 검색 인덱스(대량의 텍스트를 효율적으로 저장하고 검색하도록 설계된 데이터베이스의 일종인 “벡터 저장소”)로 전송합니다. 질문을 하면 ChatGPT Enterprise는 포함된 텍스트와 비공개 검색 인덱스에서 가져온 관련 청크를 함께 가져옵니다.

단일 문서를 업로드하면 ChatGPT Enterprise는 한도에 도달할 때까지 문서의 처음부터 텍스트를 포함합니다. 여러 문서를 업로드하면 ChatGPT Enterprise는 각 문서의 일부 또는 전체를 포함합니다. 문서의 모든 텍스트도 비공개 검색 인덱스로 전송됩니다.

텍스트 문서의 컨텍스트 스터핑

이 기능은 활발히 개발 중입니다. 따라서 다음 세부 정보는 예고 없이 변경될 수 있습니다.

ChatGPT Enterprise는 컨텍스트 윈도우에서 업로드된 문서의 토큰을 최대 110k 토큰까지 처리할 수 있습니다. 업로드한 하나 이상의 문서의 합계가 110k 토큰 미만이면 전체 콘텐츠가 포함됩니다.

단일 문서가 110k 토큰을 초과하는 경우, 처음부터 시작하여 처음 110k 토큰만 포함됩니다. 나머지는 비공개 검색 인덱스로만 전송됩니다.

여러 문서가 업로드되고 그 합계가 110k 토큰을 초과하면 ChatGPT Enterprise는 문서 표현의 균형을 맞추기 위해 2단계 프로세스를 사용합니다.

업로드된 문서 간에 균등하게 나누어 최대 55k 토큰을 추출합니다.

첫 번째 단계에서 완전히 반영되지 않은 문서에는 각 문서에 남아 있는 토큰을 기준으로 나머지 55k 토큰을 비례적으로 할당합니다.

남은 토큰은 비공개 검색 인덱스로만 전송됩니다.

텍스트 문서의 텍스트를 OpenAI Tokenizer에 복사하여 토큰 수를 추정할 수 있습니다.

멀티미디어 PDF의 컨텍스트 스터핑

사용자가 텍스트와 이미지가 모두 포함된 PDF를 업로드하면 시각적 검색을 통해 ChatGPT가 디지털 방식으로 추출된 텍스트와 함께 이러한 이미지를 네이티브로 처리할 수 있습니다. 다음 단계는 멀티미디어 PDF에 대한 표준 컨텍스트 처리 절차를 보완합니다.

이미지 추출 및 임베딩: 이미지는 관련 디지털 텍스트와 함께 추출되고 임베딩됩니다.
지능형 스케일링: 이미지는 정보 품질과 사용 가능한 컨텍스트 윈도우의 효율적인 사용 사이의 균형을 유지하도록 자동으로 조정됩니다.

업로드된 PDF가 110k 토큰 한도를 초과하면 이미지와 텍스트가 모두 비공개 검색 인덱스에 임베딩됩니다. 텍스트 임베딩은 관련 이미지를 참조하므로 ChatGPT가 사용자 쿼리에 따라 적절한 텍스트-이미지 쌍을 가져올 수 있습니다. 그런 다음 가져온 이미지는 ChatGPT의 네이티브 멀티 모달 기능을 사용하여 처리됩니다.

멀티미디어 PDF의 토큰 요구 사항을 정확히 추정하는 것은 어렵습니다. 테스트에 따르면 텍스트와 이미지가 혼합된 약 350페이지가 110k 토큰 컨텍스트 윈도우를 완전히 활용하는 것으로 보입니다.

모델 유형에 따른 검색 전략

GPT-series 및 o-series 모델은 모두 파일 업로드를 지원하며 동일한 컨텍스트 스터핑 및 검색 임베딩 로직을 활용합니다. 모든 모델은 키워드 방식과 의미 기반 방식을 결합하여 비공개 검색 인덱스에 대해 하이브리드 검색을 실행합니다. 하이브리드 검색에서는 모델이 사용자의 프롬프트를 바탕으로 검색 구문을 생성하고, 비공개 검색 인덱스가 그에 따라 관련 텍스트와 이미지를 가져옵니다.

그러나 이러한 모델은 컨텍스트 윈도우를 초과하는 대용량 문서를 검색하는 방식에서 차이가 있습니다.

GPT-series 모델

프롬프트당 단일 검색: GPT-series 모델은 사용자 프롬프트당 한 번의 검색을 수행합니다.
효과적인 사용 사례: 방대한 문서에 포함된 간단한 질문에 답하는 데 이상적입니다.

예시 쿼리:

“조기 퇴직에 대한 HR 정책은 무엇인가요?”
“process_order 함수는 무엇을 하나요?”

o-series 모델

프롬프트당 여러 번 검색: 사용자 프롬프트당 여러 번(일반적으로 2~3회) 검색을 실행할 수 있으며, 각 검색에는 고유한 검색 구문이 사용됩니다. 검색은 순차적으로 실행되며, 모델은 이전 검색에서 가져온 정보를 바탕으로 접근 방식을 업데이트할 수 있습니다.
효과적인 사용 사례: 방대한 문서 전반에서 여러 개의 표적 검색이 필요한 복잡한 질문에 더 적합합니다.

예시 쿼리:

“조기 퇴직, 육아휴직, 해외 전근에 대한 HR 정책은 무엇인가요?”
“process_order 함수가 하는 일을 설명하고, 이 함수가 호출하는 모든 메서드를 나열한 뒤 각 호출 메서드를 간략히 설명하세요.”

이러한 장점에도 불구하고, 쿼리에 세 번을 초과하는 검색이 필요한 경우 o-series 모델은 어려움을 겪을 수 있습니다.

파일 검색 결과 개선을 위한 팁

여러 번의 검색이 필요한 복잡한 질문에는 o-series 모델을 사용해 보세요.
응답은 업로드한 문서의 유형, 수, 크기에 따라 달라질 수 있다는 점을 기억하세요.
일반적으로 더 적고 집중된 문서를 로드하면 정확도가 높아집니다.
여러 질문이 포함된 주제를 단일 질문으로 바꾸세요.
- 모든 주의 HR 정책을 알아야 한다면 하나씩 질문하세요.
- 많은 문서를 요약해야 한다면 한 번에 하나의 문서씩 요청하세요. 해당 문서가 수백 페이지에 달한다면 더 작은 구성 요소로 나누는 것을 고려하세요.
  - 전체 문서가 아니라 여러 요약을 제공했다면 ChatGPT Enterprise에 “요약의 요약”을 작성해 달라고 요청할 수 있습니다.
- RFP의 CSV(각 줄이 서로 다른 질문)가 있는 경우, CSV를 로드하고 단일 응답을 요청하는 대신 해당 질문을 하나씩 물어보세요.
모델의 응답을 감사할 방법을 찾으세요. 예시 GPT 지침은 아래와 같습니다.

# 컨텍스트 

당신은 문서를 이해하는 전문가입니다. 사용자가 문서를 첨부하고 질문할 것입니다. 사용자는 답변이 텍스트의 정확히 어느 부분에서 가져온 것인지 연결할 수 있어야 합니다.

# 지침

1. 아래 제공된 정확한 형식을 사용하여 첨부된 문서를 기반으로 사용자의 질문에 답하세요.

# 형식 

- 질문: { repeat user's question }
- 답변: { provide an answer to user's question }
출처: 
- - 섹션 번호: { provide section number where you pulled in the answer }
- - 섹션 제목: { provide section title where you pulled in the answer }
- - 정확한 텍스트: { provide the exact text where you pulled the answer from }

# 규칙

- 명확하고 간결하게 답변하세요.
- 문서에 제공된 정보만 제공하세요.
- 문서에서 답을 찾을 수 없는 경우 “정보를 찾을 수 없습니다.”라고만 답하세요.

ChatGPT Enterprise에서 파일 업로드 최적화하기

요약

유형에 따른 파일 처리

크기에 따른 파일 처리

텍스트 문서의 컨텍스트 스터핑

멀티미디어 PDF의 컨텍스트 스터핑

모델 유형에 따른 검색 전략

GPT-series 모델

o-series 모델

파일 검색 결과 개선을 위한 팁

이 문서가 도움이 되었나요?