OpenAI
이 페이지는 기계 번역되었습니다. 영어 원문 보기

ChatGPT Enterprise에서 파일 업로드 최적화하기

ChatGPT Enterprise 기능이 파일의 유형, 개수, 크기에 따라 파일을 어떻게 처리하는지 이해하세요. 파일 요구사항에 맞춰 결과를 개선할 수 있습니다.

마지막 수정: 10 hours ago

ChatGPT Enterprise는 이제 프롬프트에 포함된 PDF 파일에 임베드된 시각 요소(이미지, 그래프, 다이어그램 등)를 읽고 이해하는 기능을 지원합니다. 사용자는 PDF를 업로드할 수 있으며, ChatGPT는 해당 파일의 텍스트 시각적 요소를 해석할 수 있습니다.

자세한 내용은 PDF의 시각적 검색 FAQ.를 참고하세요.

ChatGPT Enterprise에서는 여러 방식으로 파일을 업로드할 수 있습니다:

이 가이드는 ChatGPT Enterprise 기능이 파일의 유형, 개수, 크기에 따라 파일을 어떻게 처리하는지 설명하고, 파일 요구사항에 맞춰 결과를 개선하기 위한 전략을 다룹니다.

요약

ChatGPT Enterprise는 파일 유형에 따라 매우 다르게 처리합니다. PDF, 프레젠테이션, Word 파일 같은 텍스트 문서에서는 텍스트를 추출하고, 스프레드시트에서는 Python 코드를 사용해 구조화된 데이터를 분석하며, 이미지 파일은 GPT-Vision으로 설명합니다. 어떤 파일 유형이 어떤 워크플로를 트리거하는지 이해하는 것이 기대한 결과를 얻는 핵심입니다.

텍스트 기반 문서의 경우, ChatGPT Enterprise는 가능한 한 많은 관련 텍스트를 프롬프트와 함께 직접 포함하고, 추가 정보에 접근하기 위해 검색 시스템을 사용합니다. 이 방식은 특정 질문에 답하는 데는 잘 작동합니다. 하지만 매우 큰 문서를 요약하거나 여러 개의 큰 파일을 비교하는 등 복잡한 작업에서는 어려움을 겪을 수 있습니다. 결과를 개선하기 위한 전략을 이어서 확인하세요.

유형에 따른 파일 처리

ChatGPT Enterprise는 파일을 크게 세 가지 방식으로 처리합니다: 텍스트 추출, 코드 분석, 이미지 해석. 파일 유형에 따라 ChatGPT Enterprise가 따르는 워크플로가 결정됩니다.

텍스트 기반 검색코드 인터프리터이미지 처리시각적 검색
파일 유형 예시pptx, docx, txt, md, json, xml, pdf*
* 다음으로 업로드된 PDF:

GPT Knowledge
또는

프로젝트 파일
csv, xls, xlsx*
*참고: 코드 인터프리터는 어떤 파일 유형에서도 동작할 수 있지만, ChatGPT Enterprise는 스프레드시트에 대해 가장 흔히 CI로 기본 설정됩니다
jpg, pngpdf*
* 사용자 프롬프트에 포함된 PDF
동작파일에서 텍스트를 추출합니다. 일부 텍스트는 컨텍스트 창에 직접 붙여넣어(“stuffing”) 포함하고, 일부는 검색을 위해 저장합니다코드 인터프리터가 파일을 Python으로 전달해 처리합니다이미지는 멀티모달 모델이 네이티브로 해석하며,

알려진 제한 사항
의 영향을 받습니다.
텍스트 검색과 이미지 처리의 하이브리드입니다. 텍스트는 디지털 방식으로 추출되고, 시각적 콘텐츠는 멀티모달 모델이 네이티브로 해석합니다.

텍스트 전용 파일, 이미지 파일, 또는 명확하게 구조화된 데이터 파일(예: 거래 내역이 담긴 Excel 테이블)의 경우, 이러한 구분은 최선의 동작을 나타냅니다.

다만 덜 명확한 회색 지대도 있습니다. 예를 들면:

  • PDF가 아닌 파일에 포함된 이미지(임베드된 이미지)는 처리되지 않습니다. 포함하려면 업로드 전에 파일을 PDF로 변환하세요.

  • ChatGPT Enterprise는 문서에 많은 텍스트가 포함되어 있더라도 스프레드시트와 상호작용할 때 항상 코드 인터프리터를 사용합니다. 예를 들어, 텍스트가 10행 들어 있는 CSV 파일을 번역해 달라고 하면, ChatGPT Enterprise는 Python 라이브러리를 사용해 파일을 번역하려고 시도하는데, 이는 모델이 직접 번역을 생성하도록 하는 것보다 정확도가 떨어집니다. 이를 완화하려면 스프레드시트를 텍스트 기반 형식(예: PDF)으로 내보내 보세요.

  • 비슷하게, JSON 파일에 담긴 구조화된 거래 테이블을 업로드하면 ChatGPT Enterprise는 이를 일반 텍스트로 해석합니다. JSON 파일에 포함된 데이터를 분석하려면 프롬프트에서 모델에 코드 인터프리터를 사용하라고 지시하세요.

크기에 따른 파일 처리

ChatGPT Enterprise는 최대 컨텍스트 윈도우가 128k 토큰(대략 200페이지 텍스트)인 모델을 사용합니다. 하지만 업로드한 파일의 텍스트를 포함하는 데 모든 토큰이 사용되지는 않습니다. “stuffing”되는 토큰 수는 사용 유형에 따라 달라집니다.

ChatGPT Enterprise는 일정량의 텍스트를 "stuffing"하여 포함하고, 나머지 텍스트는 비공개 검색 인덱스(대량의 텍스트를 효율적으로 저장·검색하도록 설계된 데이터베이스의 한 종류인 "벡터 스토어")로 전송합니다. 질문을 하면 ChatGPT Enterprise는 포함된 텍스트와 함께 비공개 검색 인덱스에서 검색된 관련 청크를 가져옵니다.

단일 문서를 업로드하면 ChatGPT Enterprise는 한도에 도달할 때까지 문서의 처음부터 텍스트를 포함합니다. 여러 문서를 업로드하면 각 문서의 일부 또는 전부를 포함합니다. 문서의 모든 텍스트는 비공개 검색 인덱스로도 전송됩니다.

텍스트 문서의 컨텍스트 stuffing

이 기능은 현재 활발히 개발 중입니다. 따라서 아래 세부 사항은 사전 공지 없이 변경될 수 있습니다.

ChatGPT Enterprise는 컨텍스트 윈도우에서 업로드된 문서로부터 최대 110k 토큰까지 처리할 수 있습니다. 하나 이상의 문서를 업로드했을 때 합산 토큰 수가 110k 미만이면 전체 내용이 포함됩니다.

단일 문서가 110k 토큰을 초과하면, 처음부터 110k 토큰만 포함됩니다. 나머지는 비공개 검색 인덱스로만 전송됩니다.

여러 문서를 업로드했고 합산 토큰 수가 110k를 초과하면, ChatGPT Enterprise는 문서 간 대표성을 균형 있게 맞추기 위해 2단계 프로세스를 사용합니다:

  1. 업로드된 문서들 사이에 균등하게 나누어 최대 55k 토큰까지 추출합니다.

    • 예를 들어 10개의 문서를 업로드하면, 각 문서의 처음에서 5.5k 토큰을 추출합니다.

  2. 1단계에서 충분히 반영되지 않은 문서에 대해, 각 문서에 남아 있는 토큰 수에 비례하여 남은 55k 토큰을 배분합니다.

    • 예를 들어 문서 A에 10k 토큰이 남고 문서 B에 90k 토큰이 남아 있다면, 문서 A에서 추가로 5.5k 토큰((10k / 100k) * 55k)을, 문서 B에서 추가로 49.5k 토큰((90k / 100k) * 55k)을 추출합니다.

  3. 남은 토큰은 비공개 검색 인덱스로만 전송됩니다.

텍스트 문서의 토큰 수는 문서의 텍스트를 OpenAI Tokenizer에 복사해 넣어 대략 추정할 수 있습니다.

멀티미디어 PDF의 컨텍스트 stuffing

텍스트와 이미지가 모두 포함된 PDF를 사용자가 업로드하면, 시각적 검색을 통해 ChatGPT가 디지털로 추출된 텍스트와 함께 이러한 이미지를 네이티브로 처리할 수 있습니다. 아래 단계는 멀티미디어 PDF에 대해 표준 컨텍스트 처리 절차를 보완합니다:

  • 이미지 추출 및 임베딩: 이미지를 추출하고, 연관된 디지털 텍스트와 함께 임베딩합니다.

  • 지능형 스케일링: 사용 가능한 컨텍스트 윈도우를 효율적으로 사용하면서 정보 품질의 균형을 유지하도록 이미지를 자동으로 스케일링합니다.

업로드된 PDF가 110k 토큰 한도를 초과하면, 이미지와 텍스트가 모두 비공개 검색 인덱스에 임베딩됩니다. 텍스트 임베딩은 관련 이미지를 참조하여, ChatGPT가 사용자 질의에 따라 적절한 텍스트-이미지 쌍을 검색할 수 있도록 합니다. 검색된 이미지는 이후 ChatGPT의 네이티브 멀티모달 기능을 사용해 처리됩니다.

멀티미디어 PDF의 토큰 요구량을 정확히 추정하는 것은 어렵습니다. 테스트에 따르면 텍스트와 이미지가 섞인 약 350페이지 분량이 110k 토큰 컨텍스트 윈도우를 완전히 사용하게 됩니다.

모델 유형에 따른 검색 전략

GPT 계열과 o 계열 모델 모두 파일 업로드를 지원하며, 동일한 컨텍스트 stuffing 및 검색 임베딩 로직을 사용합니다. 모든 모델은 키워드 방식과 시맨틱 방식을 결합해 비공개 검색 인덱스에 대해 하이브리드 검색을 수행합니다. 하이브리드 검색에서는 모델이 사용자 프롬프트를 바탕으로 검색 구문을 생성하고, 비공개 검색 인덱스가 그에 맞는 관련 텍스트와 이미지를 가져옵니다.

다만 컨텍스트 윈도우를 초과하는 대형 문서를 검색하는 방식은 모델마다 다릅니다:

GPT 계열 모델

  • 프롬프트당 단일 검색: GPT 계열 모델은 사용자 프롬프트 1개당 1번의 검색을 수행합니다.

  • 효과적인 사용 사례: 방대한 문서에 포함된 단순·명확한 질문에 답하는 데 적합합니다.

예시 질문:

  • "조기 퇴직에 대한 HR 정책은 무엇인가요?"

  • "process_order 함수는 무엇을 하나요?"

o 계열 모델

  • 프롬프트당 다중 검색: 사용자 프롬프트 1개당 여러 번(일반적으로 2~3회) 검색을 수행할 수 있으며, 각 검색은 고유한 검색 구문을 사용합니다. 검색은 순차적으로 실행되고, 모델은 이전 검색에서 가져온 정보를 바탕으로 접근 방식을 업데이트할 수 있습니다.

  • 효과적인 사용 사례: 방대한 문서 전반을 대상으로 여러 번의 표적 검색이 필요한 복잡한 질문에 더 적합합니다.

예시 질문:

  • "조기 퇴직, 육아휴직, 해외 전근에 대한 HR 정책은 무엇인가요?"

  • "process_order 함수가 하는 일을 설명하고, 이 함수가 호출하는 모든 메서드를 나열한 뒤, 각 호출 메서드를 간단히 설명해 주세요."

강점이 있음에도, o 계열 모델은 한 번의 질의에 3회 이상의 검색이 필요할 때 어려움을 겪을 수 있습니다.

파일 검색 결과를 개선하는 팁

  • 여러 번의 검색이 필요한 복잡한 질문에는 o 계열 모델을 사용해 보세요.

  • 업로드하는 문서의 유형, 개수, 크기에 따라 응답이 달라질 수 있다는 점을 기억하세요.

  • 일반적으로 더 적고, 더 집중된 문서를 로드할수록 정확도가 높아집니다.

  • 여러 질문이 섞인 주제는 단일 질문으로 바꾸세요:

    • 모든 주(州)의 HR 정책을 알아야 한다면, 하나씩 물어보세요.

    • 많은 문서를 요약해야 한다면, 문서별로 한 번에 하나씩 요청하세요. 해당 문서가 수백 페이지에 달한다면 더 작은 구성 요소로 나누는 것을 고려하세요.

      • 전체 문서 대신 여러 요약본을 제공했다면 ChatGPT Enterprise에 “요약의 요약”을 작성해 달라고 요청할 수도 있습니다.

    • RFP의 CSV(각 줄이 서로 다른 질문인 경우)가 있다면, CSV를 그냥 로드하고 단일 응답을 요청하기보다 질문을 하나씩 물어보세요.

  • 모델의 응답을 감수(검증)할 수 있는 방법을 마련하세요. 아래에 예시 GPT 지침이 있습니다:

# 컨텍스트 

당신은 문서를 이해하는 전문가입니다. 사용자가 문서를 첨부하고 질문을 할 예정입니다. 사용자는 당신의 답변이 텍스트의 어느 정확한 부분에서 근거를 가져왔는지 연결할 수 있어야 합니다.

# 지침

1. 아래에 제공된 정확한 형식을 사용해, 첨부된 문서를 기반으로 사용자의 질문에 답하세요.

# 형식

- Question: { 사용자의 질문을 그대로 반복 }
- Answer: { 사용자의 질문에 대한 답변 제공 }
Source:
- - Section Number: { 답변을 가져온 섹션 번호 제공 }
- - Section Title: { 답변을 가져온 섹션 제목 제공 }
- - Exact Text: { 답변의 근거로 사용한 정확한 텍스트 제공 }

# 규칙

- 답변은 명확하고 간결하게 작성
- 문서에 제공된 정보만 제공
- 문서에서 답을 찾을 수 없으면 "정보를 찾을 수 없습니다."라고만 답변

이 문서가 도움이 되었나요?