OpenAI
此頁面由機器翻譯。查看原始英文文章

ChatGPT 影像輸入常見問題

帶你了解 ChatGPT 全新的影像輸入功能:從如何有效使用到理解其限制

更新日期:12 days ago

什麼是影像輸入?它在 ChatGPT 中如何運作?

ChatGPT 現在具備影像能力,可理解並解讀你在對話中新增作為影像輸入的圖片。

我應該如何在對話中使用影像輸入?

基本用法:先上傳一張照片開始。你可以詢問圖片中的物件、分析文件,或探索視覺內容。之後也可在後續回合加入更多圖片,以加深或轉換討論方向。你也可以隨時帶著新照片回來接續。

標註圖片:若要引導注意力到特定區域,建議你在上傳前先用照片編輯的標記工具在圖片上做註記。這能引導 ChatGPT 聚焦在你認為重要的元素上。

哪些方案可以使用影像輸入?

Plus 與 ChatGPT Enterprise。

哪些模型可以接受影像輸入?

所有 ChatGPT 模型都可以接受影像輸入。

哪些平台提供影像輸入?

所有平台皆可使用,包括網頁版(chatgpt.com)與行動版(iOS / Android)。

我的圖片會用來改進你們的模型嗎?

我們對內容(包含圖片)的使用方式,在各產品之間維持一致。

請參閱你的資料如何用於提升模型效能,以更了解 ChatGPT 上的內容可能如何被用來改進模型效能,以及使用者有哪些選擇。

針對ChatGPT Enterprise,我們不會使用內容來訓練模型。

如何在 ChatGPT 中新增影像輸入?

在提示輸入區點選+圖示,並選擇新增照片與檔案。或者,你也可以將圖片檔拖曳到文字輸入區,或貼上剪貼簿中的圖片。

影像輸入支援影片嗎?

不支援,無法處理影片。目前僅支援處理靜態圖片。

支援哪些檔案類型?

PNG(.png)、JPEG(.jpeg 和 .jpg),以及非動畫的GIF(.gif)。

一次可以上傳多少張圖片?

你可加入對話的圖片數量取決於多種因素,包括圖片大小以及隨附文字量。一般而言,若你遇到問題,建議嘗試減少圖片數量或縮小圖片尺寸。

每張圖片的大小限制是多少?

20MB。

影像能力如何處理模糊或不清楚的圖片?

若圖片含義不明或不清楚,模型會盡力解讀;但結果可能較不精準。

使用含影像輸入的 ChatGPT 時,使用者應注意哪些限制?

如果你在使用 ChatGPT 全新的影像輸入功能,請務必留意以下限制:

  1. 醫療:模型不適合解讀如 CT 掃描等專業醫學影像,也不應用於提供醫療建議。

  2. 非英文:模型在處理含非拉丁字母文字(例如日文或韓文)的圖片時,表現不如英文。

  3. 大量文字:可放大圖片中的文字以提升可讀性,但請避免裁切掉重要細節。

  4. 旋轉:模型可能會誤解旋轉/上下顛倒的文字或圖片。

  5. 視覺元素:若圖表或文字的顏色或樣式(如實線、虛線或點線)有所差異,模型可能較難理解。

  6. 空間:模型在需要精確空間定位的任務上較吃力,例如辨識棋局位置。

  7. 正確性:在某些情境下,模型可能產生不正確的描述或圖說。

  8. 形狀:模型較難處理全景與魚眼鏡頭圖片。

  9. 中繼資料與縮放:模型不會處理原始檔名或中繼資料,且圖片在分析前會先縮放,可能影響其原始尺寸。

  10. 計數:對於圖片中的物件數量,可能只能給出約略的計數。

這篇文章有幫助嗎?