什麼是影像輸入?它在 ChatGPT 中如何運作?
ChatGPT 現在具備影像能力,可理解並解讀你在對話中新增作為影像輸入的圖片。
我應該如何在對話中使用影像輸入?
基本用法:先上傳一張照片開始。你可以詢問圖片中的物件、分析文件,或探索視覺內容。之後也可在後續回合加入更多圖片,以加深或轉換討論方向。你也可以隨時帶著新照片回來接續。
標註圖片:若要引導注意力到特定區域,建議你在上傳前先用照片編輯的標記工具在圖片上做註記。這能引導 ChatGPT 聚焦在你認為重要的元素上。
哪些方案可以使用影像輸入?
Plus 與 ChatGPT Enterprise。
哪些模型可以接受影像輸入?
所有 ChatGPT 模型都可以接受影像輸入。
哪些平台提供影像輸入?
所有平台皆可使用,包括網頁版(chatgpt.com)與行動版(iOS / Android)。
我的圖片會用來改進你們的模型嗎?
我們對內容(包含圖片)的使用方式,在各產品之間維持一致。
請參閱你的資料如何用於提升模型效能,以更了解 ChatGPT 上的內容可能如何被用來改進模型效能,以及使用者有哪些選擇。
針對ChatGPT Enterprise,我們不會使用內容來訓練模型。
如何在 ChatGPT 中新增影像輸入?
在提示輸入區點選+圖示,並選擇新增照片與檔案。或者,你也可以將圖片檔拖曳到文字輸入區,或貼上剪貼簿中的圖片。
影像輸入支援影片嗎?
不支援,無法處理影片。目前僅支援處理靜態圖片。
支援哪些檔案類型?
PNG(.png)、JPEG(.jpeg 和 .jpg),以及非動畫的GIF(.gif)。
一次可以上傳多少張圖片?
你可加入對話的圖片數量取決於多種因素,包括圖片大小以及隨附文字量。一般而言,若你遇到問題,建議嘗試減少圖片數量或縮小圖片尺寸。
每張圖片的大小限制是多少?
20MB。
影像能力如何處理模糊或不清楚的圖片?
若圖片含義不明或不清楚,模型會盡力解讀;但結果可能較不精準。
使用含影像輸入的 ChatGPT 時,使用者應注意哪些限制?
如果你在使用 ChatGPT 全新的影像輸入功能,請務必留意以下限制:
醫療:模型不適合解讀如 CT 掃描等專業醫學影像,也不應用於提供醫療建議。
非英文:模型在處理含非拉丁字母文字(例如日文或韓文)的圖片時,表現不如英文。
大量文字:可放大圖片中的文字以提升可讀性,但請避免裁切掉重要細節。
旋轉:模型可能會誤解旋轉/上下顛倒的文字或圖片。
視覺元素:若圖表或文字的顏色或樣式(如實線、虛線或點線)有所差異,模型可能較難理解。
空間:模型在需要精確空間定位的任務上較吃力,例如辨識棋局位置。
正確性:在某些情境下,模型可能產生不正確的描述或圖說。
形狀:模型較難處理全景與魚眼鏡頭圖片。
中繼資料與縮放:模型不會處理原始檔名或中繼資料,且圖片在分析前會先縮放,可能影響其原始尺寸。
計數:對於圖片中的物件數量,可能只能給出約略的計數。
