概述

什么是 ChatGPT 语音？

ChatGPT 语音可让你与 ChatGPT 说话，并听到语音回复。语音可在聊天中使用，因此你可以边听边查看文字回复，无法说话时也可以输入，并且无需重新开始即可回看之前的消息。

如果你只是想将一段录音转换为可编辑文本，请使用 ChatGPT 听写。

实时选项可以同时聆听和说话，让轮流发言和打断都感觉更自然。在你的账号可用这些功能时，实时还可以使用网页搜索和记忆，通过支持的小组件显示视觉结果，并处理文字和图像。

ChatGPT 可能会出错。请核查重要信息，尤其是与日期、时间或地点相关的问题。语音会使用你设备或浏览器的时区来理解“今天”或“明天”等词。如果答案看起来不对，请检查你的时区，或在问题中包含确切日期、时区或地点。详细了解 ChatGPT 与准确性。

有哪些语音选项？

你可能会在设置 → 语音下看到以下选项：

实时：我们最新的语音体验，由 GPT Live 1 提供支持。实时专为自然的来回对话而设计，可以使用网页搜索和记忆，通过支持的小组件显示视觉结果，并在同一聊天中处理文字和图像。实时初期不支持视频、屏幕共享、已连接应用或插件。
高级：之前的实时语音体验。当你需要视频或屏幕共享等受支持的移动端功能时，请使用高级。
标准：逐轮进行的语音体验，会先转写你的语音，再生成回复。

你可用的选项可能取决于你的套餐、地区和应用版本。

要在可用选项之间切换，请打开设置 → 语音，然后选择实时、高级或标准。

可用性和限制

ChatGPT 语音可供已登录用户在 ChatGPT iOS 和 Android 应用中使用，也可在桌面网页端 ChatGPT.com 使用。未登录用户可以在网页端使用听写，但不能发起语音对话。

实时正在面向包括免费版在内的个人用户套餐推出。推出期间，可用性可能因地区而异。发布时，实时不适用于 ChatGPT Business、Enterprise 或 Edu 工作空间；这些工作空间中的用户可以继续使用已可用的语音选项。

实时将在网页端和移动端的聊天中推出。初期不适用于临时聊天、ChatGPT 桌面应用、工作、Codex 或自定义 GPT。

语音使用限制因套餐和语音选项而异，并可能发生变化。当你接近或达到限制时，ChatGPT 会显示通知。

实时由 GPT Live 1 提供支持。在语音设置中，GPT Live 1 显示为实时。

发起语音对话

在 iOS 和 Android 上

在消息栏中选择语音图标。
如果系统提示，请允许 ChatGPT 应用访问你的麦克风。
如果这是你的第一次语音对话，请选择偏好的声音。
语音打开后，开始说话即可发起对话。

在对话期间，选择麦克风控件即可将自己静音或取消静音。选择退出控件以结束语音对话。

在网页端

前往 ChatGPT.com。
在提示窗口中选择语音图标。
如果系统提示，请允许浏览器访问你的麦克风。
语音打开后，开始说话即可发起对话。

在对话期间，选择麦克风控件即可将自己静音或取消静音。选择退出控件以结束语音对话。

在实时中使用文字和图像

实时可以在同一聊天中接受与你的语音对话相关的文字和图像。语音处于活动状态时，可以使用消息栏中的添加按钮附加可用图像，也可以输入消息而不是说话。ChatGPT 可以用语音回复，而无需另开一个聊天。

可用的图像类型和限制取决于你的套餐和账号。

实时目前无法从你的 ChatGPT 资料库中查找或添加文件。根据你的账号情况，你可能仍可手动将受支持的文件附加到聊天中。

共享视频或屏幕

实时在发布时不支持视频或屏幕共享。

符合条件的订阅用户在 ChatGPT iOS 和 Android 应用中使用高级时，仍可使用视频和屏幕共享：

要共享实时视频，请在语音对话期间选择相机按钮。再次选择即可停止共享。
要共享屏幕，请选择更多选项菜单，然后选择共享屏幕并按照设备提示操作。
要停止共享屏幕，请返回 ChatGPT 并再次选择屏幕共享控件。你也可以通过设备的系统屏幕共享控件停止共享。

如果达到视频或屏幕共享限制，你可能仍可继续语音对话，但不能开始新的视频或屏幕共享输入。

更改偏好的声音

打开设置 → 语音，然后选择声音，从以下选项中选择：

Arbor — 随和而多变
Breeze — 生动而真诚
Cove — 沉着而直接
Ember — 自信而乐观
Juniper — 开放而欢快
Maple — 开朗而坦率
Sol — 机敏而放松
Spruce — 平静而肯定
Vale — 明快而好奇

在语音对话期间更改所选声音，会在同一聊天中发起新的语音通话。

更改偏好的语言

打开设置 → 语音，然后选择语言。选择你最常说的语言，可以帮助 ChatGPT 更准确地理解你的语音。你也可以在语音对话期间要求 ChatGPT 改用另一种语言说话。

更改回复风格

预设的 ChatGPT 个性目前不适用于实时。

你仍然可以在单次语音对话期间要求 ChatGPT 更改语气、语速或回复风格。

你可以要求 ChatGPT 说快一点或慢一点，但目前没有精确的播放速度控制。

更改智能级别

如果你的账号可以使用智能设置，请打开设置 → 语音 → 智能，然后选择即时、中等或高。此设置控制 ChatGPT 在语音对话期间如何处理较难的问题。可用级别可能取决于你的套餐。

更高的智能级别可能需要更长时间才能回复，尤其是在语音搜索网页时。

在 CarPlay 中使用语音

ChatGPT 可在受支持的 iPhone 上通过 Apple CarPlay 使用。你可以从 CarPlay 屏幕发起语音对话，继续最近或已置顶的聊天，或在项目中开始对话。详细了解如何在 CarPlay 中使用 ChatGPT。

仅在法律允许且条件允许安全使用时使用移动设备。请在驾驶前设置好应用，并避免在车辆行驶期间操作设备。

在后台继续对话

要在使用其他应用或手机锁定时继续语音对话，请在设置 → 语音下开启后台对话。

当你结束后台对话、强制关闭应用、达到使用限制或达到最长会话时长时，后台对话会结束。如果你在高级中共享屏幕，停止共享或锁定屏幕时，屏幕共享也会结束。

启动 ChatGPT 时启用语音

在受支持的移动应用版本上，在设置 → 语音下开启以语音启动。开启此设置后，当你打开 ChatGPT 进入新的或空白对话时，语音会自动启动。

要在 CarPlay 中自动启动语音，请在设置 → 语音下开启在 CarPlay 中自动启动。你在 CarPlay 中使用过 ChatGPT 后，此设置才会出现。

数据控制

OpenAI 会将音频和视频片段保留多久？

实时和高级语音对话中的音频片段，以及高级语音对话中的视频片段，会与显示在你的聊天历史中的转写文本一起存储。片段会保留 30 天。

当你删除聊天时，我们也会在 30 天内删除其关联的音频和视频片段，除非我们出于安全或法律原因需要保留，或你此前已选择共享这些片段以帮助训练我们的模型，并且这些片段已经与你的账号解除关联。

删除聊天后无法撤销。归档只会将聊天从侧边栏移除；不会删除该聊天或其关联的音频或视频片段。

使用标准时，音频会在 ChatGPT 生成回复前先被转写。转写完成后，我们会删除音频，除非你已选择共享音频以帮助训练我们的模型。即使转写失败，音频也会被删除。

OpenAI 会使用音频或视频片段训练模型吗？

不会，除非你选择共享音频或视频片段，以帮助训练我们的模型。

如果开启了为所有人改进模型，我们可能会根据你的套餐和设置，使用语音对话中的转写文本和其他文件来训练我们的模型。除非你选择共享关联的音频或视频片段，否则我们不会将其用于训练。

个人工作空间中的 Free、Plus 和 Pro 用户可以通过打开设置 → 数据控制，开启为所有人改进模型，然后开启包括你的录音或包括你的视频录制来选择共享片段。ChatGPT Business、Enterprise 或 Edu 工作空间中的用户无法共享语音对话中的音频或视频片段。

如果你选择共享音频或视频片段，我们的团队可能会审核共享片段，以帮助改进模型行为，例如了解 ChatGPT 在哪里听错或误解了内容。在将共享片段用于训练之前，我们会采取措施减少片段中的个人信息量。

如果你停止共享，新的片段将不再用于训练我们的模型。此前已与你的账号解除关联的片段可能会继续被使用。你的选择与账号绑定，并适用于你登录的每台设备。

详细了解数据控制以及你的数据如何用于提升模型性能。

常见问题

ChatGPT 说话时，我可以说话吗？

可以。实时可以同时聆听和说话，因此你可以在 ChatGPT 回复时打断或继续说话。ChatGPT 应会跟进对话的最新部分，但语音重叠、背景噪音、网络状况和麦克风设置都可能影响它听到的内容。

多个人可以同时与 ChatGPT 说话吗？

实时主要是为一对一对话设计的。它可以处理背景噪音，但尚未针对多说话人对话进行优化。当人们是在彼此交谈而不是对 ChatGPT 说话时，它也可能会回复。

为什么 ChatGPT 会打断我或停止说话？

仍可能发生打断，尤其是在有背景噪音、长时间停顿或其他说话者的音频时。可以尝试使用耳机、移到更安静的环境，或提高设备音量。在 iPhone 上，你还可以在语音对话期间打开控制中心，选择麦克风模式，并开启语音隔离。

我可以让语音在我边想边说时等待吗？

在对话开始时，你可以要求实时等到你准备好接收回复时再回应，例如：“等到我让你回复时再回复。”长时间停顿、背景语音或其他声音仍可能导致实时作出回复。

我可以将实时与 GPT、工作或 Codex 一起使用吗？

实时发布时可在聊天中使用。初期不适用于自定义 GPT、工作或 Codex。

语音对话仍可通过现有语音体验与 GPT 一起使用。GPT 使用 Shimmer 声音。根据你的账号和会话情况，可能可以上传文件和照片。与 GPT 的语音对话中不提供图像生成、数据分析和自定义操作。

什么时候该使用语音而不是听写？

如果想进行实时的来回对话，或通过交谈梳理想法，请使用语音。当你想录制提示、查看并编辑其转写文本，然后以文本形式发送时，请使用 ChatGPT 听写。语音转写文本并非逐字记录，可能与实际所说内容不完全一致。

为什么转写文本与对话不完全一致？

语音对话结束后，聊天中会添加转写文本。它可能与你或 ChatGPT 所说内容不完全一致，尤其是在语音重叠、有背景噪音或对话推进很快时。

使用实时时，ChatGPT 的回复在播出语音的同时也会以文本形式显示在聊天中。结束语音对话后，你可以在聊天历史中查看该对话。

语音对话包含字幕吗？

使用实时时，ChatGPT 的回复在播出语音的同时会以文本形式显示在聊天中。在 iOS 和 Android 上使用高级时，可在语音对话期间选择cc按钮，以显示 ChatGPT 回复的字幕。

结束语音对话后，其转写文本会添加到聊天中，方便你在聊天历史中查看。

为什么我的语音对话结束了？

当你达到使用限制、最长会话时长，或长对话达到其上下文限制时，语音对话可能会结束。在可能的情况下，ChatGPT 会显示通知。你可以继续使用文本，或再次启动语音。

我一次可以进行多少个语音对话？

你一次只能进行一个语音对话。

为什么我在语音设置中看不到实时？

实时正在逐步推出。可用性取决于套餐、地区、工作空间和应用版本。请确保 ChatGPT 已更新。如果实时不可用，你可以继续使用高级或标准语音。

ChatGPT 语音

概述