Chapter 06

AI 听力转写
与精听训练

第六章 · 任意一个 YouTube 视频或 podcast,15 分钟变成你的精听材料。

一、AI 时代的精听:从"求人字幕"到"任意材料"

过去练精听最大的障碍是"找不到带字幕的好材料"。新闻太正式,VOA 太慢,日常播客没字幕,YouTube 视频字幕错漏百出。一个学习者花在"找材料"上的时间常常比真练听力还多。

2026 年这个问题被 OpenAI 的 Whisper 模型 (开源、免费、可本地运行) 彻底解决:任何一段英语音频/视频,30 秒内就能得到准确的字幕。配合 ChatGPT/Claude 后续处理,可以从这段字幕自动出题、解释生词、生成 Shadowing 训练。

二、Whisper 转写工具横评

工具类型速度 (10 分钟音频)价格适合谁
OpenAI Whisper API云端30 秒$0.006/分钟偶尔用,不想装
whisper.cpp (本地)本地 CLI1-3 分钟 (M-series Mac)免费开发者
WhisperX (本地)本地 CLI30-60 秒免费需要时间戳与说话人分离
MacWhisper / Whisper TranscriptionMac App1 分钟$30 一次性非技术用户
iFlyrec / NottaSaaS实时会员制会议记录
YouTube 自带字幕免费实时免费口音清楚的视频

对学习者最实用的组合:

  1. 桌面端:MacWhisper (Mac) 或 Whisper Desktop (Windows) ——拖入文件即转写,完全离线。
  2. 移动端:Whisper Memo / Notta —— 走云 API。
  3. 开发者:whisper.cpp + 自己写的脚本,直接接到 ChatGPT API 出题。
# 用 whisper.cpp 转写一段播客 (Mac)
brew install whisper-cpp
# 下载英文小模型(~150MB)
whisper-cpp --model base.en --print-colors podcast.mp3
# 或用更大的模型(~3GB,准确率高)
whisper-cpp --model large-v3 podcast.mp3 --output-srt

三、精听的 5 步流程

第 1 步:选材料

原则是"略高于你当前水平 5%"。不要挑你完全听不懂的——那是听力训练的灾难。建议来源:

第 2 步:盲听一遍

不看字幕,听完整段。听完写 3 句话总结你听到了什么。这一步是判断"裸听理解度"的基线。

第 3 步:让 Whisper 转写,然后让 AI 处理

把音频丢进 Whisper 得到字幕,然后让 ChatGPT/Claude 做以下处理:

# Prompt 给 AI 处理转写文本
下面是一段英语播客的转写。请帮我:
1. 把口语啰嗦词(uh, like, you know)清理掉,保留结构。
2. 找出 10 个 B2 学习者可能不会的词或固定搭配,
   用中英对照解释,并各给 1 个例句。
3. 找出 5 个母语者特有的"地道表达"
   (不是字面理解能猜出来的)。
4. 用中文总结这段话的主要观点(3 句以内)。

转写:
"""
[paste Whisper output]
"""

第 4 步:精听 + 跟读

带字幕重听,在每个不熟的词上点暂停跟读 3 遍。重点关注:连读、弱读、节奏、重音。这一步用 ELSA Speak / Speak / Boldvoice 这种发音评估 App 配合,效果最好。

第 5 步:让 AI 出题检查

# 让 AI 自动出听力题
基于上面的转写,出 10 道理解题:
- 5 道选择题(干扰项要合理)
- 3 道填空题(挖掉关键动词或介词)
- 2 道复述题(用我自己的话总结某一段)

题目末尾给答案和详细解析。

四、Shadowing 评分:让 AI + ELSA Speak 联合训练

Shadowing (跟读) 是从中级冲刺到高级的最有效训练。但你自己听不出自己的口音错——这是 ELSA Speak 这类 AI 发音评估 App 的用武之地。

App核心能力价格评价
ELSA Speak逐音素打分、口音指纹~$8/月评估最准,练发音首选
Speak (Speakable AI)AI 对话 + 反馈~$15/月对话流畅,YC 投的
Boldvoice专门修美式口音~$15/月有真人 coach 视频
Pronounce by Speak免费版 ELSA 替代免费版可用简陋但够用

训练流程:

  1. 从 Whisper 转写中挑 10 个句子,各包含一个你不熟的连读/弱读。
  2. 用 ElevenLabs / OpenAI TTS 生成 native 发音版本(几乎免费)。
  3. 跟读到 ELSA Speak,得到逐音素打分。
  4. 把得分最低的音素丢回 ChatGPT,问:"我 /θ/ 经常发不准,给我 5 个含 /θ/ 的最常用单词训练我"。
AI 陷阱

Whisper 在专业术语和人名上的准确率会下降。如果你转写的是 Lex Fridman 这种内容,经常会出现 "Lakes Friedman" 之类的错误。这时把 Whisper 的输出再丢给 GPT-5/Claude 做"专业术语校正"会大幅改善。

五、本章 Prompt 模板(8 条)

模板 1 · 转写后处理

下面是 Whisper 的转写文本,可能有专有名词错误。

请你:
1. 修复明显的人名/技术词错误(如有)。
2. 删除口语啰嗦词,但保留说话风格。
3. 按话题分段,每段加一个中文小标题。
4. 列出 10 个值得我学的词或表达。

[paste]

模板 2 · 自动出听力题

基于这段转写,生成精听练习:
- 5 道选择题:每道 1 个正确答案、3 个干扰项,
  干扰项必须是基于音节相似(听错)而非语义。
- 3 道填空题:挖掉关键介词/连读容易丢的词。
- 2 道复述题。

输出 JSON 格式,方便我导入 Anki:
{ "mcq": [...], "cloze": [...], "summary": [...] }

模板 3 · 生词地道度评级

从这段转写里挑出 15 个值得学的词或表达,
按地道度和实用度分类:

- Tier 1 (天天用,必须掌握):...
- Tier 2 (常见但偏书面):...
- Tier 3 (有趣但低频):...

每个词附:中文 + 一个本段原句 + 一个新场景例句。

模板 4 · 连读/弱读地图

从这段转写里找出 10 个最典型的连读 / 弱读 / 失爆现象,
用 IPA 标注变化前后的发音对比。

Format:
| Phrase | Standard IPA | Connected IPA | What changed |
| "kind of" | /kaɪnd ɒv/ | /kaɪndə/ | of 弱化为 /ə/ |

模板 5 · 自动 shadowing 训练材料

把这段转写切成 10 个适合 shadowing 的小段
(每段 1-2 句话,8-15 词)。

每段标注:
- 重读音节(用大写)
- 节奏型(如 "WEAK weak STRONG weak STRONG")
- 一个我可以跟读 3 次后录音对比的句子

输出 Markdown 列表。

模板 6 · 用 OpenAI TTS 生成对比音频

# Python 脚本伪代码
from openai import OpenAI
client = OpenAI()
sentences = ["Wait, you've been there before?",
             "I kind of forgot to mention it."]

for i, s in enumerate(sentences):
    rsp = client.audio.speech.create(
        model="tts-1-hd",
        voice="alloy",   # 也可 nova / shimmer / echo
        input=s
    )
    rsp.stream_to_file(f"shadow_{i}.mp3")

模板 7 · 让 AI 解读你不懂的笑点

下面是一段 Late Night talk show 的转写。
我看到观众在 [位置] 笑得很大声,但我没听懂笑点。

请用中文解释:
1. 这个笑点的字面意思是什么。
2. 文化或时事背景是什么。
3. 哪个词是双关或谐音的关键。
4. 同一类幽默还有哪些常见变体。

[paste]

模板 8 · 复述训练评分

下面是一段 200 词的英语转写,以及我用英语复述的版本。

请评分:
1. Coverage: 我覆盖了多少核心信息(/100)
2. Accuracy: 我说错的事实有几个
3. Naturalness: 我的英语像 native 还是像翻译
4. 给我一份"我应该用但没用上"的 5 个表达

转写:
"""[paste]"""

我的复述:
"""[paste]"""
练习方向

每周精听 1 期 15 分钟以内的英语播客 (推荐 Planet Money 或 The Daily),按上面 5 步流程走完。3 个月后你会发现自己听懂任意 native podcast 的概率从 30% 涨到 80%——并且你已经积累了几百条母语者真实使用的表达,远比任何教材都鲜活。