第六章 AI 听力转写与精听

一、AI 时代的精听:从"求人字幕"到"任意材料"

过去练精听最大的障碍是"找不到带字幕的好材料"。新闻太正式,VOA 太慢,日常播客没字幕,YouTube 视频字幕错漏百出。一个学习者花在"找材料"上的时间常常比真练听力还多。

2026 年这个问题被 OpenAI 的 Whisper 模型 (开源、免费、可本地运行) 彻底解决:任何一段英语音频/视频,30 秒内就能得到准确的字幕。配合 ChatGPT/Claude 后续处理,可以从这段字幕自动出题、解释生词、生成 Shadowing 训练。

二、Whisper 转写工具横评

工具	类型	速度 (10 分钟音频)	价格	适合谁
OpenAI Whisper API	云端	30 秒	$0.006/分钟	偶尔用,不想装
whisper.cpp (本地)	本地 CLI	1-3 分钟 (M-series Mac)	免费	开发者
WhisperX (本地)	本地 CLI	30-60 秒	免费	需要时间戳与说话人分离
MacWhisper / Whisper Transcription	Mac App	1 分钟	$30 一次性	非技术用户
iFlyrec / Notta	SaaS	实时	会员制	会议记录
YouTube 自带字幕	免费	实时	免费	口音清楚的视频

对学习者最实用的组合:

桌面端:MacWhisper (Mac) 或 Whisper Desktop (Windows) ——拖入文件即转写,完全离线。
移动端:Whisper Memo / Notta —— 走云 API。
开发者:whisper.cpp + 自己写的脚本,直接接到 ChatGPT API 出题。

# 用 whisper.cpp 转写一段播客 (Mac)
brew install whisper-cpp
# 下载英文小模型(~150MB)
whisper-cpp --model base.en --print-colors podcast.mp3
# 或用更大的模型(~3GB,准确率高)
whisper-cpp --model large-v3 podcast.mp3 --output-srt

三、精听的 5 步流程

第 1 步:选材料

原则是"略高于你当前水平 5%"。不要挑你完全听不懂的——那是听力训练的灾难。建议来源:

初级 (A2-B1):Easy English Podcast / 6 Minute English / Voice of America Learning English
中级 (B1-B2):The Daily / Planet Money / All Ears English
高级 (C1+):Lex Fridman / Hard Fork / The Tim Ferriss Show / Dwarkesh Podcast
视频:CNN10、Vox 解释类视频、TED-Ed、YouTube creator 比如 Veritasium / Kurzgesagt

第 2 步:盲听一遍

不看字幕,听完整段。听完写 3 句话总结你听到了什么。这一步是判断"裸听理解度"的基线。

第 3 步:让 Whisper 转写,然后让 AI 处理

把音频丢进 Whisper 得到字幕,然后让 ChatGPT/Claude 做以下处理:

# Prompt 给 AI 处理转写文本
下面是一段英语播客的转写。请帮我:
1. 把口语啰嗦词(uh, like, you know)清理掉,保留结构。
2. 找出 10 个 B2 学习者可能不会的词或固定搭配,
   用中英对照解释,并各给 1 个例句。
3. 找出 5 个母语者特有的"地道表达"
   (不是字面理解能猜出来的)。
4. 用中文总结这段话的主要观点(3 句以内)。

转写:
"""
[paste Whisper output]
"""

第 4 步:精听 + 跟读

带字幕重听,在每个不熟的词上点暂停跟读 3 遍。重点关注:连读、弱读、节奏、重音。这一步用 ELSA Speak / Speak / Boldvoice 这种发音评估 App 配合,效果最好。

第 5 步:让 AI 出题检查

# 让 AI 自动出听力题
基于上面的转写,出 10 道理解题:
- 5 道选择题(干扰项要合理)
- 3 道填空题(挖掉关键动词或介词)
- 2 道复述题(用我自己的话总结某一段)

题目末尾给答案和详细解析。

四、Shadowing 评分:让 AI + ELSA Speak 联合训练

Shadowing (跟读) 是从中级冲刺到高级的最有效训练。但你自己听不出自己的口音错——这是 ELSA Speak 这类 AI 发音评估 App 的用武之地。

App	核心能力	价格	评价
ELSA Speak	逐音素打分、口音指纹	~$8/月	评估最准,练发音首选
Speak (Speakable AI)	AI 对话 + 反馈	~$15/月	对话流畅,YC 投的
Boldvoice	专门修美式口音	~$15/月	有真人 coach 视频
Pronounce by Speak	免费版 ELSA 替代	免费版可用	简陋但够用

训练流程:

从 Whisper 转写中挑 10 个句子,各包含一个你不熟的连读/弱读。
用 ElevenLabs / OpenAI TTS 生成 native 发音版本(几乎免费)。
跟读到 ELSA Speak,得到逐音素打分。
把得分最低的音素丢回 ChatGPT,问:"我 /θ/ 经常发不准,给我 5 个含 /θ/ 的最常用单词训练我"。

AI 陷阱

Whisper 在专业术语和人名上的准确率会下降。如果你转写的是 Lex Fridman 这种内容,经常会出现 "Lakes Friedman" 之类的错误。这时把 Whisper 的输出再丢给 GPT-5/Claude 做"专业术语校正"会大幅改善。

五、本章 Prompt 模板(8 条)

模板 1 · 转写后处理

下面是 Whisper 的转写文本,可能有专有名词错误。

请你:
1. 修复明显的人名/技术词错误(如有)。
2. 删除口语啰嗦词,但保留说话风格。
3. 按话题分段,每段加一个中文小标题。
4. 列出 10 个值得我学的词或表达。

[paste]

模板 2 · 自动出听力题

基于这段转写,生成精听练习:
- 5 道选择题:每道 1 个正确答案、3 个干扰项,
  干扰项必须是基于音节相似(听错)而非语义。
- 3 道填空题:挖掉关键介词/连读容易丢的词。
- 2 道复述题。

输出 JSON 格式,方便我导入 Anki:
{ "mcq": [...], "cloze": [...], "summary": [...] }

模板 3 · 生词地道度评级

从这段转写里挑出 15 个值得学的词或表达,
按地道度和实用度分类:

- Tier 1 (天天用,必须掌握):...
- Tier 2 (常见但偏书面):...
- Tier 3 (有趣但低频):...

每个词附:中文 + 一个本段原句 + 一个新场景例句。

模板 4 · 连读/弱读地图

从这段转写里找出 10 个最典型的连读 / 弱读 / 失爆现象,
用 IPA 标注变化前后的发音对比。

Format:
| Phrase | Standard IPA | Connected IPA | What changed |
| "kind of" | /kaɪnd ɒv/ | /kaɪndə/ | of 弱化为 /ə/ |

模板 5 · 自动 shadowing 训练材料

把这段转写切成 10 个适合 shadowing 的小段
(每段 1-2 句话,8-15 词)。

每段标注:
- 重读音节(用大写)
- 节奏型(如 "WEAK weak STRONG weak STRONG")
- 一个我可以跟读 3 次后录音对比的句子

输出 Markdown 列表。

模板 6 · 用 OpenAI TTS 生成对比音频

# Python 脚本伪代码
from openai import OpenAI
client = OpenAI()
sentences = ["Wait, you've been there before?",
             "I kind of forgot to mention it."]

for i, s in enumerate(sentences):
    rsp = client.audio.speech.create(
        model="tts-1-hd",
        voice="alloy",   # 也可 nova / shimmer / echo
        input=s
    )
    rsp.stream_to_file(f"shadow_{i}.mp3")

模板 7 · 让 AI 解读你不懂的笑点

下面是一段 Late Night talk show 的转写。
我看到观众在 [位置] 笑得很大声,但我没听懂笑点。

请用中文解释:
1. 这个笑点的字面意思是什么。
2. 文化或时事背景是什么。
3. 哪个词是双关或谐音的关键。
4. 同一类幽默还有哪些常见变体。

[paste]

模板 8 · 复述训练评分

下面是一段 200 词的英语转写,以及我用英语复述的版本。

请评分:
1. Coverage: 我覆盖了多少核心信息(/100)
2. Accuracy: 我说错的事实有几个
3. Naturalness: 我的英语像 native 还是像翻译
4. 给我一份"我应该用但没用上"的 5 个表达

转写:
"""[paste]"""

我的复述:
"""[paste]"""

练习方向

每周精听 1 期 15 分钟以内的英语播客 (推荐 Planet Money 或 The Daily),按上面 5 步流程走完。3 个月后你会发现自己听懂任意 native podcast 的概率从 30% 涨到 80%——并且你已经积累了几百条母语者真实使用的表达,远比任何教材都鲜活。