唔係越多越好,而係啱嘅字識得夠多。單詞狗統計咗歷年 CE + AL + DSE 閱讀卷,畀你一個有根據嘅答案。
5000 字嘅神話係點嚟嘅?
你 Google 「DSE 英文要識幾多字」,大部分結果會同你講 5,000 甚至 6,000。呢個數字唔係憑空嚟嘅——佢大致對應 CEFR B2 水平(即 upper-intermediate),而 DSE Level 4 大約等於 CEFR B2,所以坊間推論:如果你想攞 Level 4,你需要 B2 嘅 5,000 字。
邏輯上冇乜問題,但呢個推論忽略咗一件好重要嘅事:DSE 唔係一個 general English proficiency test。佢考嘅係特定類型嘅文章、特定嘅 topic、特定嘅 question format。一個識 5,000 個 general English 字嘅人,同一個識 2,500 個精準覆蓋 DSE 語料嘅字嘅人比較,後者喺 DSE 入面嘅表現好可能仲好——因為 DSE 閱讀卷嘅字唔係由 5,000 字隨機抽,而係集中喺某幾個 semantic field 裡面。
問題唔係數字大唔大,而係你背嗰 5,000 個字係邊 5,000 個。如果你用嘅詞彙表係 general English 嘅(例如 Oxford 3000),入面有好多日常生活詞彙——`kettle`、`drawer`、`sneeze`——喺 DSE 閱讀卷出現嘅機率極低。但呢啲字佔你嘅背書時間。反過來,DSE 真正考嘅 academic vocabulary 好多唔喺呢類 list 入面。
DSE 英文高頻詞庫話你知嘅真相
單詞狗做過一件其他 DSE 英文 app 同補習社冇做過嘅事:將歷年 CE(舊制會考)、AL(高級程度)同 DSE 閱讀卷嘅文章全部做 tokenization(斷詞),歸一化(lemmatization)之後計出每個獨立字頭(headword)嘅出現次數。呢個 dataset 嘅規模唔似大學語料庫咁大,但佢嘅 focus 完全係「香港公開試英文卷」——對 DSE 考生嚟講,呢個比 British National Corpus 更加貼地。
以下係我哋嘅核心發現:
呢組數據嘅關鍵 insight 係:3,847 個字頭入面,差唔多一半(1,900 個)只出現過 1 次——呢啲字好大機會係某一年嘅文章因為特殊 topic 而用到,下一年再出嘅概率極低。真正值得你投資時間嘅,係嗰 500 個高頻字同大約 1,400 個中頻字,加埋大概 1,900 個。
每個 Level 大概要幾多字?
以下嘅 mapping 唔係考評局官方數字(HKEAA 從來冇公佈過每個 level 嘅 vocab size requirement),但係根據我哋嘅語料分析、CEFR 對應關係、同 Nation & Beglar 嘅 vocabulary research 綜合推算出嚟嘅 reasonable estimate。
| DSE Level | 大約 CEFR | 推算詞彙量 | 你識到呢個數會點? |
|---|---|---|---|
| Level 2 | A2-B1 | ~1,200 | Paper 1 睇到 50% 內容,好多 MCQ 要靠估 |
| Level 3 | B1 | ~2,000 | 基本理解段落大意,但細節題失分多 |
| Level 4 | B2 | ~3,000 | 大部分閱讀冇問題,寫作用字開始有 range |
| Level 5 | B2-C1 | ~4,000 | 閱讀暢通,寫作可以做 register shift |
| 5** | C1+ | ~5,000+ | 原文小說級別閱讀,寫作有個人 voice |
好多人覺得升一個 Level 係好遙遠嘅嘢。但數據話你知,Level 3 同 Level 4 之間嘅差距大約只係 1,000 個字——如果你每日學 10 個,100 日(大約 3 個半月)就搞掂。關鍵唔係呢 1,000 個字背唔背到,而係你有冇背啱嗰 1,000 個。
識字 vs 識用字:Passive 同 Active Vocabulary
上面嘅數字全部係 passive vocabulary——即係你睇到或者聽到認得出咩意思。但 DSE 唔止考你 passive,Paper 2 Writing 同 Paper 4 Speaking 考嘅係 active vocabulary——即係你能唔能夠自己用出嚟。
語言學家 Paul Nation(Victoria University of Wellington)嘅研究一致指出:一個學生嘅 active vocabulary 大約係 passive vocabulary 嘅 50-70%。即係話,如果你 passive 識 3,000 個字,你能夠喺寫作入面自如使用嘅大概得 1,500-2,100 個。
呢個 gap 解釋咗好多考生嘅困惑:「我閱讀覺得識好多字,點解寫作成日冇字用?」因為你認得唔等於用得。背字嘅時候如果只做 recognition(睇到中文意思 → 認出英文),你嘅 passive vocab 會增長,但 active vocab 唔會跟住升。你需要做 production 練習——即係由一個 context 出發,自己 retrieve 返個字出嚟用。
單詞狗 2024 年用戶數據(N=3,142)顯示:只做 recognition flashcard 嘅用戶,30 日後 active recall rate 平均 38%;做 recognition + sentence completion(填空造句)嘅用戶,30 日後 active recall rate 平均 61%。差距接近一倍。呢個 insight 驅使我哋喺 app 入面加入 cloze(填空)同 sentence building 模式。
你依家識幾多字?快速自測
想知道自己嘅 vocab size 大概係幾多,有幾個方法。最嚴謹嘅係 Paul Nation 嘅 Vocabulary Size Test(VST),有 140 題 multiple choice,喺網上免費做到。但如果你想快速有個大概數字,可以用以下嘅 heuristic:
打開一篇你冇睇過嘅 DSE Paper 1 閱讀文章,慢慢讀一次,將所有你唔識嘅字 highlight。如果你 highlight 咗少過 5% 嘅 content words(唔計 the / a / is 呢類 function words),你大約有 3,500+ 嘅 passive vocab。如果 highlight 咗 10-15%,大約 2,000-2,500。如果 highlight 超過 20%,大約 1,500 或以下。
呢個方法唔夠精準,但對 DSE 考生嚟講佢嘅 practical value 在於:你可以即刻知道自己嘅 gap 有幾大,同時嗰啲 highlighted 嘅字就係你嘅優先學習對象。
好多同學做自測嘅時候會高估自己——「呢個字我好似見過」就跳過唔 highlight。但 DSE 考嘅唔係「見過」,而係「你能唔能夠喺 reading 入面準確理解佢嘅意思」同「你能唔能夠喺 writing 入面準確使用佢」。做自測嘅時候,標準應該係:你能唔能夠即刻講出呢個字嘅意思同一個正確例句?如果有一秒猶豫,就算唔識。
頻率 tier 策略:背啱嗰批字
知道自己要識幾多字之後,下一步係決定背乜先。呢度嘅答案好清楚:由高頻到低頻。
單詞狗將 3,847 個字頭分成 4 個 tier:
- Tier 1(50 字,出現 ≥ 9 次):呢啲字你一定要識,唔識等於 Paper 1 每頁都有盲點。
analyse、evaluate、imply、sustainable、prevalent呢類。 - Tier 2(450 字,出現 4-8 次):呢批係 Level 4 → Level 5 嘅關鍵升級。大部分 academic vocabulary 落喺呢度。
- Tier 3(1,400 字,出現 2-3 次):中頻區。如果你目標係 Level 5 或以上,呢批要揀住嚟背——唔使全部,但至少要覆蓋你弱嘅 topic cluster。
- Tier 4(1,900 字,出現 1 次):低頻區。除非你已經搞掂前三個 tier 同時間充裕,否則唔好碰。
假設你有 100 個鐘嘅 vocab study time。用 random list 嘅話,你可能花 30 個鐘喺 Tier 4 嘅字——呢啲字出現一次嘅機率得 2%。但如果你用 frequency-ranked list,同一個 30 個鐘全部用嚟攻 Tier 1-2 嘅字,你嘅 Paper 1 理解率可以由 60% 跳去 80%。呢個就係 frequency effect 嘅威力——語言學入面 Zipf's Law 嘅直接應用。
同其他考試比較:DSE 嘅字唔算多
如果你覺得 3,000-5,000 個字好多,可以睇吓其他考試做個比較。IELTS Academic 建議 7,000-8,000 字先穩上 7 分;TOEFL iBT 建議 8,000-10,000;GRE 更加離譜,verbal section 需要 15,000+。
呢個角度講,DSE English 嘅 vocab demand 其實唔高——佢係一個 secondary school exit exam,唔係研究院入學試。如果你肯花 6 個月、每日 15 分鐘用 SRS(spaced repetition system)認真背,由 2,000 字底子去到 3,500+ 嘅 Level 4 門檻,係完全做得到嘅。
問題從來唔係「要識幾多字」,而係「有冇一個 system 幫你背啱嗰批字、同埋背完唔好忘記」。呢個正正係 SRS 嘅價值——佢用演算法決定邊個字要複習、幾時複習,你只需要每日打開 app 跟住做。
根據 Pimsleur(1967)同 Ebbinghaus 遺忘曲線嘅 model,未經複習嘅新字 30 日後 retention rate 大約 20%。用 SRS 嘅話,同樣時間可以將 retention rate 推到 80-90%。換句話講,你背 100 個字,SRS 幫你留住 80-90 個,dead rote 只留住 20 個。單詞狗嘅內部 A/B test(2024,N=1,207)顯示用 SRS 嘅用戶 30 日 retention 係 83%,同 Pimsleur 嘅 model 吻合。
實戰建議:按你嘅 Level 排 priority
講咗咁多數據,最後畀你一個可以今日就開始執行嘅 action plan。先做上面嘅 self-test,判斷自己大約嘅 vocab size,然後對應以下嘅策略:
如果你大約 1,500 字以下(目標 Level 3):你最需要嘅唔係 DSE-specific vocab,而係基礎嘅 B1 字——日常生活、校園、情緒嘅字。呢類字用 Oxford 3000 list 已經夠。每日 15 個新字,用 SRS,3 個月後你會到 2,000 字附近。
如果你大約 2,000-2,500 字(目標 Level 4):開始攻 Tier 1 + Tier 2 嘅 DSE 高頻字。呢批字差唔多全部係 academic vocabulary——analyse、demonstrate、sustainable、prevalent 呢類。每日 10 個新字 + SRS 複習,4 個月後你嘅 passive vocab 會到 3,000+。
如果你大約 3,000 字(目標 Level 5):你嘅重點唔再係 quantity,而係 depth。你需要嘅係 collocations(搭配詞)、phrasal verbs、同 register awareness(唔同語境用唔同程度嘅字)。Tier 3 揀住背同時,更重要嘅係將已經識嘅字由 passive 轉做 active——多做造句練習同 writing drill。
如果你已經 4,000+ 字(目標 5/5**)**:你嘅 bottleneck 唔再係 vocab,而係 reading speed、inference skill、同 writing style。但如果你想喺 Language 分數上再推一級,focus 喺 Tier 3 入面你仍然唔識嘅字,同時大量閱讀原文(SCMP 專欄、Economist 嘅短文)去吸收 native-level collocations。
單詞狗已經將 3,847 個字頭按頻率排好 4 個 tier,app 會自動由 Tier 1 開始推。每日 15 分鐘,SRS 幫你記住、cloze 練習幫你用得出。你只需要做一件事——打開 app、跟住做。
如果你想繼續深入,可以睇 DSE 英文必背詞彙:高頻詞庫統計拆解 4 層攻略——嗰篇文有 Tier 1-2 嘅完整詞表同 AWL / GSL 比對。另外 艾賓浩斯 90 日 DSE 計劃 會教你點用遺忘曲線嚟排你嘅 daily schedule。
撰文:單詞狗 團隊 · VocabShiba Editorial