2025年12月29日 / 最終更新日時 : 2026年3月16日 ENT-HP1 東大耳鼻科だより

音をめぐる思考の交差点(1)――WM(ワーキングメモリ)とAIが映す言語理解の構造

耳鼻咽喉科医として日々「音」と向き合う私たちにとって、言語をいかに聴き、いかに理解するかという問いは、診療の現場とも深く結びつく極めて重要なテーマです。先日参加したワーキングメモリ学会での議論、とりわけ懇親会で交わされた認知心理学者と英語教育者との対話は、その問いをあらためて私に突きつけました。

本稿は、その場で生まれた問題意識を出発点に、さらに最新の大規模言語モデルGPT-5.2との対話を通じて論点を掘り下げたものです。認知心理学の知見とAI研究の成果を往還しながら、言語理解におけるWM(ワーキングメモリ)の制約、処理単位（モーラとチャンク）の差異、そして教育への応用可能性について考察します。本文はGPT-5.2との対話内容をもとに構成し、全体の構成はClaude Sonnet 4.5を用いて行い、論文リンクは手作業で補いました。

言語理解の認知負荷とAIが映し出す学習の新地平

音の迷宮を抜けて――ワーキングメモリから大規模言語モデルへ

ワーキングメモリ学会の懇親会での、ある高名な認知心理学者と英語教育者との対話は、言語習得研究の核心を突くものだった。大学で英語を教えながらオンラインで心理学の修士号を目指すその教育者が提起した問いは、日本人学習者が直面する本質的困難に光を当てていた。日本人が英語を耳で捉える際、無意識のうちに母語である日本語の「モーラ(拍)」単位――音の最小単位――で音声情報をワーキングメモリに詰め込もうとする。その結果、認知容量は急速に枯渇し、理解が追いつかなくなる。一方、英語母語話者は「文節」や「チャンク」と呼ばれる意味のまとまりを単位として処理する。この根本的な処理様式の違いこそが、第二言語習得における深い障壁となっているのだ。

この会話は、さらに興味深い接点を示唆していた。翻訳に特化した大規模言語モデル(LLM)では、単語という常識的な切れ目を超えて、”This is”のような複数単語の頻出表現が一つの「トークン」として一括処理されている。トークナイザーは単なる前処理ではなく、モデルが言語世界を知覚する「認知の単位」を定義する役割を担う。人間の脳が「モーラ」から「文節」へと処理単位を移行させる学習に苦闘するように、機械にとっても、どの粒度で情報を切り取るかが処理効率と理解の質を根本から規定する。人間の認知とAIの設計思想が、まったく独立に同じ最適化の原理へと収束していったのである。

ワーキングメモリの制約と第二言語習得の認知基盤

日本語話者の脳は、音声を「モーラ」という等時的なリズム単位で分節化する習慣を持つ。「さくら」は「さ・く・ら」という三つのモーラとして認識され、それぞれが均等な時間的重みを持つ。この処理様式は日本語理解には極めて効率的だが、英語のような強勢拍リズムを持つ言語には適合しない。英語をモーラ単位で分節化しようとすると、ワーキングメモリは瞬く間に細切れの音韻情報で飽和してしまう。森全体を見渡そうとしているのに、目の前の葉一枚一枚を数えているようなものだ。

認知心理学者バドリーが提唱したワーキングメモリモデルでは、音韻ループという短期記憶システムが言語理解の中枢を担う。しかしこのシステムの容量には厳格な限界がある。一般的に成人のワーキングメモリは約2秒分の音韻情報を保持できるとされるが、これは母語処理の場合である。第二言語では、不慣れな音韻パターンや文法構造が認知負荷を増大させ、実質的な処理容量は大幅に低下する。

2025年に発表された最新研究では、内容埋め込み型ワーキングメモリ容量タスクが第二言語習得の進捗を予測する有効性が実証され、特に若年学習者で顕著な効果が認められている。また2024年の論文では、処理タスクとワーキングメモリの相互作用が第二言語単語習得に及ぼす影響が詳細に分析され、日本語話者が英語のチャンク――”in the morning”のような意味の塊――を認識しにくくなるメカニズムが明らかにされた。

さらに2023年～の研究は、クロスリンガルな影響を考慮したワーキングメモリ訓練の有効性を示し、言語露出と音韻記憶の組み合わせが英語語彙習得を加速させる可能性を指摘している。日本語話者特有の課題として、2021年の調査ではEFL学習者のリスニング理解における文化的要因が分析され、モーラ単位の過剰分割がメモリオーバーロードを引き起こすメカニズムが解明されている。

チャンキングの原理――認知効率の鍵

対照的に、英語母語話者は音声を「チャンク」と呼ばれる意味のある塊として認識する。”I’m going to”は五つの単語ではなく、一つの機能的単位として処理される。このチャンキング能力によって、ワーキングメモリの限られた容量が効率的に活用される。チャンクの数が同じであれば、一つのチャンクに含まれる情報量が多くても認知負荷はさほど増大しない。これは心理学者ミラーが1956年に発表した「マジカルナンバー7±2」で示された原理の応用である。

神経科学の研究は、熟達した第二言語使用者の脳活動が母語話者と同様のパターンを示すことを明らかにしている。左半球の言語領域が自動的に活性化され、処理は流暢になる。しかし初級学習者では、より広範な脳領域が動員され、ワーキングメモリや実行制御に関わる前頭葉が顕著に活動する。これは意識的な処理努力の表れである。神経イメージング研究は、チャンキングスキルの獲得に伴い、脳の言語処理ネットワークの活性化パターンが日本語的処理から英語的処理へとシフトすることを示唆している。

最近の認知心理学研究では、熟達した英語学習者は練習を重ねることで「リスニング・チャンキング」――聞こえた音を意味の塊として即座にまとめる能力――を発達させることが明らかになった。これはワーキングメモリの負荷を劇的に軽減する。チャンク化された表現の習得が進むと、処理はより自動化され、認知負荷が軽減されていく。

LLMのトークナイゼーション――機械が発見した言語の粒度

ここで、LLMの内部メカニズムとの驚くべき相似性が浮かび上がる。最近の大規模言語モデルにおけるトークナイゼーション技術は、まさにこのチャンキングの原理を体現している。従来の自然言語処理では、テキストを単語や文字といった固定的な単位に分割していた。しかし現代の言語モデルは、BPE(Byte Pair Encoding)やSentencePieceといった手法を用いて、統計的に頻出する文字列を一つのトークンとして扱う。

その結果、”don’t”や”going”といった頻出表現は分割されることなく、一つの処理単位となる。翻訳特化モデルでは、さらに”This is”のような複数単語の組み合わせが一つのトークンとして学習されることもある。このトークナイゼーションの最適化は、モデルの処理効率を劇的に向上させた。テキストをより少ないトークン数で表現できれば、より長い文脈を一度に処理でき、より深い意味理解が可能になる。

2025年の論文(1)(2)では、トークナイザーの設計が多言語モデルの公平性を左右し、日本語のような形態素ベースの言語でバイアスが生じやすい点が指摘されている。また、トークナイザーが意味処理に及ぼす影響を議論した研究では、多トークン表現がLLMの理解を深化させることが示された。これを教育ツールに転用すれば、日本語話者の英語チャンク処理をシミュレートし、支援できる可能性がある。

自然言語処理の分野では、最適なトークン化の探究が続いている。従来の単語ベースやサブワードベースに加え、近年では「形態素」や「文節」といった言語学的に意味のある単位を積極的にモデルに組み込む研究や、モデル自身がデータから最適なセグメンテーションを学習する手法が注目されている。目標は、LLMの「ワーキングメモリ」とも言えるコンテキスト長を効率的に使い、より正確で文脈を踏まえた理解と生成を実現することだ。

AIシステムと人間の認知システムが、まったく独立に、同じ最適化の原理に到達したことは示唆に富む。これは人間の言語処理における効率性の追求が、普遍的な認知原理に基づいていることを物語っている。

教育への示唆――チャンクベースの学習デザイン

この類似性から、英語教育への重要な示唆が導かれる。日本人学習者に必要なのは、英語を単語やモーラではなく、意味のあるチャンクとして認識する訓練である。”How are you doing?”を「ハウ・アー・ユー・ドゥーイング」という七つの音節ではなく、一つの挨拶表現として丸ごと認識する。”I’m going to the store”を単語の連なりではなく、「これから店に行く」という一つの意図を表す塊として理解する。このような処理様式への転換が、ワーキングメモリの過負荷を防ぎ、流暢な理解を可能にする。

従来の教授法は、しばしば最小単位から積み上げる方式をとってきた。まず個々の単語を覚え、次に文法規則を学び、それらを組み合わせて文を理解するという段階的学習である。しかしこのアプローチは、チャンキングの観点からは非効率的だ。学習者は常に意識的な処理を強いられ、自動化された塊としての認識が育ちにくい。

むしろ効果的なのは、最初から意味のある塊を単位として提示する方法である。日常会話で頻出する定型表現を、分析せずに丸ごと習得させる。”Let me think about it”や”That makes sense”といった表現を、一つの単語のように扱う。音声認識の訓練においても、個々の音素を聞き分ける練習よりも、プロソディ(韻律)パターンや頻出フレーズの認識を優先する。脳に英語特有のチャンク構造を刻み込むのだ。

2010年代の研究では、チャンクベースのリスニング練習――短いフレーズを繰り返し聞く方法――が理解力を向上させることが確認されている。この知見を踏まえ、教育現場ではワーキングメモリの枯渇を防ぐトレーニングプログラムの確立が模索されている。単に知識を詰め込むだけでなく、処理効率そのものを育成する方向性である。

LLMを活用した次世代教育支援システム

LLMの発展は、単なる類推以上の実践的意義を持つ。最新の言語モデルは、膨大なテキストデータから言語の統計的パターンを学習している。どのような単語の組み合わせが頻繁に共起するか、どのような表現が特定の文脈で使われるか、そうした情報が数十億のパラメータに圧縮されている。この学習データから、教育的に価値のあるチャンクを抽出できる可能性がある。

2025年の調査では、GPTのようなLLMを活用した翻訳教育ツールが、並行文コーパスを作成し、生徒のワーキングメモリ負荷を軽減する枠組みを提案している。また、多言語LLMのサーベイでは、トークナイザーのカスタマイズが低資源言語の教育を強化し、日本語-英語のギャップを埋めるポテンシャルが強調されている。

従来、語彙リストや定型表現集は、教師の経験や直感、限られたコーパス分析に基づいて作成されてきた。しかしLLMを活用すれば、はるかに大規模で精緻な頻度分析が可能になる。単なる単語の頻度ではなく、特定の学習段階や使用場面に応じた、最適なチャンクのリストを生成できる。さらに、それらのチャンクがどのような文脈で使われるかの豊富な用例も、瞬時に提供できる。

近年の研究では、LLMを活用した英語ライティング支援システムが開発され、学習者がリアルタイムでフィードバックを受け取りつつ自律的な学習を促進する方法が検討されている。これは教師と学習者の間に「AIコーチ」を置き、文法や語法だけでなく、発話の意図や流暢さについても助言を与える点で、これまでの自習ツールとは一線を画している。

より革新的な応用として、適応的学習システムの構築が考えられる。学習者の理解度や反応速度をリアルタイムで分析し、その学習者のワーキングメモリ容量や現在のチャンキング能力に応じて、提示する教材の難易度や情報密度を動的に調整する。認知負荷が高すぎると判断されれば、より小さなチャンクに分解して提示し、逆に余裕があれば、より大きな意味単位を扱う練習に移行する。このような個別最適化は、従来の一斉授業では不可能だったものだ。

言語学習におけるコードスイッチング(母語と第二言語の混在)をLLM支援の練習に取り入れる研究も登場している。従来ネガティブに捉えられていたコードスイッチングが、学習者の不安を和らげ、表現の意図を保持しながら第二言語能力を獲得するための橋渡しとして機能する可能性が示されている。LLMは多言語処理能力を用いて、このプロセスを支援する存在として位置づけられている。

音声認識技術の進歩も見逃せない。学習者が発話した英語を、単に正誤判定するだけでなく、どのようなチャンクとして処理されているかを分析できる。個々の単語を独立に発音しているのか、流暢なフレーズとして発話しているのか、プロソディは適切か。こうしたフィードバックは、学習者が自分の処理様式を客観視し、より効率的なチャンキングへと改善していく助けとなる。

2025年の機械翻訳時代に関するレビューでは、LLMが評価ツールとして翻訳品質を向上させ、生徒のモチベーションを維持する効果が示されている。AIは人間の認知限界を補う「外部メモリ」として機能し、オンライン心理学修士を目指す教師が実践するような、ハイブリッド教育の基盤となりつつある。

慎重さと可能性のバランス――技術と教育者の協働

ただし、技術への過度な依存には慎重であるべきだ。LLMが生成する教材は、統計的パターンに基づいているため、文化的な適切性や教育的な配列の妥当性を常に保証するわけではない。教師の専門的判断は依然として不可欠である。また、チャンキングの自動化が進んでも、言語の創造的使用や、文脈に応じた柔軟な表現の選択には、より高次の認知能力が必要とされる。教育の目標は、定型表現の機械的再生ではなく、真の言語運用能力の育成にあるべきだ。

近年、教育現場においては「AIが学習を代替する」のではなく、教育者の洞察力とAIの処理力を協調させるデザインが提案されている。AIは大量の例文やリアルな会話データを提示する一方で、教育者は学習者の認知負荷やワーキングメモリの状態に即した課題設定やフィードバック設計を担う、という分業モデルである。こうした人間と機械の協働は、単純な効率化を超え、学習の質そのものを再定義する可能性を持つ。

結語――認知科学とAI技術の交差点に立つ教育の未来

英語を教える先生が心理学の修士を目指しているという事実は象徴的である。言語教育はもはや言語学だけの領域ではない。認知心理学、神経科学、計算言語学、そしてAI研究が交差する学際的な営みとなっている。日本人学習者が英語習得時に直面する困難は、単なる教授法の改善では解決できない根深いものだ。しかし、人間の認知の本質的な制約を理解し、それに適応した学習方略を開発することで、突破口は見えてくる。

モーラからチャンクへ。この転換は、音声の物理的分節から意味の機能的単位への、処理様式の根本的変革を意味する。それは日本語母語話者としての私たちの認知的習慣を問い直し、新たな言語的思考様式を獲得していく挑戦である。そしてその挑戦を支えるために、AIの力を借りることができる時代が到来している。

私たちが次に目指すべきは、モーラや文節の違いという言語処理の基礎的な壁を理解しつつ、LLMという新たな道具を認知科学と教育理論の枠内で有機的に組み合わせる教育設計である。そのためには、単に技術への期待を語るだけでなく、現実的な学習負荷、ワーキングメモリの限界、そしてAIと人間教育者の役割分担を慎重に見極める必要がある。

認知科学とAI技術の融合がもたらす可能性は大きい。ワーキングメモリの制約という普遍的な認知的制限を理解し、それを克服するための最適な処理単位としてのチャンクに着目することで、より効果的な言語教育の道が開ける。LLMが発見した効率的な情報圧縮の原理は、人間の学習プロセスにも適用できる。技術は鏡となって、私たち自身の認知の仕組みを映し出している。

両者の歩みを相互に照らし合わせることで、私たちは「言語を理解する」という行為の本質に、より深く近づけるのではないだろうか。教育とAIは、互いを映し出す鏡として、共に進化する時代が来ている。技術と教育、機械学習と人間の学習、これらが響き合う地点に、言語教育の未来が待っている。

カテゴリー: 東大耳鼻科だより