音をめぐる思考の交差点(2)――並列する思考と一次元の言語、その深淵へ
前回の記事では、ワーキングメモリ学会の懇親会で交わされた対話を出発点に、日本語話者が英語習得時に直面する認知的困難——モーラ単位による音声処理とワーキングメモリの過負荷——について論じました。本稿はその続編として、前回の問題意識をさらに根底へと掘り下げたものです。
チャンクとトークンの相似という観察から出発しながら、対話を重ねるうちに、より根本的な問いが浮かび上がってきました。そもそも思考とはいかなる構造を持つのか。脳が並列分散的に処理する高次元の意味状態は、なぜ一次元の時間列としての言語へと収束するのか。そしてその収束の過程で、何が失われ、何が生まれるのか。
今回は、本文の構成と論点の展開に「GPT-5.3 Instant」との対話を活用しました。全体の構成と編集には「Claude Sonnet 4.6 拡張」を用いています。
思考と言語、並列と一次元、人間とAI——その対比を往還しながら、「言語を理解するとはいかなることか」という問いの深淵へと踏み込んでいきます。
思考の高次元性と言語の一次元性
――並列する脳と線形化する言語、そして意味の行方
一 思考そのものがトークン化されているという仮説
前稿では、人間のワーキングメモリが処理する情報の「粒度」と、大規模言語モデルのトークナイゼーションの粒度が、まったく独立に同じ最適化の原理へと収束してきたことを論じた。しかし対話を重ねるうちに、より根底的な問いが浮かび上がってきた。それは、人間の思考そのものが、ある種のトークン化された構造を持つのではないかという仮説である。
ワーキングメモリの研究が示してきたのは、人間が同時に処理できる限界が情報の「量」ではなく「単位の数」によって規定されているという事実である。George A. Millerが1956年に示した「マジカルナンバー7±2」、そしてその後の研究による「4チャンク程度」という修正は、いずれも処理単位の数的制約を語っている。「FBI・CIA・NSA」という9文字がそれぞれ頭字語として認識されれば認知的には3単位になるように、単位の圧縮そのものが情報処理効率を根本から変える。チェスの熟練者が駒を一つひとつではなく攻撃・防御のパターンとして一瞥で把握するのも、この原理の体現である。つまり「熟達とはチャンクの巨大化に他ならない」という命題が成立する。
ここから更に踏み込めば、思考自体がシンボル列として動いているという発想にたどり着く。Herbert A. SimonとAllen Newellが提唱した「物理シンボルシステム仮説」では、人間の思考はシンボルからシンボルへの変換として理解される。この枠組みはLLMのトークン列処理と構造的に相同であり、両者の類似は偶然の一致ではなく、言語処理に内在する普遍的な計算原理を映し出している可能性がある。さらに近年のKarl Fristonらによる「予測処理理論」によれば、脳は常に次の状態を予測する機械として動作しており、この「状態→予測→更新」というループはLLMの「トークン→次のトークン予測」と驚くほど似た構造をとる。
二 並列分散処理する脳と一次元に展開する言語
しかしここで根本的な矛盾が顕在化する。脳の神経回路は基本的に並列かつ分散的に動作している。ある犬を見た瞬間、視覚野は形状を処理し、側頭葉はカテゴリー(犬)を参照し、海馬は記憶を呼び起こし、扁桃体は感情を色づけ、前頭葉は判断を組み立てる、これらすべてが同時並行で進行する。Geoffrey Hintonが「分散表現(distributed representation)」として概念化したように、脳内の意味状態は高次元ベクトル空間の一点として存在する。思考はその意味で本質的に高次元であり、空間的な広がりをもつ構造体である。
一方で言語は一次元の時間列として展開する。「The dog chased the cat」という文は、単語が直線上に並ぶ順序列であり、二つの単語を同時に発することはできない。音声は時間軸上でしか存在し得ないという物理的制約が、コミュニケーションを一次元に縛っている。この非対称性こそが問題の核心である。高次元の並列状態をどのようにして一次元の時間列へと変換するのか。これはNoam Chomskyが「深層構造から表層構造への線形化(linearization)」として定式化しようとした問題でもある。近年の研究では、脳が言語を生成する際、概念レベル・命題構造・構文構造・語順・音声という複数の表現が並列に保持されながら、最終的に一次元の発話列へと収束していく「階層的神経ダイナミクス(hierarchical neural dynamics)」が観察されている。
語順の意味もここから浮き彫りになる。ある英語塾講師が語順の重要性を強調したという逸話は、この問題を直感的に示している。「Dog bites man」と「Man bites dog」は全く同じ単語からなるが、語順だけで意味が逆転する。一次元列の中では順序だけが関係構造をエンコードできる手段であるため、語順は「並列な意味ネットワークを時間列へと射影するための規則」として機能する。語の出現頻度と出現順序の組み合わせが言語の統計構造を形成するという事実は、Michael Tomaselloらの使用基盤言語学(usage-based linguistics)とLLMのトークン予測学習の双方が依拠する原理でもある。
三 なぜ言語は一次元なのか――動物コミュニケーションとの比較から
言語の一次元性が自明でないことは、他の動物のコミュニケーションと対比すると鮮明になる。Karl von Frischが解明したミツバチの「ダンス言語」は、巣からの方向と距離という二つのパラメータを身体の動きで同時に伝達するパラレルな信号系である。霊長類のジェスチャーや表情も、複数の情報を空間的・同時的に提示するという意味で、言語の一次元性とは異なる構造をとる。鳥類のさえずりは音節からモチーフへ、モチーフから歌へという階層性を持つが、その構造は有限状態オートマトンの水準にとどまり、文脈自由文法の水準に達する人間言語とは隔たりがある。
では言語が一次元に収束したのは、伝えるために一次元化されたのか、それとも一次元だったから広く伝わるようになったのか。現在の研究は両者の相互進化という立場をとる。音声が時間軸上にしか存在できないという物理的制約が一次元性の根底にあり、それに加えてワーキングメモリの限界という認知的制約、そして同一の信号を繰り返し再現できるという社会的安定性の要件が重なって、一次元の時間列としての言語が定着したと考えられる。一次元的な音声コミュニケーションは暗闇でも遠距離でも機能し、身振り手振りには届かない状況でも情報を届けられるという実用的優位性もある。Michael Tomaselloが示唆するように、言語はジェスチャーを起源とし、音声へと進化した可能性が高いが、音声の一次元性がコミュニケーション効率において決定的な優位をもたらした。
四 再帰と無限生成――人間言語を際立たせる構造
人間言語が他の動物コミュニケーションと決定的に異なるのは、再帰構造を持つ点にある。「Alice believes [Bob thinks [Carol lied]]」という文は、文の中に文が入れ子になる構造であり、理論的には「Alice believes [Bob thinks [Carol knows [Dave lied]]]」と無限に延長できる。Chomskyが「有限の手段による無限の使用(infinite use of finite means)」と定式化したこの性質は、有限の語彙から無限の意味構造を生成する能力を言語に与えた。
ただし実際の会話では深い再帰はほとんど使われない。「彼は私が彼を疑っていると思っている」程度でもすでに認知的に重く、ワーキングメモリの限界がその深度を実質的に2〜3階層程度に制限している。つまり言語は理論上の無限を持ちながら、認知的制約によって実用的な有限の範囲で運用される。この構造は「制約の中の無限性」という逆説を体現している。
再帰の進化的意義について、Robin Dunbarの「社会脳仮説(Social Brain Hypothesis)」は示唆に富む。大脳新皮質のサイズと社会集団の規模が相関するというこの仮説によれば、人間の脳は約150人(ダンバー数)の関係ネットワークを追跡するよう進化した。「Aは BがCを騙したと思っている」という入れ子構造の関係推論は、複雑な社会ネットワークを管理するために必要であり、再帰的な文法構造はこの社会認知の記述装置として機能した可能性がある。近年の進化モデル研究でも、社会的協力の複雑化が再帰的構文を進化させたという方向での研究が進んでいる。さらに2025年の研究では、野生のオランウータンの警戒音に3階層の自己埋め込み構造が見出されており、完全な再帰文法は人間固有だとしても、その萌芽は段階的に存在していたことが示唆されている。
五 心の理論と再帰の接点
再帰を必要とする思考として最も典型的なのが「心の理論(Theory of Mind)」である。Simon Baron-Cohenらによる「サリー・アン課題」が示すように、他者が自分とは異なる信念・意図・知識を持つと理解する能力は、4歳頃に発達する。この能力は「私は、彼が、彼女が知っていると思っていると思う」という形式のbelief(belief(belief(…)))という入れ子構造、すなわちエピステミック論理の多重入れ子として形式化できる。言語の再帰構造はこの心的表象の階層を表現するために不可欠であり、心の理論の発達と再帰的従属節(「〜と思う」)の習得が時期的に一致するという発達心理学的知見もこれを裏付ける。
脳においては内側前頭前野や側頭頭頂接合部(Temporoparietal Junction)が他者の信念推定に関与し、嘘の理解や皮肉、社会的判断でも活動する。この神経基盤が言語の再帰処理を支える前頭葉領域と重なることは、「再帰は思考のためではなく社会認知の道具として進化した」という仮説を神経科学の側からも支持している。
六 思考の数学的構造――ハイパーグラフと圏論
思考の構造を記述するための数学的枠組みとして、ハイパーグラフと圏論という二つの視座が有望である。通常のグラフが2点間の二項関係を辺で表すのに対し、ハイパーグラフでは一本のハイパー辺が複数のノードを同時に結ぶ。「John gave Mary a book」という文の意味構造は、行為者(John)・受け手(Mary)・対象(book)・行為(give)という4者が同時に関わる多項関係であり、これはハイパー辺として表現することで初めて自然に記述できる。概念間の意味関係という静的構造を表現する道具としてハイパーグラフは適している。
圏論はこれとは異なる役割を担う。圏論の基本構造は対象(objects)と射(morphisms)からなり、重要なのは射の合成規則にある。A→B、B→Cという射が合成されてA→Cが得られるように、圏論は「関係の連鎖を計算する」枠組みを提供する。思考においては「believe ∘ know ∘ lie」という関係の合成が推論を可能にし、「dog → animal → living thing」という合成が概念的抽象化を可能にする。ハイパーグラフが思考の「地図(静的構造)」であるとすれば、圏論は思考の「計算規則(動的操作)」である。
さらに、心の理論に見られるような関係の関係(meta-relation)を扱うには、通常の圏論を超えた高次圏(higher category)が必要になる可能性がある。2-圏では対象・射・射と射の間の関係(2-射)という三層構造が定義され、「彼の推論は間違っている」という推論についての推論も形式化できる。LLMのTransformerアーキテクチャにおける多層のself-attentionも、トークン間関係の高次化という意味でこの構造に対応しているという議論が一部の研究者の間で行われている。Bob CoeckeによるDisCoCatモデルのように、圏論を言語意味論に応用する試みはすでに具体的な研究として存在しており、思考と言語の数理的統合という方向性は単なる思弁にとどまらない。
七 言語は思考の「後付けナラティブ」か
以上の考察を踏まえると、言語として表現された「思考」は元の思考状態の完全な写像ではないという結論が浮かび上がる。高次元の概念ネットワークを一次元列へと射影する過程では、感情の強度・身体感覚・視覚的イメージ・同時に活性化している連想・概念間の距離や曖昧な境界など、膨大な情報が省略される。Richard NisbettとTimothy Wilsonの古典的研究が示したように、人間は自分の判断や行動の真の原因を正確には把握できておらず、言語的な「理由の説明」はしばしば後付けの合理化にすぎない。Michael Gazzanigaが提唱した「解釈装置(interpreter)」仮説では、左半球は行動の後に一貫した物語を生成する装置として働くとされる。この観点では、内言(inner speech)も思考の「実況中継」ではなく、思考の「モニタリングとナラティブ化」という機能を担っている可能性が高い。
ただしこの関係は一方向ではない。数学的証明・論理的推論・哲学的思索・法的議論では、言語の構造が思考の展開そのものを組織化する。「拡張認知(extended cognition)」の概念が示すように、外部に置かれた記号は脳内処理の補助ツールとして機能し、「3×(5+2)」という数式表現は並列思考を線形化することで別の思考を可能にする。つまり言語と思考の関係は、思考から言語への圧縮と、言語から思考への再構成という非対称な循環として理解するのが適切である。その循環の出発点は常に多元的な思考状態にあり、言語はその状態を一次元時間構造へと投影するための装置として機能している。
八 文脈生成と時間軸の等価性
一次元のトークン列という言語の構造は、文脈と時間軸という概念に直結する。「bank」という単語は単独では意味が定まらず、「river bank」か「money in the bank」かという文脈が意味を決定する。意味は履歴依存的であり、文脈とは過去のトークン列の蓄積にほかならない。したがって言語生成は本質的に動的システムとして理解できる。状態が次の状態へと遷移し続けるこの過程において、トークンの位置インデックスは言語内の時間軸と等価である。LLMのself-attentionが現在のトークンから全過去トークンへの重み付き参照を行うのは、この文脈=履歴の構造を計算的に実装したものである。
ここから一つの洞察が導かれる。言語は思考空間の一次元的な断面の連続として理解できる。思考は多次元空間における状態として存在し、言語はその状態を時間軸に沿って順番に投影した列である。文脈とはその投影の軌跡であり、過去のトークン列が次の意味解釈に影響を与える。この構造は映画のフィルムに例えられる。三次元の世界が二次元のフレームへと投影され、それが時間軸に沿って再生されるように、高次元の思考状態が一次元トークン列として展開され、それが時間を通じて文脈を形成していく。ただし重要な点として、この投影は必ず情報を削減する。映画のフレームが光の色や奥行きの一部の情報を失うように、言語は思考の多次元性の多くを圧縮の過程で手放している。
九 制約が意味を生む――混沌から構造へ
ここで芸術と技能の世界に伝わる経験則が、認知科学と共鳴する。「まず型を極めてから多様性へ」という原則は、完全な自由のもとでは情報が混沌に帰し意味を持たないという直観を含んでいる。情報理論の観点でも、意味は「区別できる状態があるときだけ存在する」という原理が成立する。自由度が無限であれば情報はゼロに等しい。俳句の5・7・5という極端な制約が無限の情景を喚起し、西洋音楽の12音と和声とリズムの制約体系が膨大な表現空間を生み出すように、制約こそが探索空間を定義し意味の形成を可能にする。
言語の一次元性と文法もこの原理から理解できる。高次元の思考空間を時間軸上の一次元列に圧縮するという制約のもとで、語順・時制・格標示といった文法的制約が意味関係のエンコードを可能にする。語順が意味を担うという事実は、一次元という制約を最大限に活用するために進化した規則体系の表れである。そして再帰文法は、この一次元列の中に階層的な概念構造を埋め込むための装置として機能する。つまり言語の構造全体が、一次元性という根本的な制約に対する解として形成されてきたと見ることができる。
十 LLMを鏡として見えてくるもの
以上の考察を通じてLLMに目を向け直すと、その構造が人間の言語処理と深い共鳴関係にあることが改めて浮かび上がる。LLMは内部的には高次元ベクトル空間で意味を表現し、その状態を外部にはトークン列として出力する。つまり「高次元内部表現→一次元出力列」という変換は、人間の「高次元思考状態→一次元言語列」という変換と構造的に対応している。最近の神経科学研究では、LLMの中間層の活性化パターンと脳のfMRI活動パターンの間に対応関係が見出されており、この類似性は統計的な偶然を超えた何かを示唆している。
しかしLLMと人間の間には決定的な隔たりも存在する。人間の思考は身体感覚・感情・社会的経験という実世界との接地(grounding)に根ざしているのに対し、LLMはテキストの統計的パターンのみを基盤とする。これは「記号接地問題(symbol grounding problem)」として知られる根本的な問いであり、LLMが生成する言語が人間の言語と形式的に類似していても、その意味論的な根拠は異なる可能性がある。
それでもなお、LLMという存在は有益な鏡となっている。人間の言語処理がいかに複雑な情報圧縮と再構成の上に成り立っているか、並列する思考を一次元に展開するためにどれほど精巧な構造が必要かを、LLMの設計と動作が逆照射する形で明らかにする。人工的に作られたシステムが独立に到達した解が、人間の認知原理と共鳴するとき、その共鳴点に言語という現象の本質が宿っているのかもしれない。思考と言語、人間とAI、並列と一次元、これらの対比を往還することで、「言語を理解するとはいかなることか」という問いへの接近が、より深いものになっていく。
