LLMは科学者になれるのか
AIが論文を書き、仮説を提案し、実験計画を立てる時代が、すでに到来しています。では、AIは「科学者」になれるのでしょうか。
本稿は、Song et al.(2025)による実証研究(arXiv:2512.15567v1)を出発点に、この問いを科学哲学・制度批判の視点から深掘りしたものです。同研究が構築した「Scientific Discovery Evaluation(SDE)」は、従来の知識テストではなく、仮説の立案・実験設計・結果解釈・更新という科学的発見のループそのものを評価します。その結果、GPT-5をはじめとする最先端モデルは、既存のベンチマークで高得点を記録しながらも、発見プロセスの評価では明確に性能が低下しました。さらに、モデルの大規模化や推論量の増大が、この領域ではほとんど改善に寄与しなかったという知見は、示唆に富んでいます。
しかしこの論考が本当に問いかけているのは、AIの限界ではありません。私たちが長年「科学的思考の証拠」として評価してきたものは、いったい何だったのか、という問いです。思考ではなく「思考らしく見える文章」を評価し続けてきた制度の構造を、LLMはその精度の高さゆえに、鏡のように照らし出しています。
臨床医にとっても、研究との関わり方、論文の読み書き、エビデンスの評価をめぐって、決して他人事ではない問いが展開されています。ぜひ、お時間のあるときにお読みください。
本文の論点整理と構成の検討には GPT-5.3 Instant との対話を、全体の構成・編集には Claude Sonnet 4.6 拡張を用いています。
LLMは科学者になれるのか――思考と文章のあいだにある断絶、そして制度が隠蔽してきたもの
一、問いの出発点
近年の大規模言語モデル(LLM)は、科学論文の要約、仮説の提案、実験計画の作成、さらにはコード生成や文献整理まで、多くの研究活動において驚くほど高度な能力を示している。この進展は単なる技術的進歩にとどまらず、「AIは科学者になれるのか」という問いを、もはや未来のSF的思弁ではなく、現在進行形の問題として浮上させている。
この問いに対して正面から向き合う実証的な試みが、複数の研究機関の研究者らによる最新の研究である。彼らが行ったのは、従来の科学知識テストとは根本的に異なる評価であった。一般的なベンチマーク——GPQA、MMMU、ScienceQAなど——は、物理や化学の知識を問う問題に対してモデルが正しい答えを出せるかを測定する。しかしこうした評価は、実際の科学研究で求められる能力とは、本質的に乖離している。
科学研究の核心は、知識の想起ではない。仮説を立て、実験を設計し、観察結果を解釈し、必要に応じて仮説を更新する。この循環——いわば「科学的発見ループ」——こそが科学の本質的な営みである。研究者たちはこの発見プロセスを模した評価枠組み(Scientific Discovery Evaluation、SDE)を構築し、生物学、化学、材料科学、物理学の四分野にわたって、最先端のLLMを評価した。
結果は明瞭だった。多くの最先端モデルは従来の科学テストでは高得点を記録するにもかかわらず、この発見プロセスの評価では大きく性能が低下した。GPT-5はGPQA-Diamondで0.86という高精度を達成する一方、SDEの生物学では0.69、化学では0.60にとどまった。言い換えれば、科学者が用いる言語形式を巧みに再現する能力と、実際に科学的発見を進める能力のあいだには、明確なギャップが存在した。
さらに注目すべき知見がある。モデルのサイズを大きくしても、推論努力を増やしても、SDEにおいては性能向上が頭打ちになる傾向が観察された。通常の数学やコーディングのベンチマークでは新記録を打ち立てるような推論能力の向上が、科学的発見のタスクではほとんど貢献しないのである。また、異なるプロバイダの最上位モデル同士(GPT-5、Grok-4、DeepSeek-R1、Claude Sonnet 4.5)が、困難な問題で同じ誤りを犯す傾向があることも明らかになった。これは共通の失敗モードが、特定のアーキテクチャではなく、類似した訓練データや目標関数から生じていることを示唆する。
この研究が突きつける問いは、単純に「AIには科学ができない」という結論にとどまらない。むしろ私たちに問い返してくる。私たち自身がこれまで、何をもって科学的思考と呼び、何を評価してきたのか、と。
二、科学的発見ループと言語知能の分岐
科学研究の中心には、仮説と世界との衝突がある。研究者はある説明モデルを立て、それを実験や観察によって検証する。もし結果が予測と一致しなければ、仮説は修正されるか、場合によっては放棄される。この過程はしばしば痛みを伴う。研究者は時間と資源を費やした仮説を手放さなければならず、ときには自分の専門領域や信念体系そのものが揺らぐこともある。
現在のLLMは、この過程を言語として記述することはできる。しかし、その過程を主体として経験するわけではない。モデルにとって仮説とは内部状態ではなく、生成されたテキストの一部に過ぎない。誤りが明らかになっても、それは単に新しい入力が与えられたという事実に過ぎず、失敗の帰結を引き受ける主体は存在しない。モデルが更新されるとすれば、それは人間が外部から再学習によって行うのであり、モデル自身が自らの誤りを引き受けて変わったわけではない。そこには時間的連続性を持つ主体も、反省の経験も存在しない。
この違いは、能力の大小というよりも、知的活動の構造そのものの差異に近い。人間の科学者は、世界との相互作用の中で仮説を更新し続ける主体である。一方、LLMは膨大なテキストから学習された写像として、与えられた文脈に対して最も整合的な説明を生成する装置である。両者はしばしば似た文章を生み出すが、その背後にある過程は根本的に異なる。
もちろん、この違いはLLMの価値を否定するものではない。むしろ逆である。SDEの研究でも示されたように、LLMは遷移金属錯体の最適化や結晶構造探索、タンパク質配列の最適化、象徴回帰といったタスクで、驚くほど高い成果を示す。大量の文献から因果関係の断片を抽出し、分野を横断して組み合わせる能力、探索空間を広げる装置としての役割は、今後ますます重要になるだろう。研究が示した「guided exploration and serendipity(誘導された探索と偶然の発見)」という表現はこの点を的確に捉えている。LLMは既存知識の組み合わせを大規模に試行する装置として、人間研究者の探索を補助する役割を果たし得る。
しかし問題は、LLMが科学の主体になれるかどうかではない。問題は、私たちが長年「科学的思考の証拠」として評価してきたものが、実際には何だったのかという問いである。
三、スケーリングが効かない理由
SDEの研究が示した重要な知見のひとつは、モデルのサイズ拡大や推論努力の増大が、科学的発見タスクにおいては頭打ちになるという事実だ。一般的な科学ベンチマークや数学・コーディングのタスクでは顕著な進歩をもたらしてきたスケーリング則が、科学的発見においては機能しにくい。なぜか。
この問いへの答えは、科学的発見の構造そのものに潜んでいる。数学のベンチマークやコーディングタスクは、評価関数が明確に定義されており、正解が事前に存在している。モデルは膨大な試行の中から正解に収束することができる。しかし科学的発見においては、評価関数そのものが外在化できず、正解が事前に定義されていない。どの仮説が真実に近いかは、世界と対話してみて初めてわかる。
さらに深刻なのは、科学的発見が単なる探索の問題ではないという点だ。発見の核心は、失敗した仮説を「なぜ失敗したか」という理由とともに捨て、その過程で探索空間を絞り込んでいくことにある。LLMは仮説を大量に生成することはできても、この探索空間の収束を内在的に駆動する仕組みを持たない。なぜなら、LLMにとって失敗は単なる入力の変化であり、それを引き受けて自己を変容させる主体的な動機がないからだ。試行を増やしても、それは収束ではなく拡散をもたらす可能性がある。
SDEの研究はこの点をより具体的な形で確認している。プロジェクトレベルの評価では、質問レベルの正解率が高いモデルが必ずしも優れた発見プロセスを展開するわけではないことが示された。遷移金属錯体の最適化では、質問レベルでの正解率が低いにもかかわらず、GPT-5やDeepSeek-R1は優れた探索を展開した。一方、レトロシンセシスのような長期的な計画と厳格な有効性チェックが必要なタスクでは、質問レベルで高精度を誇るモデルでさえ従来の専門ツールに劣る結果となった。
これが意味するのは、言語的知能とスケーリングで向上する能力と、科学的発見に必要な能力は、異なる次元に属するということだ。言語知能は、過去に承認されてきた説明形式を再現し組み合わせる能力である。科学的知能は、世界からの否定を引き受け、仮説の探索空間を収束させながら前進する能力である。前者はスケーリングによって向上するが、後者は別の仕組みを必要とする。
四、なぜ私たちは「思考そのもの」ではなく「思考らしく見える文章」を評価してきたのか
この問いの核心には、回避不可能な事実がある。他者の思考過程に直接アクセスすることは、原理的に不可能だということだ。
査読者は論文を読む。採用委員会は業績リストを見る。評価者は発表を聞く。しかしそのどれも、研究者の頭の中で実際に何が起きたかを見ることはできない。私たちが接触できるのは常に、思考の結果であり、思考の痕跡であり、思考の外形的な産物である。したがって制度は必然的に、観測可能な何かを評価せざるを得なかった。
その「何か」として選ばれたのが、論理的整合性、既存研究との接続、説明の完結性、文体の洗練度といった文章の特徴だった。これらは思考の代理指標として機能してきた。前提と結論が矛盾していないか、適切な引用がなされているか、専門語彙が正しく使われているか。こうした基準は、それを生成した思考過程とは独立して判定できる。判定者の認知的負荷を抑え、短時間で大量の評価を可能にする。
しかしこの選択には、さらに現実的な構造的理由があった。現代のアカデミアは膨大な数の論文を処理する必要がある。年間数百万本の論文が出版され、査読者は限られた時間で複数の論文を評価し、採用や昇進の判断は短時間の審査で行われる。この条件下で、研究者がどのような失敗を経験し、どのように仮説を修正し、どこで世界から拒絶されたのかを詳細に検証することは物理的に不可能である。制度が採用したのは、迅速に判断できる完成品の品質という基準だった。
科学知識の流通という側面も、この傾向を強化した。流通する知識は再利用可能であり、第三者に伝達可能でなければならない。しかし思考過程は本質的に個人的で再現不可能である。研究者が深夜に感じた直観的な違和感、実験の失敗を前にした絶望、偶然の観察から得た着想——これらは当人にとって決定的であっても、他者に共有することは難しい。一方、整形された説明は教科書に書くことができ、引用され、技術応用に転用される。制度が評価したのは流通可能な知識商品であり、それを生成した思考ではなかった。
さらに、アカデミアは専門性の独占によって社会的地位を維持してきた側面がある。専門家であることの証明は、正しい答えを持っていること、確信を持って語れること、迷わないことだった。研究者が「実は分からない」「途中で迷った」「別の解釈もありうる」と正直に語ることは、専門家としての権威を損なうリスクを持つ。だから論文は確信に満ちた語調で書かれ、迷いや失敗は削除され、最初から分かっていたかのように構成される。これは個人の虚栄心だけではなく、制度的要請の結果でもある。
読者や査読者の側にも、認知的な構造が働いている。複雑な思考過程を追体験するのは疲れる。因果関係が明確なストーリーの方が理解しやすく、未解決の問題より綺麗に閉じた説明の方が心地よい。分からないことを分からないと書く論文より、すべてを説明し切った論文の方が高く評価される。それは後者が真実に近いからではなく、読者に確実性の感覚を与えるからだ。制度は評価者の認知的快適さを最大化する方向に、長い時間をかけて最適化されてきた。
西洋学術の伝統もこの傾向を支えてきた。明晰な言語表現を知識の証拠とする立場——論理実証主義やデカルト的明晰性の要請——は、言語化困難な思考要素を「科学的でない」として排除してきた。直観的な違和感、身体的な確信、暗黙知や熟練。これらは言語化されたものだけが思考として認められてきた結果、次第に制度の外側に置かれた。
そして最も直接的な理由がある。本当の思考は、誰にとっても困難で苦痛だからだ。真の思考とは、自分の信念が崩れる経験であり、答えが出ない状態に耐えることであり、既存の枠組みを疑うことだ。一方、思考らしい文章を書くことは、既存のパターンに従えばよく、答えは参考文献の中にあり、形式に従うことで承認が得られる。皮肉なことに、制度は実際の思考を罰してきた側面がある。独創的すぎる研究は査読を通りにくく、失敗を開示すると評価が下がり、不確実性を強調すると未完成とみなされる。この環境下で、研究者は思考を隠し、思考したように見える文章を生産する技術を磨いてきた。それは欺瞞ではなく、生存戦略だった。
こうした諸力の積み重なりによって、アカデミックな制度は「思考そのもの」ではなく「思考らしく見える文章」を評価するシステムとして長い時間をかけて収束してきた。そしてその帰結は、LLMの登場によって初めて明確な形で目に見えるものとなった。
五、LLMが可視化した制度の構造
LLMは、この構造を鮮明に浮かび上がらせた。思考を伴わなくても、思考らしい文章が生成できることが証明された。誰も内容を深く理解していなくてもシステムが回ることが明らかになり、形式さえ整えば価値があるとされてきた慣行が、外から見える形で露わになった。
LLMは欠陥品ではない。それは私たちの評価制度の忠実な鏡であり、私たちが何を長年評価してきたかを精確に反映している。LLMが論文を書けるのは、論文が思考を必ずしも要求してこなかったからだ。LLMが査読者を驚かせるのは、査読者が評価してきたものの多くが、文章の形式的な完成度だったからだ。LLMが研究者の文書作成作業を代替できるのは、その作業の一部が思考ではなく文章生産だったからだ。
これは批判ではなく、診断である。制度が評価してきたものの多くを、LLMが高い精度で再現できる——この事実は、制度が何を評価してきたかを、外側から測る装置として機能する。そしてその測定結果は、私たちに不都合な真実を突きつける。
もちろん、LLMに置き換えられない部分も存在する。SDEの研究が示したように、LLMは科学的発見のループの中で一定の役割を果たすことができる。しかし現時点では、仮説の生成と修正の過程を自律的に収束させ、世界の拒絶を引き受けながら探索空間を狭めていく主体的な能力は、限定的である。この限界は、モデルの改良によって部分的には克服されるかもしれない。しかしそれは、LLMが「世界と賭けを行う主体」になることを意味するのではなく、より洗練された探索装置になることを意味するに過ぎない。
賭けという行為には、間違えれば自分が損をするという構造が不可欠だ。LLMには、この意味での損がない。誤っても何も失わず、捨てなければならない必然性も生じない。再学習によってモデルが変わることはあるが、それはLLM自身が痛みの中から変わったのではなく、人間が外部からモデルを作り替えた結果である。この差は能力の問題ではなく、主体性の構造的な差異だ。
六、制度の転換という要請
思考らしい文章を評価し続ける限り、LLMに置き換え可能な研究者が量産され、実質的な知的進歩は停滞し、研究者の存在意義が揺らぐ。この帰結は避けられない。
したがって評価の転換は、倫理的な理想論ではなく、存在論的な必然である。では、評価すべきものとは何か。
第一に、世界との衝突の痕跡だ。仮説が否定された瞬間、説明が成立しなかった観察、解釈が破綻したデータ——こうした出来事こそが、研究者の思考が実際に世界と接触したことの証拠である。整った論文の中ではこうした痕跡は消される傾向があるが、それこそが思考の核心であり、評価の対象にすべきものだ。
第二に、失敗の誠実な開示だ。何がうまくいかなかったか、どの仮説を捨てたか、どのデータが説明できないまま残っているか。これらを論文の中核に据えることは、研究の弱さを示すのではなく、思考が実際に機能したことの証拠を示すことだ。LLMはこうした開示を形式的に模倣することはできても、実際にその失敗を経験した主体として書くことはできない。
第三に、不確実性の誠実な記述だ。何が分からないままか、どの条件下で自分の結論が否定されるか、将来どのような証拠が自分の仮説を覆すかを明示することは、思考の誠実さの指標となる。確実性の幻想を生み出す論文より、不確実性と正直に向き合った論文の方が、科学的思考の証拠として価値が高い。
第四に、賭けの明示だ。何を失うリスクを取ったか。時間、資源、評価、あるいは自分の信念体系のどの部分を賭けたのか。この問いに答えられない論文は、世界と接触していない可能性が高い。
この転換は苦痛を伴う。論文は読みにくくなり、著者は弱さと失敗をさらし、評価は困難になり、生産される論文の数は減るだろう。しかしそれでも残るのは、言語の形式的な完成度ではなく、現実に拘束された思考の痕跡だけだ。そしてそれこそが、LLM時代において人間が独自に保持できるものだ。
七、科学とは何か、という問い
LLMが科学者の言葉を操れるが科学者の思考は獲得していないという命題は、LLMの欠陥を指摘しているのではない。それは私たちが思考をどこまで言語に置き換えてきたかを示す証拠であり、科学とは何かという問いを根底から問い直す契機でもある。
科学は整った物語を書くことではない。科学は、世界と衝突しながら仮説を更新し続ける過程そのものだ。その過程において研究者は、失敗し、失い、訂正され、それでも続ける。LLMはこの過程を描写することができるが、その過程に立つ主体ではない。
SDEの研究が示したように、LLMはすでに科学的発見の多くの側面で貢献できる。しかしその貢献は、人間研究者の科学的発見プロセスを代替するものではなく、探索空間を広げ、既知の因果関係を組み替え、serendipityを補助する装置としてのものだ。この役割は重要であり、過小評価すべきではない。しかし科学の主体であることとは、構造的に異なる。
LLMは科学の制度が評価してきた部分を純化した存在だ。だからこそ、その登場は私たちに問いを返す。私たち自身の研究は、どこで世界に否定されているか。どの実験で、どのデータで、どの観察で、自分の解釈は拒絶されたか。即座に指差せる一点がない論文は、世界と接触していない可能性がある。多くの論文は、否定された痕跡を消す。ノイズとして除外し、例外として扱い、今後の課題に回す。こうして世界の拒絶は編集によって無害化され、論文は整う。しかしその瞬間に、思考は死ぬ。
最も鋭い問いは、あなた自身が書く論文は、どこで世界に否定されているか、という問いである。
八、結語——AI時代の科学における人間の位置
AIが科学を代替するかどうかという問いよりも重要なのは、科学とはそもそも何だったのかという問いであり、私たちが評価してきたものは何だったのかという問いだ。
LLMの登場はこの問いを、外側から浮かび上がらせた。思考なしで思考らしい文章が生成できることが証明されることで、私たちが長年思考の証拠として扱ってきたものの多くが、実際には思考の形式的な外形だったことが明らかになった。
しかしこれは絶望の理由ではない。むしろ、科学という営みを再定義する機会だ。科学者に残された固有の役割とは何か。それは整った説明を書くことではなく、世界との衝突を引き受け、否定される経験を蓄積し、その痛みとともに探索空間を収束させていくことにある。研究者とは、世界が誤りを強制する存在だ。間違え、失い、訂正され、それでも続ける。LLMはここに立てないし、立つ必要もない。
問題は、私たちの研究が、いつの間にかLLM側——拘束も賭けもない説明の生産——に近づいてはいないかという点にある。評価制度が思考の形式的外形だけを評価し続けてきた結果、研究者自身も次第にその外形を生産することに最適化されてきた可能性がある。LLMはこの傾向を加速する力を持つ。
したがってAI時代の科学における分水嶺は、誰がLLMを使うか使わないかではなく、世界からの拒絶を引き受ける覚悟があるかどうかにある。失敗した仮説、説明できなかったデータ、捨てられたモデル、将来どの条件で自分の結論が否定されるか——これらを評価の中心に据えることができるかどうかが、AI時代においても思考としての研究を維持できるかどうかの分岐点となる。
LLMは科学の凡庸さを増幅する補助輪にもなり得るし、人間の探索を加速する強力な補助装置にもなり得る。その使い方を誰が、どのような目的で定めるかは、制度の問題であり、研究者個人の問題でもある。
科学とは、完成された物語を書くことではなく、現実に拘束されながら理解を更新し続ける過程だ。LLMはその過程を記述することができるが、そこに立つ主体ではない。そして、そこにこそ、言語だけでは置き換えられない科学の核心が残されている。
