「正解がある」と思って育った世代の壁 — AIに容易に答えを求めるほど、自分が薄まる構造

🎧 この記事を音声で聴く（22:30）

※ この記事の音声版は edge-tts (Microsoft) で生成しています。息継ぎや疑問文の語尾など、人間の話し方と異なる箇所があります。

塾講師時代、僕は数学をメインで教えていました。ただ、高校受験では5科目を担当していたので、国語の記述問題や英作文、社会の論述問題も指導の範囲でした。

そういう問題で、生徒からよく聞かれた言葉があります。

「先生、これって自分の意見でいいんですか? それとも正解がありますか?」

問題文には、「あなたの考えを書きなさい」と書いてある。それでも生徒は確認に来る。当時の僕は、その問いに対してこう聞き返していました。

「あなたはどう思う?」

生徒は、たいてい嫌な顔をしていました。

10年以上が経って、僕は塾を辞めてエンタープライズ開発を5年やり、そのあと独立して半年が経ちました。

独立は、ある意味で「自分で決められる自由」を選んだはずでした。どの方向に事業を伸ばすか、何を残して何を捨てるか。決めるのは自分です。

でも独立後、知らない領域に直面するたびに、僕は何度もAIに同じ質問をしていることに気づきました。

「これで合っていますか?」

事業の方向性、案件の取捨選択、撤退の判断。答えのない選択肢を前にして、僕は「正解」を探しに行っていた。

10年前、生徒が嫌な顔をしながら僕に聞いてきたのと、ほぼ同じ言葉でした。

日本の受験のいまの姿

最初に、いまの日本の受験がどういう仕組みになっているかを、数字で確認しておきます。

大学入学共通テスト、いわゆる旧センター試験の後継です。2024年度の志願者数は49万1,914人、受験者数は45万7,608人でした。志願者数が50万人を割ったのは、1992年以来の32年ぶりだそうです。

過去6年の推移を一覧にするとこうなります。

年度	志願者数
令和3年	535,245人
令和4年	530,367人
令和5年	512,581人
令和6年	491,914人
令和7年	495,171人
令和8年	496,237人

少子化が進んでいるので緩やかに減ってはいますが、それでもまだ約50万人が、毎年同じテストを受けています。

この共通テスト、解答形式は 全科目マークシート方式のみ です。記述式はありません。2025年度（令和7年度）から「情報」が新しく加わって、7教科21科目体制になりましたが、大学入試センターが公開している解答用紙サンプルを見ても、すべてマーク式の仕様です。

利用大学等の総数も大きく、2022年度は870大学が共通テストを利用していて、これは過去最多でした。2024年度入試では、707大学（短期大学等を含めると864校）が利用しています。

つまり、 約50万人が同じマーク式テストを受けて、約864校がその点数で合否を決めている。「正解探し」の訓練が、個人の選択ではなく、国の制度として埋め込まれている構造です。

ここでもう一つ、関連する数字を並べます。

OECDのPISA調査というのがあります。15歳の生徒の学力を国際比較する大規模調査で、日本も毎回参加しています。

直近のPISA 2022で、日本の生徒の主要3分野（数学的リテラシー・読解力・科学的リテラシー）のスコアは、OECD加盟37か国中、すべて1〜2位という結果でした。具体的には、数学が1位、読解が2位、科学が1位です。

ただ、ここで一つ、抜けがあります。

PISA 2022には「Creative Thinking（創造的思考）」の調査もあって、64か国・地域が参加していたんですが、日本は不参加でした。

OECDが2018年からPISAに「革新分野（innovative domain）」として追加している調査群（2018年は Global Competence、2022年は Creative Thinking）に、日本は一貫して不参加です。理由は「受験者の負担への配慮」等とされています。

主要3分野では世界1〜2位、創造的思考のテストには出場していない。

これが、日本の受験のいまの姿です。

受験産業の規模と、探究学習の実情

受験のテスト形式は前章で見ました。ここに、もう一つ、産業のサイズを重ねます。

経済産業省の特定サービス産業動態統計より、学習塾にフォーカスして見てみると、2023年の学習塾売上高は約5,812億円（前年比およそ4%増）、事業所数は11,433拠点でした。

過去にさかのぼると、受講生数は2004年に944万人だったのが、2023年で1,409万人になっています。少子化が進んでいるのに、塾の受講生はおよそ1.5倍に増えている、という構図です。子どもの数は減っているのに、塾に通う子どもの割合は上がっている。

学校の授業に加えて塾でも「正解探し」を訓練する仕組みに、年間5,000億円超のお金が流れ続けている。これも数字としては結構大きな話なんですよね。

ここで、「では学校教育はどうなっているのか」も並べておきます。

2018年3月に告示された高校学習指導要領で、それまでの「総合的な学習の時間」が 「総合的な探究の時間」 に改称されました。2022年度入学生から年次進行で全面実施されているはずなので、いまの高校生はみんなこの時間を経験しています。

「探究」と名前がつけられた以上、ここでは正解のない問いを扱うことになるはずです。

ただ、文部科学省自身が、2025年10月15日の教育課程部会の資料（高等学校固有の課題、p.2）の中で、こう書いています。

生徒が自ら課題を設定する取組が少しずつ定着しつつあるものの、総合の本来の趣旨とは距離のある活動が依然として残る

文科省が自分で「総合の本来の趣旨とは距離のある活動が依然として残る」と認めている。看板は書き換わっていても、教室の中はまだ「正解探し」の延長線にある、というのが現場の率直な状況のようです。

ここまでの数字を一度まとめると、こうなります。

項目	数値
大学入学共通テスト志願者数（2024年度）	49万1,914人
共通テストの解答形式	全科目マーク式（記述式なし）
学習塾市場規模（2023年）	約5,812億円
学習塾受講生数（2023年）	1,409万人（2004年比およそ1.5倍）
高校「総合的な探究の時間」	2022年度全面実施。ただし文科省自身が「本来の趣旨と距離のある活動が依然として残る」と認識（2025年10月時点）

これだけ「正解探し」の訓練を受けてきた人間が、ある日、AIが瞬時に「答えらしきもの」を返してくる環境に出会う。 ここから先は、その時に何が起きるかの話です。

「正解」を求めたくなる心理

なぜ僕らは「正解はありますか?」と聞きたくなるのか。これは個人の意志の弱さではなく、ある程度まで心理学的に説明がついている話です。

足場を3つ用意します。

1つ目: 認知的閉鎖欲求（NFC）

社会心理学者の Webster と Kruglanski が1994年に提唱した概念で、曖昧な状態に耐えられず「どんな答えでもいいから確定した答え」を求める個人差特性のことです。論文では、予測可能性志向・秩序選好・曖昧さへの不快感・決定性・閉鎖的思考の5因子からなる42項目の尺度として測定されています。

論文の中で印象的なフレーズが、「seize and freeze」（つかんで凍結する）です。閉鎖欲求の高い人は、情報探索を早期に打ち切って、最初に得た回答に固執する傾向を示す、というものでした。

「これで合っていますか?」とAIに聞いて、最初に返ってきた答えに飛びつく動きは、まさにこの seize and freeze と同じ形なんですよね。

2つ目: 収束的思考と発散的思考

心理学者 Guilford が1950年のAPA会長講演で提唱した区分です。

– 収束的思考: 一つの正解に集約していく思考。受験のマーク式テストはこの筋肉を鍛える
– 発散的思考: 複数の可能性を広げていく思考。流暢性・柔軟性・独創性・精緻性で測られる

これは、Torrance の創造性テスト（TTCT、Torrance Tests of Creative Thinking）や、PISA 2022 の Creative Thinking 調査（前章で触れた、日本が不参加だった調査）の理論的背景にもなっています。

長年マーク式テストで訓練を積むと、収束的思考の筋肉が太くなり、発散的思考は相対的に薄くなる。これは原理的にそうなる、という話です。

3つ目: 選択式テストの副作用

Roediger と Marsh が2005年に発表した研究で、多肢選択テストは正答だけでなく誤答選択肢（lures）も記憶に符号化させ、後の自由記述テストで誤答として産出される 「false knowledge」 を生むことが示されました。

つまり、選択式の繰り返しは、自分で答えを構築する能力を相対的に弱める方向に働く可能性がある、というのが研究の結論です。

この3つを並べると、「正解はありますか?」と聞きたくなる心理はこんな整理になります。

心理の側面	裏にある概念・研究	AIに向くと出てくる現れ方
曖昧さを早く閉じたい欲求（NFC）	Webster & Kruglanski 1994	最初に返ってきた答えに飛びつく seize and freeze
収束的思考が発散的思考より太く鍛えられている	Guilford 1950	複数案を広げず、一つに集約しに行く
自分で答えを構築する筋肉が薄くなっている	Roediger & Marsh 2005（選択式の副作用）	AIが出した候補から選ぶだけになる

ここで補足を一つ入れておきます。「日本人は他国より閉鎖欲求が高い」みたいな話は、僕の理解では実は単純化しすぎです。 Kashima と Pillai の2011年の研究では、文化移行下にある留学生を対象に、「Hofstedeの不確実性回避指数が低い文化ほどNFCが高い」という関係が報告されているくらいで、日本は不確実性回避が高い国に分類されることから、単純に「日本人＝高NFC」とは言えないんですよね。なので、文化論には深入りせず、ここでは「マーク式中心の教育を長く受けた個人は、収束的思考と seize and freeze が強化されやすい」とだけ書いておきます。

AIに「これで合っていますか?」と聞いたとき

ここから記事の中盤に入ります。

「正解はありますか?」と聞きたくなる心理が前章で見えました。じゃあ、その心理がAIに向くと、何が起きるか。

先に整理を一つ。先週公開したAIを使うほど読む力が要るパラドックスと、その前のレポートを書く意味がわからない問題で、AI時代の「読む」「書く」という動詞に分けて整理しました。「読む」記事の中で、MIT Media LabのEEG研究（査読前のプレプリント）や、Cornell大学の2025年4月発表論文「AI suggestions make writing more generic, Western」で「AI提案を受けて書くと文体が西洋的・画一的に収斂する」現象に触れました。

今回はそれの隣にある、もう少し構造寄りの研究を並べます。

研究1: Padmakumar と He

NYUの Vishakh Padmakumar と He He が、言語モデルとの共同執筆はコンテンツ多様性を減らすかを実験した論文（arXiv:2309.05196）があります。

被験者を「GPT-3（ベースモデル）」「InstructGPT（RLHF済み）」「モデル無し」の3群に分けて議論的エッセイを書かせたところ、InstructGPT群でのみ、執筆者間の文章類似度が統計的に有意に上昇し、語彙的・内容的多様性が低下した、という結果でした。

注目すべきは、ベースモデルを使った群ではこの同質化が起きていない、という点です。「人間の好みに合わせて調整された（=容易に答えを返す）モデル」ほど出力を平均化させている、という構造が浮かびます。さらに、AI由来のテキストだけでなく、「人間が書いた部分」までもが多様性を失っていた、という発見が含まれていました。

「AIに聞くと、自分の言葉も似てくる」という体感が、ここで裏付けられます。

正直、これは僕にとっても耳が痛い話なんですよね。

このジャーナル自体、並列リサーチをAIに投げて、戻ってきた素材を組み合わせて本文を組んでいる。先週の読む力の記事でも書きましたが、これは「AIが先に書いて、人間が編集する」順序に、かなり近い使い方です。「自分の言葉も似てくる」が、僕自身の文章に侵食していない保証は、正直ないんです。

研究2: Kirk らのRLHF研究

なぜ「人間好みな調整済み」モデルだと同質化が起きるのか。これは構造側の話で、UCL・Cohere・Meta の Robert Kirk らがRLHFがLLMの汎化と多様性に与える効果を実証した研究（arXiv:2310.06452）があります。

ここでは、RLHFを施したモデルは、SFT（教師ありファインチューニング）モデルと比べて分布外への汎化は優れる一方、出力多様性が顕著に低下することが示されています。著者らはこれを、「across-input mode collapse」（入力をまたいだモード崩壊）と呼んでいて、つまりLLMの平均化は使い方の問題ではなく、現代LLMの学習方式そのものに組み込まれた構造的特性だと示している研究なんですよね。

研究3: Anderson らの創造的アイデア出し

もう一つ、サンタクララ大学の Barrett Anderson らの研究（arXiv:2402.01536）があります。36名にアイデア出しをさせた実験で、ChatGPT群はアイデアの数と詳細度では上回ったものの、参加者間の意味的多様性が顕著に低下しました。

ここで重要な指摘が一つあります。著者らは、同質化は「個人がアイデアに固着するから」起きているのではなく、「LLMが異なるユーザーに似たアイデアを提案するから」起きていることを実証しました。つまり、個人レベルではなくグループレベルで発生する平均化、ということです。

3つの研究を並べると、AIに「これで合っていますか?」と聞いたときに起きていることは、こう整理できます。

観点	何が起きているか
学習方式	RLHFが構造的に “across-input mode collapse” を起こす（Kirk et al.）
出力	異なるユーザーに似たアイデアが配られる（Anderson et al.）
使った人間の側	AI由来の文章だけでなく、人間が書いた部分まで多様性が失われる（Padmakumar & He）

AIから返ってくる答えは、平均的になりやすい設計になっている。そしてそれを使った人間の側も、書く文章や出すアイデアが平均的になっていく。 これは「AIに頼りすぎなければいい」という個人の使い方の問題というより、RLHFの学習方式そのものから出てくる構造的な癖として理解する必要がありそうです。

自分が薄まる連鎖

ここからが、今回の記事の中心です。

前章までで見えてきたものを、僕個人の体験のスケールに落とし込みます。最近、独立後の事業判断でAIに「これで合っていますか?」と何度も聞いていた中で、僕の中で起きていた連鎖は、こんな形でした。

#	連鎖の中で起きること
1	容易に回答を求める
2	AIに「これで合っていますか?」と聞く
3	平均的な回答が返ってくる
4	出てきたものに特色がない
5	自分じゃなくても作れる
6	自分の価値って?（無価値感）

この連鎖、各ステップにそれぞれ別々の研究が貼れます。

ステップ1〜2: 容易に回答を求め、AIに「これで合っていますか?」と聞く

ここは前章の「正解」を求めたくなる心理がそのまま動いている部分です。seize and freeze の挙動が、AIプロンプトの場面に転写されている。

ステップ3: 平均的な回答が返ってくる

これも前章のRLHF mode collapseで説明済みです。AIから返ってくる答えは構造的に平均化されやすい。

ステップ4〜5: 出てきたものに特色がなく、自分じゃなくても作れると感じる

ここで Risko と Gilbert の「認知的オフロード（Cognitive Offloading）」の概念が効いてきます。彼らは2016年の Trends in Cognitive Sciences に掲載した綜説論文で、認知的オフロードを、「認知負荷を減らすために外部の物理的行動や道具に処理を委ねる行為」 と定義しています。

注目すべきは、人はメタ認知の誤評価により、自分の能力を過小評価したり過大評価したりして、最適でないオフロードを選びやすい、という指摘です。「これは自分でやらなくていい」の判断自体が、しばしば誤る。

AIから返ってきた平均的な回答を見て「自分じゃなくても作れる」と判断するとき、僕らは自分の能力を、たぶん過小評価しています。

ステップ6: 自分の価値って?

このステップを実証してくれる研究があります。Microsoft Research と Carnegie Mellon の Lee らが2025年のCHIで発表した319名対象の調査です。

ここで明確に出ているのは、AIへの信頼が高いほど批判的思考は減少し、自分への信頼が高いほど批判的思考は増加する、というトレードオフです。さらに、知識労働者のタスクのうち、AIアウトプットの妥当性を能動的に検証していたのは全体の36%にとどまる、という数字も出ています。

AIを信じる量と、自分を信じる量がトレードオフになっていて、容易に答えを求める使い方をすると、自分を信じる量が削れていく。「自分の価値って?」の感覚は、ここから出てきている可能性が高いと思っています。

業界全体の感覚も並べておきます。Stack Overflow の2024年Developer Surveyでは、AIの利用率は前年の44%から62%に増えた一方、AIへの好意度は前年の77%から72%に下がっています。「便利だが信頼はしていない」という二極化が、開発者集団のスケールでも観察されている。

僕自身、独立後の事業判断でAIに「これで合っていますか?」と聞いていた数か月、便利さと引き換えに、たしかに何か削れていく感覚はありました。それが「自分が薄まる」という言葉だったんですよね。

逆向きの研究

ここで、逆向きの結論を持つ研究も並べます。

反論1: Doshi と Hauser

UCLの Anil Doshi とエクセター大の Oliver Hauser がScience Advancesに発表した研究では、短編創作の大規模実験で、AIアイデアを参照できた執筆者の物語は、「より創造的・読みやすい・面白い」と評価された、という結果が出ています。特に元々創造性が低い書き手で効果が大きかった、という発見もあります。

ただ、同じ論文の中で、AI支援を受けた物語同士は互いに類似度が高く、集団としての新規性は減少する、という結論も同時に示されています。著者らはこれを、「個人は得するが集団は損する社会的ジレンマ」と表現しています。

つまり、個人レベルでは、確かに「AIを使うとアウトプットが良くなる」のは事実です。問題は、それを集団から見ると「みんな似てくる」という現象が同時に起きている点にあります。

反論2: Boussioux らの新規性比較

MITとハーバードの研究チームが、循環型経済のビジネスアイデアコンテストで人間とAIを比較した研究があります。125名の人間ソルバー対プロンプトされたAI解、計234案を300名で評価したところ、人間とAIの連携案は、人間単独と同等の創造性を達成し「価値」では上回った一方、「新規性（novelty）」では人間単独が勝った、という結果が出ています。特に上位の高新規性解では人間単独が優位、という分析もついています。

これを踏まえると、AIを使うかどうかではなく、「新規性」を狙う場面か、「価値」を狙う場面かで使い分けるべき、という結論になります。

これらを踏まえても、僕の中での読み筋はそれほど変わりません。

AIを使うこと自体は悪くない。むしろ価値を出すには使った方がいい。問題は、「正解を求めるモード」で使うと、新規性側の力が落ち、自分の特色が薄まることのほうにあります。

なので、結論を強引にAI否定に振るのではなく、使う側の問いの立て方を変えてみる、という方向に話を持っていきます。

労働市場が向かう先

問いの立て方を変える前に、世の中がいま何を求めているのかも一度確認しておきます。

世界経済フォーラムが2025年1月に発表した Future of Jobs Report 2025で、雇用主が「いま不可欠」と回答したコアスキルのトップは「分析的思考」（Analytical thinking）で、約7割の企業が「不可欠」と答えています。続いて「しなやかさ・柔軟性・俊敏性」（Resilience, flexibility and agility）、「リーダーシップ」、「創造的思考」、「モチベーションと自己認識」、と並んでいます。

2025年から2030年にかけて伸びるスキルとしては、「AIとビッグデータ」がトップで、次に「ネットワーク・サイバーセキュリティ」、「テクノロジー・リテラシー」、「創造的思考」、「しなやかさ」、「好奇心と生涯学習」 が続いています。伸び率で見ると、「答えのない状況に居続ける力」「曖昧さに耐える力」のほうが、純粋な分析力よりも前に出てきている、という構図です。

教育側の動きも同じ方向です。

OECDのLearning Compass 2030では、2030年の学習者像として3つの「変革的コンピテンシー」（Transformative Competencies）が挙げられています。

1. 新たな価値を創造する（Creating new value）
2. 緊張やジレンマと折り合いをつける（Reconciling tensions and dilemmas）
3. 責任ある行動をとる（Taking responsibility）

特に2つ目の「緊張やジレンマと折り合いをつける」が興味深くて、「ジレンマと折り合いをつける力」を能力として正式に名指しているわけです。これは「正解を選ぶ」とは違う筋肉で、矛盾を抱えながら判断する力のことを言っています。

日本側でも、経済産業省が2024年6月に公開した「生成AI時代のDX推進に必要な人材・スキルの考え方2024」で、「問いを立てる力」「仮説を立て・検証する力」「評価する・選択する力」 を明示しています。生成AIの普及で知識や技術は補填されるため、「より創造性の高い役割」が必要になる、という整理です。

世界経済フォーラム、OECD、日本の経産省。3者が並んで言っているのは、「正解を当てる力」ではなく「正解のない問いに居続けて、判断する力」が、これから求められる、という方向です。

問いの順序を変える

ここまで来たので、ようやく自分の話に戻します。

冒頭で書いた、塾講師時代の生徒からの、「先生、これって自分の意見でいいんですか?」と、独立後の僕の「これで合っていますか?」は、構造としてはほぼ同じものでした。10年以上経って、立場を変えても、聞き返しの先にあるものは seize and freeze だった。

じゃあどうするか。社会全体に「教育を変えろ」と言うのは大きすぎるし、僕の射程の外です。なので、自分のスケールでできることに絞ります。

僕がいま試しているのは、AIへの問いの順序を逆にする、という方法です。具体的には、こうなります。

観点	正解探しモード	主観性起点モード
AIへの最初の問い	「これで合っていますか?」	「僕はこう思うんですが、検証してください」
AIの位置づけ	正解の自販機	自分の考えを形にしてくれる相棒
返ってくる出力	平均的・特色なし	自分の主観の延長線
自分の価値	AIに代替される側	AIを使って増幅する側

最初に「自分はこう思う」を置く。 その上で、AIに検証や反論を投げてもらう。　これだと、出てくる出力は自分の主観の延長線として作られるので、平均化される度合いが下がる。Padmakumar & He の研究で多様性が低下したのは、「AIが先に書いて、人間が編集する」順序の使い方でした。順序を逆にする、というのはここに対応しています。

正直、これだけで「自分が薄まる連鎖」が完全に止まる保証はありません。「僕はこう思う」が出てこない場面では、結局「これで合っていますか?」と聞いてしまう。それが10年前に塾講師として生徒に対峙していた構造そのものなので、外すのは難しい。

それでも、10年前に生徒に「あなたはどう思う?」と聞き返していた僕は、いま自分自身に同じ問いを向ける段階に来た、という風には思っています。

問いの順序を変えるのは、AIの使い方の話のように見えて、実は正解探しOSの上に「自分はどう思うか」を一段挟むトレーニングになります。

これは、僕にとっては独立半年で見つけた一つの動詞です。

FAQ

「正解はありますか?」と聞いてしまうのは、悪いことなんでしょうか?

悪いことではないと思っています。Webster と Kruglanski の認知的閉鎖欲求は、人間の自然な傾向として研究されていて、ゼロにする必要はありません。問題は、答えのない領域でも seize and freeze の癖が出てしまう場合で、その時に「ちょっと待って、自分はどう思うか先に置こう」と切り替えられるかどうか、だと考えています。

AIに頼ること自体がダメということですか?

そうではないです。Boussioux らの研究では、人間とAIの連携案は人間単独と同等の創造性を達成し、「価値」では上回りました。AIを使うこと自体ではなく、「正解を求めるモード」のまま使うと新規性側が落ちて自分の特色が薄まる、というのが今回の論点です。問いの順序を変えれば、AIは引き続き相棒として機能します。

「これだから日本の教育は」みたいな話ですか?

そういう一般化はしたくないんですよね。Kashima と Pillai の文化比較研究では、日本人が他国より認知的閉鎖欲求が高いという単純な結論は出ていません。マーク式中心の教育を長く受けた個人が seize and freeze を強化されやすい、という構造の話に留めています。教育批判ではなく、自分の中の癖を観察する、という意図です。

「主観性起点」って、ただのプロンプトテクニックですか?

プロンプトテクニックの側面はあります。ただ、僕の中ではもう一段深い意味で使っていて、AIに何かを依頼するときに「自分は何を欲しているのか」を先に言語化する作業が、結果的に「答えのない状況に居続ける」訓練になっている、という実感があります。Padmakumar & He の研究で多様性が低下したのは「AIに先に書かせて人間が編集する」順序での話だったので、順序を逆にすると平均化される度合いが下がる、というのが構造的な裏付けです。

塾講師時代の生徒たちは、いまどうしていると思いますか?

これは正直、わかりません。当時「あなたはどう思う?」と聞かれて嫌な顔をしていた生徒たちが、いまAI時代に何を感じているのかは、僕の手元には情報がない。ただ、10年以上経ったいま、僕が独立して同じ問いを自分に向ける段階に来ているのは事実なので、彼らもどこかで似た問いに直面しているかもしれない、と感じています。

この記事が参考になったら