KaleidoFuture / 検証データ / 突合レポート

突合レポート: Layer別リサーチ(3ペア)

突合レポート Layer 1/2/3 の全ペア突合結果 — 矛盾5件・不整合リスク10件・整合確認17件

並列リサーチ整合性検証レポート

検証日: 2026-04-08 対象: エンタープライズAIエージェント活用 — Layer別並列リサーチの突合検証 目的: 並列サブエージェントによるリサーチの整合性問題を実データで検証し、整合性チェックの仕組みづくりの根拠とする


検証方法

3つの並列リサーチ出力(Layer別)を、2ファイルずつのペアで突合(3ペア)。 各ペアで「同一エンティティに対する事実の記述」を抽出し、矛盾・不整合を検出した。

ペア ファイル 結果
L1 vs L2 Layer 1: コード生成ツールLayer 2: 開発パイプライン 矛盾4件、リスク5件
L1 vs L3 Layer 1: コード生成ツールLayer 3: 言語非依存ツール 矛盾1件(重大)、リスク4件
L2 vs L3 Layer 2: 開発パイプラインLayer 3: 言語非依存ツール 矛盾0件、リスク5件

検出された矛盾(重大度順)

1. [重大] COBOL→Java変換「ほぼ唯一」の誤り

L1: COBOL→Java変換にはIBM watsonxがほぼ唯一の本格ソリューション(3回繰り返し) L3: 富士通PROGRESSION(北米20年以上・50社超実績)、NTTデータ t4C(専用LLM)、TISモダナイゼーションの3社を紹介

→ L1エージェントがスコープ内の情報のみで判断し、L3が持つ競合情報を知らないまま「唯一」と断言。並列リサーチの典型的な問題

2. [高] 日立製作所 GitHub Copilot 導入規模

同一出典URL(Microsoft事例ページ)から、3ファイルで異なる数字が抽出されている:

ファイル 記述
L1 約3万人対象、10〜20%生産性向上
L2 5,000名規模展開中
L3 200人パイロット→全社展開

→ 同一ソースから3エージェントが異なるファクトを抽出。数字自体は「200人パイロット→5,000名展開中→3万人対象」の時系列と読める可能性もあるが、検証なしでは判断不能。

3. [高] Amazon Q Developer 閉域網対応

L1: 非対応 L2: AWS PrivateLink経由で閉域網からアクセス可能

→ 「閉域網」の定義が統一されていない。完全エアギャップ vs VPN/専用線経由の違い。

4. [中] JetBrains AI Assistant 価格

L1: AI Pro $10/月、AI Ultimate $30/月 L2: AI Pro $8.33/月〜(年払い換算の可能性)、AI Ultimateプランの記載なし

→ 月払い/年払いの違いが明示されておらず、プラン体系の記載も不一致。

5. [中] Tabnine Enterprise 価格

L1: Enterprise(要見積り) L2: Enterprise $39/ユーザ/月

→ 同一プランに対して「要見積り」と具体価格が併存。


潜在的不整合リスク

Gartner調査の複数指標が混在

3ファイルにまたがって、以下の数字がすべて「Gartner 2025年7月調査」由来として散在: - コード生成・補完利用率: 49%(L1) - エンタープライズ向けコード系AI導入率: 20.8%(L2) - 日本の生成AI利用経験率: 26.7%(L2、ただしこれは総務省白書)

→ 読者がどの49%/20.8%/26.7%を見ているかで、日本のAI導入状況の印象が大きく変わる。

NTTデータ戦略目標の温度感

L2: 2027年度にAIネイティブ開発で40%効率化目標 L3: 2026年度中にシステム開発を「ほぼ生成AIが担う」技術を導入する方針

→ 年度も表現も異なる。別の発表を参照している可能性が高いが、統合すると混乱。

GitHub Copilot 生産性向上数値のばらつき

同一ツールについて「10-20%」「12%」「26%」「最大80%」が計測条件の説明なく散在。

セキュリティツールの選定基準の不一致

L2ではCheckmarxを重要ツールとして扱い、L3ではCheckmarxに触れずOpenText FortifyとAikido Securityを紹介。

APM/AIOps カテゴリの重複

L2のDynatrace Davis AI(APM分類)とL3の日立JP1等(AIOps分類)が機能的に重複するが、カテゴリが異なるため相互参照なし。

要件定義AI利用率 vs 成熟度評価の不整合

L1: Gartner調査で要件定義利用率 39.8% L3: 要件定義AIの成熟度を「実証実験→初期実運用段階」と評価

→ 39.8%という高い利用率と「実証実験段階」の評価が直感的に矛盾。


整合確認済み(主要)

エンティティ 確認内容
GitHub Copilot Fortune 100 90%採用(L1, L2一致)
GitHub Copilot 価格 Business $19/月、Enterprise $39/月(L1, L2一致)
ZOZO 全社導入 L1, L2一致、出典URLも同一
SBテクノロジー 1,100名 L1, L2一致
Amazon Q Pro $19/月 L1, L2一致
Tabnine エアギャップ対応 L1, L2, L3すべてで一致
Snyk MTTR 84%以上削減 L2, L3一致

検証から得た知見(スキル設計への示唆)

パターン分類

検出された問題は以下の3パターンに分類できる:

パターン 原因 検出難易度
A. 排他的情報による誤判断 COBOL変換「唯一」問題 エージェントが自スコープ外の情報を知らない 中(他ファイルとの突合で検出可能)
B. 同一ソースからの異なる抽出 日立 3万人/5,000名/200人 同じURLの異なる部分を拾っている 高(同一URLの検出は機械的に可能)
C. 定義の不統一 閉域網の基準、価格の月払/年払 用語・基準がエージェント間で暗黙的に異なる 低(人間の判断が必要)

スキルに組み込むべき処理

  1. 同一URL検出 → 同じ出典から異なる数字が出ていないか機械的にチェック
  2. 排他的表現の検出 → 「唯一」「のみ」「限定」等の排他的表現を抽出し、他ファイルの情報で反証がないか確認
  3. 数値突合 → 同一エンティティに関する数値(人数、金額、%)の一致確認
  4. 定義の明示化推奨 → 「閉域網」「導入率」等の用語に定義が付いていない場合に警告