報告によると、人工知能を使ってプログラムを書く際には、ドメイン知識と検証能力がプログラミング技術よりも重要である。専門的な判断力と問題設定能力を備えていることが、タスク成功率を大きく向上させる。
6月16日、Anthropicは研究報告「Agentic coding and persistent returns to expertise」(エージェンシックコーディング、指示出し型コーディングを意味し、あなたが指示を出し、AIがファイルを読み取り命令を実行して仕事を完了させる)を発表した。
報告は、2025年10月から2026年4月までの約23.5万人のユーザーと約40万回のClaude Codeとの対話を分析し、多くの人が不安に思う問題に答えようとしている:正式なプログラミング訓練を受けていない人でも、AIを指揮して複雑な技術作業を完遂できるのか?
報告の答えは肯定的だが、実際に注目すべきはその結論:プログラミングができるかどうかはそれほど重要ではなく、「手元の事柄を理解しているかどうか」の方がむしろ重要になってきている。
過去一年、「vibe coding」(感覚でコーディング、自然言語でやりたいことを伝えるとAIが動作可能なコードを生成し、実際に理解しなくても良い)が開発界隈で流行した。この流れに沿って、最も一般的なストーリーは:プログラミングの敷居が下がり、誰もがエンジニアになれる、というものだ。
このストーリーは誰にとって有利か?AIツールのメーカーや、「エンジニアを雇う必要がなくなる」と考える経営者にとっては良い話だ。しかし、報告のデータはそれをより現実的なバージョンに修正している。
Anthropicは、対話ごとにユーザーの専門度を「初心者から専門家」まで五段階で評価している。注意すべきは、この専門度は職位や頭の良さとは関係なく、特定のタスクにおける能力を示すものである。
報告は重要な例を挙げている:Pythonを使ったことのない会計士が、Claudeに対帳ルールを明確に伝え、月次締め時にAIの見落としを検出できれば、その人はそのタスクにおいては専門家だとみなせる。一方、Rust言語について初めて質問する経験豊富なエンジニアは、その時点では初心者だ。
つまり、「専門性」とはコーディングの技術ではなく、「解決すべき問題そのもの」をどれだけ理解しているかにかかっている。これが、報告を「誰でもエンジニアに取って代わる」と誤読しない理由だ。ドメイン知識は長年の積み重ねを必要とする専門判断の一種であり、消えたわけではなく、むしろボトルネックの位置に移動している。
報告の中で最もわかりやすい図は、人とAIの意思決定の分担を示している。Anthropicは、各決定を「計画」(何をするか、どの方法を使うか、どうやって完了とみなすか)と「実行」(どのファイルを変更するか、何のプログラムを書くか、どの言語を使うか)に分解している。結果は、平均して人が約70%の計画決定を行い、Claudeは約80%の実行決定を担っている。
図源:Anthropic
平たく言えば、人は出題と検証を担当し、AIは実作業を行う。そして、ユーザーの熟練度が高まるほど、この分担は「任せる」方向に傾く。報告によると、初心者の指示一つあたり、Claudeは平均約5つの動作をトリガーし、約600字の出力を生成する。一方、専門家の指示は約12の動作と約3,200字の出力を引き出す。熟練者は一度により大きな仕事を任せることを躊躇しない。なぜなら、どう記述し、どう検証すれば良いかを理解しているからだ。
これがこの報告の最初の直感に反する点だ:AIが強くなるほど、熟練者の「てこの作用」は縮小するどころか、むしろ拡大する。
Anthropicは、「この対話が成功したかどうか」を二つの方法で測定している。最も緩いのは「部分的に成功」だ。最も厳しいのはverified success(検証済み成功)で、これはAI自身が完了と判断しただけでなく、gitのコミットやテストの合格、ユーザーの明確な確認といった証拠も必要とする。
最も厳しい基準で見ると:初心者の検証済み成功率は15%に過ぎず、中級者から専門家は28%から33%に跳ね上がる。緩い基準では、初心者は77%、中級者以上は91%から92%に達している。
しかし、ここで重要な点は、報告が特に強調していることだ:大きな改善は「初心者から中級者へ」段階の進展に集中しており、中級者から専門家への上昇は平坦だ。報告の言葉を借りれば、ある領域の基本的な理解と操作ができるレベルに達すれば、多くのメリットを享受できる。深い熟練はほんの少しだけ追加の効果をもたらす。
また、「行き詰まったときに誰が支えられるか」も差を生む。問題に直面し(エラー、テスト失敗、反復試行)たとき、新人は19%がすぐに諦め、一行もコードを書かないのに対し、他の層は5%から7%の放棄率にとどまる。報告は、AIを正しい軌道に戻す能力もまた、専門性の一部だと解釈している。
もしプログラミングの背景が本当に重要なら、ソフトウェアエンジニアは圧倒的に優位に立つはずだが、実際のデータはそうではない。
コード生成に関わる対話において、ソフト関連職の検証成功率は約34%、その他の職業は約29%で、わずか5ポイントの差しかなく、その差は7か月間拡大も縮小もしていない。
報告は、上位10職業の成功率を統計的に示しており、どの職種もソフトウェアエンジニアの成功率から7ポイント以内に収まっている。さらに意外なことに、管理職の成功率はむしろソフトエンジニアよりやや高い。
報告は二つの可能な説明を挙げている:一つは、管理者の「指揮・交付・タスク定義」のスキルがAIの指揮にも転用できること。もう一つは、成功の判断がユーザーの明示的な「そうです」発言に依存しているため、管理者はより明確に伝える習慣がある、という偏りだ。
この7か月間での変化として、デバッグ(バグ修正や壊れたプログラムの修復)に費やす対話の割合が33%から19%にほぼ半減した一方、ソフトウェアの運用(展開、設定、実行)に関わる割合は14%から21%に増加し、文章作成やデータ分析は約10%から約20%に倍増した。
報告は、「受注市場の動向」と比較して、各タスクの価値を推定している(これはあくまで相対比較であり、正確な金額を示すものではない)。その結果、期間中の平均タスク価値は約27%上昇した(報告の要約では約25%と記載)。
この報告には、正直に認めている制約がある:実世界の結果を見ていないため、一度の対話で生成されたコードが実際に使われたかどうかはわからない。また、「非対話式」の利用(例:Claude Codeを自動化フローに組み込むなど)も除外されている。これらはかなり大きな部分を占める。すべての分類はモデルが逐語録を読んで判断した結果に基づく。つまり、これは「早期のスナップショット」であり、最終的な結論ではない。
さらに、知識労働者が心に留めておくべきは、報告の最後に埋め込まれた問いだ。Anthropicは、今後も追跡し続けると述べている:もし「ドメイン知識のリターン」がいつか低下し始めたら、それはモデルが自ら判断力を供給できるようになった証拠だ。
この報告の示唆は、「プログラミングができないこと」に焦る必要はなく、むしろ自分の専門分野をより深く理解し、「何が正しいか」を明確にすることに投資すべきだということだ。
問題を明確にした上でAIに加速させ、検証できる段階になってから手放すのが良い。
1.07M 人気度
20.39M 人気度
60.71K 人気度
933.58K 人気度
2.07M 人気度
Vibeコーディングしかできない者は専門家になれない!Anthropicが真実を暴露:専門知識はコードを書くことよりも重要だ
報告によると、人工知能を使ってプログラムを書く際には、ドメイン知識と検証能力がプログラミング技術よりも重要である。専門的な判断力と問題設定能力を備えていることが、タスク成功率を大きく向上させる。
6月16日、Anthropicは研究報告「Agentic coding and persistent returns to expertise」(エージェンシックコーディング、指示出し型コーディングを意味し、あなたが指示を出し、AIがファイルを読み取り命令を実行して仕事を完了させる)を発表した。
報告は、2025年10月から2026年4月までの約23.5万人のユーザーと約40万回のClaude Codeとの対話を分析し、多くの人が不安に思う問題に答えようとしている:正式なプログラミング訓練を受けていない人でも、AIを指揮して複雑な技術作業を完遂できるのか?
報告の答えは肯定的だが、実際に注目すべきはその結論:プログラミングができるかどうかはそれほど重要ではなく、「手元の事柄を理解しているかどうか」の方がむしろ重要になってきている。
「誰でもプログラムを書ける」この言葉は半分だけ正しい
過去一年、「vibe coding」(感覚でコーディング、自然言語でやりたいことを伝えるとAIが動作可能なコードを生成し、実際に理解しなくても良い)が開発界隈で流行した。この流れに沿って、最も一般的なストーリーは:プログラミングの敷居が下がり、誰もがエンジニアになれる、というものだ。
このストーリーは誰にとって有利か?AIツールのメーカーや、「エンジニアを雇う必要がなくなる」と考える経営者にとっては良い話だ。しかし、報告のデータはそれをより現実的なバージョンに修正している。
Anthropicは、対話ごとにユーザーの専門度を「初心者から専門家」まで五段階で評価している。注意すべきは、この専門度は職位や頭の良さとは関係なく、特定のタスクにおける能力を示すものである。
報告は重要な例を挙げている:Pythonを使ったことのない会計士が、Claudeに対帳ルールを明確に伝え、月次締め時にAIの見落としを検出できれば、その人はそのタスクにおいては専門家だとみなせる。一方、Rust言語について初めて質問する経験豊富なエンジニアは、その時点では初心者だ。
つまり、「専門性」とはコーディングの技術ではなく、「解決すべき問題そのもの」をどれだけ理解しているかにかかっている。これが、報告を「誰でもエンジニアに取って代わる」と誤読しない理由だ。ドメイン知識は長年の積み重ねを必要とする専門判断の一種であり、消えたわけではなく、むしろボトルネックの位置に移動している。
役割分担:あなたが問題を出し、AIが答える
報告の中で最もわかりやすい図は、人とAIの意思決定の分担を示している。Anthropicは、各決定を「計画」(何をするか、どの方法を使うか、どうやって完了とみなすか)と「実行」(どのファイルを変更するか、何のプログラムを書くか、どの言語を使うか)に分解している。結果は、平均して人が約70%の計画決定を行い、Claudeは約80%の実行決定を担っている。
図源:Anthropic
平たく言えば、人は出題と検証を担当し、AIは実作業を行う。そして、ユーザーの熟練度が高まるほど、この分担は「任せる」方向に傾く。報告によると、初心者の指示一つあたり、Claudeは平均約5つの動作をトリガーし、約600字の出力を生成する。一方、専門家の指示は約12の動作と約3,200字の出力を引き出す。熟練者は一度により大きな仕事を任せることを躊躇しない。なぜなら、どう記述し、どう検証すれば良いかを理解しているからだ。
図源:Anthropic
これがこの報告の最初の直感に反する点だ:AIが強くなるほど、熟練者の「てこの作用」は縮小するどころか、むしろ拡大する。
差を生む本当の数字は、成功率に隠されている
Anthropicは、「この対話が成功したかどうか」を二つの方法で測定している。最も緩いのは「部分的に成功」だ。最も厳しいのはverified success(検証済み成功)で、これはAI自身が完了と判断しただけでなく、gitのコミットやテストの合格、ユーザーの明確な確認といった証拠も必要とする。
最も厳しい基準で見ると:初心者の検証済み成功率は15%に過ぎず、中級者から専門家は28%から33%に跳ね上がる。緩い基準では、初心者は77%、中級者以上は91%から92%に達している。
図源:Anthropic
しかし、ここで重要な点は、報告が特に強調していることだ:大きな改善は「初心者から中級者へ」段階の進展に集中しており、中級者から専門家への上昇は平坦だ。報告の言葉を借りれば、ある領域の基本的な理解と操作ができるレベルに達すれば、多くのメリットを享受できる。深い熟練はほんの少しだけ追加の効果をもたらす。
また、「行き詰まったときに誰が支えられるか」も差を生む。問題に直面し(エラー、テスト失敗、反復試行)たとき、新人は19%がすぐに諦め、一行もコードを書かないのに対し、他の層は5%から7%の放棄率にとどまる。報告は、AIを正しい軌道に戻す能力もまた、専門性の一部だと解釈している。
過小評価されている発見:職業差は思ったほど大きくない
もしプログラミングの背景が本当に重要なら、ソフトウェアエンジニアは圧倒的に優位に立つはずだが、実際のデータはそうではない。
コード生成に関わる対話において、ソフト関連職の検証成功率は約34%、その他の職業は約29%で、わずか5ポイントの差しかなく、その差は7か月間拡大も縮小もしていない。
報告は、上位10職業の成功率を統計的に示しており、どの職種もソフトウェアエンジニアの成功率から7ポイント以内に収まっている。さらに意外なことに、管理職の成功率はむしろソフトエンジニアよりやや高い。
報告は二つの可能な説明を挙げている:一つは、管理者の「指揮・交付・タスク定義」のスキルがAIの指揮にも転用できること。もう一つは、成功の判断がユーザーの明示的な「そうです」発言に依存しているため、管理者はより明確に伝える習慣がある、という偏りだ。
この7か月間での変化として、デバッグ(バグ修正や壊れたプログラムの修復)に費やす対話の割合が33%から19%にほぼ半減した一方、ソフトウェアの運用(展開、設定、実行)に関わる割合は14%から21%に増加し、文章作成やデータ分析は約10%から約20%に倍増した。
報告は、「受注市場の動向」と比較して、各タスクの価値を推定している(これはあくまで相対比較であり、正確な金額を示すものではない)。その結果、期間中の平均タスク価値は約27%上昇した(報告の要約では約25%と記載)。
この報告が示さないが、より重要な考え
この報告には、正直に認めている制約がある:実世界の結果を見ていないため、一度の対話で生成されたコードが実際に使われたかどうかはわからない。また、「非対話式」の利用(例:Claude Codeを自動化フローに組み込むなど)も除外されている。これらはかなり大きな部分を占める。すべての分類はモデルが逐語録を読んで判断した結果に基づく。つまり、これは「早期のスナップショット」であり、最終的な結論ではない。
さらに、知識労働者が心に留めておくべきは、報告の最後に埋め込まれた問いだ。Anthropicは、今後も追跡し続けると述べている:もし「ドメイン知識のリターン」がいつか低下し始めたら、それはモデルが自ら判断力を供給できるようになった証拠だ。
この報告の示唆は、「プログラミングができないこと」に焦る必要はなく、むしろ自分の専門分野をより深く理解し、「何が正しいか」を明確にすることに投資すべきだということだ。
問題を明確にした上でAIに加速させ、検証できる段階になってから手放すのが良い。