Home / AI / 「AIで開発が19%遅くなった」衝撃の実験結果 なぜベテラン開発者は”速くなった”と錯覚したのか

「AIで開発が19%遅くなった」衝撃の実験結果 なぜベテラン開発者は”速くなった”と錯覚したのか

記事まとめ

  • 米国METRの実験で、ベテラン開発者16人がAIコーディングツールを使用したところ、予想に反して作業時間が19%増加し、本人たちは「20%速くなった」と錯覚していた
  • 実験に参加した開発者はAIにより開発が24%高速化すると予測していたが、実際に遅延を経験した後でも20%高速化したと錯覚していた
  • 遅延の5つの原因は、AIへの過度な楽観主義、ベテランの高い習熟度、10年もののレガシーコードの複雑性、AIの信頼性、文書化されていない暗黙知の存在

対談:AIコーディングで開発が19%遅くなった衝撃 なぜ開発者は”速くなった”と錯覚するのか


助飛羅知是:松永さん、最近IT業界ではCursorとかClaudeとか、AIコーディングツールが大流行りらしいですね。「もうエンジニアいらない」とか「開発速度10倍」とか聞きますけど、本当なんでしょうか?


松永尚人:それがですね、その「常識」を覆す衝撃的な研究結果があるんです。米国のModel Evaluation & Threat Research(METR)という研究機関の実験なんですが…


助飛羅知是:おお!きっと「AIで開発速度が100倍になった」とかいう話でしょう!


松永尚人:いえ、真逆です。なんと、AIを使った方が19%も遅くなったという結果が出たんです。


助飛羅知是:えっ


松永尚人:しかも実験に参加したのは、平均5年の経験を持つベテラン開発者16人。彼らは大規模なオープンソースプロジェクトで活躍している、いわばプロ中のプロです。


助飛羅知是:えっ


松永尚人:「当店のポイントカードはお餅でしょうか?」のコピペみたいな反応をやめてください。実はもっと興味深いのが、開発者たちの「認識」なんです。彼らは事前に「AIで開発が24%速くなる」と予想していました。


助飛羅知是:…24%速くなる…予想…ということは…つまり…


松永尚人:助飛羅さん?大丈夫ですか?


助飛羅知是:私の脳が処理を拒否しています。整理させてください。ベテラン開発者が…AIを使って…19%遅くなった…でも24%速くなると思ってた…?


松永尚人:現実を受け入れてください。そして、さらに衝撃的なのは、実験後に感想を聞いたら「20%速くなった」と答えたんです。


助飛羅知是:速くなった!?よかった!じゃあ結局AIは有効だったんですね!私の理解は間違ってなかった!


松永尚人:いや、だから実際は19%遅くなってるんです!データがそう示してるのに、本人たちは速くなったと思い込んでる!


助飛羅知是:つまり…遅くなったのに速くなったと感じる…これは…これは二郎で「大ラーメン」を頼んだのに「小」が出てきたけど、満腹になったから「やっぱり大盛りだった」と思い込むような…いや、違う…私の思考回路が…ギャハ…ギャ…


松永尚人:助飛羅さん!しっかりしてください!これ、実はすごく重要な発見なんです。人間はAIを使うこと自体に満足感を覚えて、実際の効果を正しく認識できない。そして「なぜAIの効果を錯覚したのか?」には心理学的な理由があります。「努力の正当化」という現象で、新しいツールを使用した労力を無駄だったと認めたくない。だから脳が「効果があった」と思い込むんです。

対談:ベテランほどAIが邪魔になる? 遅延を引き起こす5つの落とし穴


松永尚人:研究では遅延の原因として5つの要因が特定されました。第1の理由は、開発者のAIツールに対する過度の楽観主義です。実際には遅くなっているのに、AIが役立っていると信じ続けてしまう心理的な要因があります。これはさっきの「努力の正当化」の観点ですね。


助飛羅知是:ああ、分かります!私もMagic: The Gathering Onlineで同じ経験があります。「このデッキは理論上最強」と信じて5万円課金してカード揃えたのに、勝率23%。でも「相手のデッキがたまたま相性悪かっただけ」「土地事故だった」「あと1ターンあれば勝ってた」って言い訳し続けて時間を無駄にしました。ギャハ!


松永尚人:でも確かに「投資した分、価値があると信じたい」という心理は同じかもしれません。AIツールも導入コストや学習時間を投資した分、「効果がある」と信じたくなる。まさに「努力の正当化」の現象です。


助飛羅知是:そうそう!「このカードがあれば勝てる」→「AIがあれば速くなる」、全く同じ思考パターンです!現実は私のMTGの戦績と同じく惨敗なのに!


松永尚人:第2の理由は、開発者がリポジトリに高い習熟度を持っていたことです。経験豊富な開発者にとって、AIに頼らない方が効率的な場合があるということです。


助飛羅知是:ああ!それは分かります!私も二郎歴の長いベテランとして言わせてもらうと、最近の若い人は「二郎の注文ジェネレーター」とか使うん人もいるんですよ。でも真のジロリアンは違います。店に入る前から、店舗ごとの味の傾向、その日の気分や過去の経験を瞬時に計算して、着席と同時に「ニンニクアブラカラメ」を即座に発声できるんです。しかも三田本店と目黒店では微妙にコールのタイミングが違うことも体で覚えてる。


松永尚人:…それはもはや職人技ですね。実際、研究でもベテラン開発者たちは、コードを見れば問題箇所が分かる。でもAIに説明して、生成されたコードをチェックする時間があれば、自分で書いた方が速い。


助飛羅知是:そうそう!AIに「ニンニクマシマシってどのくらい?」とか聞くより、自分の経験知をもとに「マシマシ」って言った方が速い!…あれ、でもこれって、AIツールが悪いんじゃなくて、ベテランには必要ないってことですよね?新人なら役立つのでは?


松永尚人:鋭い指摘です!実はそこも重要なポイントで、この研究は「経験豊富な開発者」に限定した結果なんです。初心者への効果は、また別の話かもしれません。


松永尚人:第3の理由は、リポジトリの規模と複雑性
です。平均10年の歴史を持つ大規模で複雑なコードベースでは、AIの性能が制限されてしまうんです。


助飛羅知是:ああ、これは分かりますね。魔改造を重ねて誰も全容を把握してないシステムなんて世の中ごまんとあるじゃないですか。新米エンジニア時代の経験で、1個のプロセスを変更しようとしたら、謎のワークフローが何十個も連鎖反応起こして処理が全部エラーになったことがあったんですよね。コードのコメントには「// ここは絶対に消すな。理由は聞くな。2008/06/06」とか「// なぜ動くか分からないが動く。触るな。」とか、まるで古代の呪文みたいなコメントが。前任者は退職時に震え声で「満月の夜にコードの中身を見てはいけない…IF文の向こう側には、我々が触れてはならない真実がある」と言い残して、翌日から行方不明になったとか……。ギャハ!


松永尚人:
それもうホラーじゃないですか!盛り過ぎですよ!でも…確かにそういう「理由は分からないけど触ったら大惨事」みたいなコードって実在しますよね。対象となったコードにも「5年前のバグ対応で入れたif文」とか「なぜか動いてる理由不明瞭のロジック」のようなものが、おそらくいくつもあったのでしょう。人間なら経験で「ああ、これはアレだな」と分かるけど、AIには文脈が分からない。


松永尚人:第4の理由は、AIの信頼性です。開発者はCursorが生成したコードの44%未満しか受け入れず、受け入れた場合でも大幅な修正が必要でした。ちなみに、この実験で使われたのはClaude 3.5 SonnetとClaude 3.7 Sonnet搭載のCursor Proで、実験当時の最先端モデルでした。


助飛羅知是:44%!半分以下じゃないですか!でも待って、今Claudeはもっと新しいバージョンが出てますよね?


松永尚人:そうなんです。技術の進歩は速いので、実験当時より新しい今のモデルなら結果は違うかもしれません。ただ、この「44%問題」の本質は、AIの性能だけじゃないんです。


助飛羅知是:と言いますと?


松永尚人:実験では開発者が作業時間の9%をAI生成コードのレビューと修正に費やしていた。つまり、AIがどれだけ賢くなっても「これ本当に大丈夫?」って「人間がチェックする時間」が必要なんです。この時間だけは、どうしても作業時間に含まれてしまう。


助飛羅知是:あー!分かります!私のMTGのAIデッキビルダーも、新しいバージョンほど複雑なコンボを提案してくるけど、「これ本当に回るの?」って検証に時間がかかるんです。結局、シンプルな自作デッキの方が安定するという…ギャハ!


松永尚人:第5の理由は、リポジトリ固有の暗黙知の存在です。「このコードは一見不要に見えるが、5年前のバグ対応で追加したもの」といった文書化されていない知識をAIは活用できないんです。


助飛羅知是:暗黙知!つまりノウハウですね!昔、私がまだ新人だった頃、先輩のコードに「// 消すときは山田に聞け」ってコメントがあって。でも山田さんはもう退職してて、結局、恐る恐る消してみたら、なぜか社内プリンターの言語設定が全部フランス語になって…。


松永尚人:どんなコードなんですか!?いや、でもそういう「関係なさそうで実は繋がってる」謎の依存関係って、確かにありますよね。


助飛羅知是:ギャハ!そうなんです!人間なら「ああ、これは多分アレだな」って勘が働くけど、AIは「このコードは冗長です。削除を推奨します」って平気で言っちゃう。でも削除したら、社内プリンターの言語設定が全部フランス語になるかもしれない。


松永尚人:ならないですよ!普通は!

対談:AIは魔法の杖じゃない GitHouseが考える”本当に使える”AI活用


松永尚人:この研究から学ぶべきは、「AIは魔法の杖ではない」ということです。でも、だからといってAIが無価値というわけでもない。重要なのは「適材適所」なんです。


助飛羅知是:適材適所…つまり、AIに向いている仕事と向いていない仕事があるということですか?


松永尚人:その通りです。例えば、定型的な処理の自動化、大量データの初期分析、アイデアのたたき台作成などは、AIの得意分野です。一方で、複雑な判断や暗黙知が必要な部分は、まだ人間の領域。この「境界線」を見極めることこそが、AI活用の基本なのではないでしょうか。


助飛羅知是:なるほど!つまり二郎の店員で言えば、「過去の注文履歴から『この人は毎回ニンニクアブラカラメ』というパターンを学習する」のはAIの仕事。でも「今日は顔色悪いから、いつもマシマシの常連さんに『ニンニク少なめにしときますか?』って声かける」のは店員さんの仕事!ということですね!


松永尚人:意外と的確な例えですね。本質を理解していただけたようで何よりです。実際、今回の研究でも「19%遅くなった」という結果だけを見て「AIは使えない」と判断するのは早計です。確かに16人という限られたサンプル数の実験ですが、ベテラン開発者での結果という点で、我々技術者にとって非常に重要な示唆を含んでいます。むしろ「AIをどう使えば効果的か」を考えるきっかけになるのではないでしょうか。


助飛羅知是:確かに!失敗から学ぶことも大切ですね。私のMTGデッキも、負けた試合から学んで改良していきます。44%の勝率も、見方を変えれば「44%は勝てる」ということ!ギャハ!


松永尚人:ポジティブなのは良いことです。GitHouseでは、こうした最新の研究結果にも日々アンテナを張りながら、お客様に最適なAI活用方法をご提案しています。「AIに丸投げ」ではなく、「人間の専門性×AIの処理能力」で、本当の意味での業務改革を実現する。そういったアプローチをご提案していきたいと考えています。


助飛羅知是:素晴らしい!この「適材適所」の考え方、いろんなビジネスに応用できそうですね。例えば営業活動でも、AIがデータ分析して「このお客様は過去にこういう提案に興味を示した」という情報を出してくれて、でも最終的な提案内容は営業担当者の経験に基づいて決める、みたいな。


松永尚人:お、珍しくまともなことを…そうです!まさにその考え方がGitHouseの強みです。Salesforceの豊富な顧客データとAIを組み合わせ、かつ人間の判断も活かす。興味を持たれた方は、ぜひお問い合わせください。一緒に「本当に使えるAI活用」を見つけていきましょう!詳しくはこちらの問い合わせフォームからどうぞ。

関連リンク

AIでコーディングはどのくらい高速化できる?→実際は遅くなっていた 米国チームが実験 原因5つを特定

タグ付け処理あり: