Karpathy発autoresearch|寝てる間にAIが100回実験する時代

目次

寝てる間にAIが100回実験──autoresearchの衝撃

バイブコーディングの提唱者として知られるAndrej Karpathyが、新たなオープンソースツール「autoresearch」を公開した。AIインフルエンサーのチャエン氏(@masahirochaen)も「研究だけでなく、仕事でも使える考え方」と紹介し、大きな注目を集めている。

その仕組みはシンプルだが革命的だ。AIエージェントにLLMの学習環境を渡し、人間が寝ている間にエージェントが自律的にコードを書き換え、実験し、改善する。朝起きたら実験ログと改善済みモデルが手元に届いている──まさに「研究の自動操縦」だ。

autoresearchの全体像を示すインフォグラフィック

autoresearchの仕組み──たった630行で研究が自律化

autoresearchの技術アーキテクチャは驚くほどミニマルだ。

コアファイル 役割 誰が編集するか
program.md エージェントへの戦略指示書 人間
train.py GPTモデル・最適化器・学習ループ AIエージェント
prepare.py データ準備・トークナイザー 変更なし

人間が書くのはMarkdownファイル(program.md)だけ。Pythonファイルには触らない。実験もしない。判断もしない。全てをエージェントが自律的に実行する。

エージェントのループは以下の通りだ。

  • Step 1: エージェントがtrain.pyを自律的に書き換える
  • Step 2: 5分間のトレーニングを実行
  • Step 3: 検証損失(val_bpb)で結果を評価
  • Step 4: 改善なら採用(gitコミット)、悪化なら破棄
  • Step 5: ループを無限に繰り返す
autoresearchのエージェントループを示すフローチャート

数字で見るautoresearchの破壊力

autoresearchの実績は、数字で見ると衝撃的だ。

指標 数値 意味
1時間あたりの実験数 約12回 5分×12回=1時間で12パターン試行
一晩の実験数 約100回 人間の研究者なら数週間分
コード行数 約630行 極限までシンプルな設計
必要GPU 1枚 H100 1台で完結
2日間運用の成果 20個の改善を自律発見 学習時間11%短縮を達成

Karpathy自身が2日間autoresearchを稼働させたところ、depth-12モデルで約20個の改善を自律的に発見。検証損失の改善を積み重ねた結果、学習時間が11%短縮されたと報告している。

autoresearchの実験回数と成果を示す棒グラフ

READMEに書かれた衝撃の一文

autoresearchのREADMEには、未来の研究のビジョンが記されている。

「かつてフロンティアAI研究は、人間という“肉のコンピューター(meat computers)”がやっていた。食事をし、睡眠を取り、時々”グループミーティング”と呼ばれる儀式で音波インターコネクトを使って同期していた。その時代はもう終わった」

さらに衝撃的なのは、このコードベースがすでにAIによって10,205世代目に突入しているとエージェント自身が主張していることだ。人間が一つ一つ手作業で実験していた時代と比べて、桁違いのスピードで研究が進んでいる。

Karpathyの思想進化──バイブコーディングからautoresearchへ

Karpathyの発言を時系列で追うと、人間の役割が急速に縮小していることがわかる。

Karpathyの思想進化をたどるタイムライン
時期 発言・行動 人間の役割
2025年2月 「バイブコーディング」を提唱 AIに指示してコードを書かせる
2026年2月 「コードを直接書くのは1%」 エージェントの監督者
2026年3月 autoresearchを公開 Markdownを書くだけ

わずか1年で、人間の役割は「コードを書く人」から「方向性を示す人」へと完全に変化した。人間はMarkdownで戦略を書き、あとは寝る──これがautoresearchの世界観だ。

ビジネスへの応用──自律改善ループの威力

チャエン氏が指摘するように、autoresearchの思想はML研究だけのものではない。このループ構造はあらゆるビジネスに応用できる。

autoresearchの自律改善ループをビジネスに応用したマインドマップ

autoresearchのコアパターンを抽象化すると、以下の3ステップになる。

  • ① 人間が戦略を書く──Markdownファイルに「何を最適化するか」を定義
  • ② AIが実験・改善を自律で回す──コード変更→実行→評価→採用/破棄のループ
  • ③ 指標で自動判断する──改善なら採用、悪化なら破棄を機械的に繰り返す

チャエン氏自身も、Claude Codeをベースに全ての業務やタスクに.mdやskillを配置し、AIが自律的に動ける環境を構築している。「業務をAIだけで自己完結させて、フィードバックのループを作る」──この考え方を持ってAIツールに触れるかどうかで、今後の成長曲線が大きく変わるという。

Shopify CEOのTobi Lutkeもautoresearchのフレームワークを社内プロジェクトに応用し、検証スコア19%改善を達成したと報告されている。

次の時代を作る人の条件

autoresearchが突きつけるのは、「人間の価値は何か」という根本的な問いだ。

次の時代を作るのは、いちばん頭がいい人でも、いちばん働く人でもなく、いちばん上手く「問いを設計できる人」だ。

── チャエン氏(@masahirochaen)

autoresearchの要点をまとめたインフォグラフィック
教訓 内容
① 実行はAIに任せる コードを書く・実験する・判断する──全てエージェントの仕事
② 人間は「問い」を設計する 何を最適化するか、どの方向に進むかを定義するのが人間の価値
③ ループを回し続ける 一度ループが回れば、アウトプットの質を極限まで高められる
④ 630行で世界は変わる 複雑さは不要。ミニマルな設計こそが最強のアーキテクチャ

autoresearchは単なるMLツールではない。「人間が戦略を設計し、AIが実行・改善を自律で回す」という新しい働き方のプロトタイプだ。Karpathyが示した未来は、もう始まっている。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次