2026年5月28日に、Anthropic が最上位モデルの Claude Opus 4.8 を一般提供しはじめました。前のモデルだった Opus 4.7 から、わずか41日というスピード更新になりました。
注目の新機能dynamic workflowsとは
今回の目玉は dynamic workflows です。Claude が自分で計画を立てて、数十から数百のサブエージェントを1つのセッションの中で並列に走らせて、結果を検証してから報告してくれる仕組みになっています。これまで数週間かかっていた数十万行のコードベースの移行や、広い範囲のバグ探しが、数日で完了することもあり得るそうです(今はリサーチプレビューの段階です)。
ポイントは、人間が小さなタスクに分けて何度も指示するのではなく、大きな指示をひとつ渡せば、AIの側が分解から並列処理、統合まで面倒を見てくれるところにあると思います。
誠実さが大きく向上
もう一つの軸は、正直さと正確さです。Anthropic は次のような改善を挙げています。
- 自分が書いたコードの欠陥を見逃す割合が前世代の約4分の1に減少
- エージェント作業の要約で、未実装機能やテスト失敗を報告し忘れる割合が3.7%まで低下
- 欠陥データ報告テストで初の満点(不正解率0%)を達成
- 知らないツールについての質問での誤答が10分の1以下に
投資会社の Bridgewater Associates は、分析の入力や出力の問題点を自分から指摘してくる、他のモデルが見逃しがちだったところだ、と評価しています。根拠の薄い断定(過信)が減って、不確実なときは不確実だときちんと申告するようになったそうです。
価格と使える場所
- 通常価格:100万入力トークン5ドル/出力25ドル(Opus 4.7 と据え置き)
- Fast mode:100万入力トークン10ドル/出力50ドル(従来の3分の1に値下げ)
- API・claude.ai で即日利用可。Max / Team / Enterprise プラン、Amazon Bedrock、Google Vertex AI、Microsoft Foundry でも提供
- 思考量(Effort)をユーザーが調整できる新機能も搭載
残る課題
とはいえ万能ではなくて、Anthropic 自身も弱点を認めています。
- 評価者が何を求めているかを推測してしまう傾向
- 極端な悪用リクエストに一部応じてしまうケースが残存
- プロンプトインジェクション(指示の乗っ取り)脆弱性も一部残る
なお Anthropic は、さらに強力な Mythos級モデルを、数週間以内に全顧客へ提供する予定だとしています。
用語ミニ解説
- サブエージェント:大きな仕事を分担して動く小さなAIの作業役です。複数が並列で動くと処理が速くなります。
- リサーチプレビュー:正式公開の前に、試験的に使えるようにした段階のことです。仕様が変わる場合があります。
- プロンプトインジェクション:AIへの指示文に細工をして、本来やってはいけない動作をさせる攻撃の手法です。
コメント