Claude Opus 4.7 — Was hat sich gegenüber 4.6 geändert?

Am 16. April 2026 hat Anthropic Claude Opus 4.7 offiziell veröffentlicht — nur zwei Monate nach Opus 4.6. Das neue Flaggschiff bringt deutliche Verbesserungen in Coding, Langzeit-Tasks, Vision und multimodalen Fähigkeiten. Dieser Artikel fasst zusammen, was sich konkret geändert hat.

Basisinformationen:
Modell-ID: claude-opus-4-7
Preis: identisch mit Opus 4.6 (Input $5 / Output $25 pro 1M Token)
Verfügbar auf: Claude.ai · API · Amazon Bedrock · Google Vertex AI · Microsoft Foundry

2026年4月16日、AnthropicがClaude Opus 4.7を正式リリースした。前バージョンのOpus 4.6は2026年2月に登場したばかりだが、わずか2ヶ月でのメジャーアップデートとなる。コーディング、長時間タスク、ビジョン、マルチモーダル対応で顕著な改善が報告されており、開発者コミュニティの注目を集めている。

基本情報：
モデルID：claude-opus-4-7
価格：Opus 4.6と同額（入力 $5 / 出力 $25 ／100万トークン）
提供先：Claude.ai・API・Amazon Bedrock・Google Vertex AI・Microsoft Foundry

On April 16, 2026, Anthropic officially released Claude Opus 4.7 — just two months after Opus 4.6. The new flagship brings significant improvements in coding, long-horizon tasks, vision, and multimodal capabilities. This article breaks down exactly what changed.

Basic info:
Model ID: claude-opus-4-7
Price: same as Opus 4.6 (Input $5 / Output $25 per 1M tokens)
Available on: Claude.ai · API · Amazon Bedrock · Google Vertex AI · Microsoft Foundry

Die Claude-Modellfamilie im Überblick Claudeモデルの系譜 The Claude Model Family

Anthropic bietet drei Performance-Stufen an. Opus 4.7 ist die neueste Version des leistungsstärksten Grades:

Anthropicのモデルラインナップを理解するために、まず全体像を把握しておこう。Claudeには3つのグレードがあり、今回のOpus 4.7は最上位グレードの最新版だ。

Anthropic offers three performance tiers. Opus 4.7 is the latest version of the highest-performance tier:

Abb. 1: Claude Modellfamilie (April 2026)

図1：Claudeモデルファミリー（2026年4月）

Fig. 1: Claude Model Family (April 2026)

Bemerkenswert ist das Vorhandensein von Claude Mythos Preview an der Spitze — ein nicht-öffentliches Modell. Anthropic gibt zu, dass Opus 4.7 in der Leistung unterhalb von Mythos Preview liegt, das wegen Cybersecurity-Risiken nicht allgemein verfügbar ist. Opus 4.7 ist als „sicheres kommerzielles Flaggschiff" positioniert, bei dem die Cybersecurity-Funktionen absichtlich eingeschränkt wurden.

注目すべきは最上位にClaude Mythos Previewという非公開モデルが存在する点だ。Opus 4.7はMythos Previewより性能は劣るとAnthropicは認めているが、Mythos Previewはサイバーセキュリティリスクの懸念から一般公開されていない。Opus 4.7はそのMythosのサイバーセキュリティ機能を意図的に抑制した「安全な商用フラグシップ」として位置づけられている。

Notably, Claude Mythos Preview sits at the top as a non-public model. Anthropic acknowledges that Opus 4.7 falls below Mythos Preview in capability, which is not publicly available due to cybersecurity risks. Opus 4.7 is positioned as a "safe commercial flagship" with deliberately limited cybersecurity capabilities.

Opus 4.6 → 4.7: Was hat sich verändert? Opus 4.6 → 4.7：何が変わったか Opus 4.6 → 4.7: What Changed?

Abb. 2: Benchmark-Vergleich Opus 4.6 vs. 4.7

図2：主要ベンチマーク比較（Opus 4.6 vs 4.7）

Fig. 2: Benchmark Comparison Opus 4.6 vs. 4.7

Opus 4.6 Opus 4.7

Beim Coding-Benchmark SWE-bench: 80,8% → 87,6%. Cursor (IDE-Integration): 58% → 70%. Wissenschaftliches Denken (GPQA Diamond): 89% → 94,2%.

コーディング系ベンチマーク（SWE-bench）で80.8% → 87.6%、Cursor（IDEでの実際の開発作業）で58% → 70%と大幅に向上している。科学推論（GPQA Diamond）も89% → 94.2%だ。

On the coding benchmark SWE-bench: 80.8% → 87.6%. Cursor (IDE integration): 58% → 70%. Scientific reasoning (GPQA Diamond): 89% → 94.2%.

+13%

Coding-Task-Lösungsrate

コーディングタスク解決率向上

Coding task resolution rate

Vier neue Coding-Tasks gelöst, die weder 4.6 noch 4.7 zuvor lösen konnte.

93タスクのコーディングベンチマークで、4.6でも4.7でも解けなかった4つのタスクを新たに解決。

4 new coding tasks solved that neither 4.6 nor prior models could handle.

3.75×

Vision-Auflösung (Bildverarbeitung)

ビジョン解像度（画像入力）

Vision resolution (image input)

Bis zu 2.576 Pixel Eingabeauflösung — 3,75× höher als zuvor.

受け入れ可能な画像解像度が最大2,576ピクセルに。従来比3.75倍以上の高精細画像を処理可能。

Up to 2,576px input resolution — 3.75× higher than before.

98.5%

Visuelle Genauigkeit (XBOW)

視覚精度ベンチマーク（XBOW社）

Visual accuracy benchmark (XBOW)

Sprung von 54,5% auf 98,5%. Dramatische Verbesserung bei der Erkennung feiner UI-Elemente.

Opus 4.6の54.5%から急上昇。スクリーン上の細かな要素の認識・操作が飛躍的に改善。

Jump from 54.5% to 98.5%. Dramatic improvement in recognizing fine UI elements.

xhigh

Neues Reasoning-Effort-Level

新しい推論努力レベル

New reasoning effort level

xhigh zwischen high und max — feinere Kontrolle über Latenz vs. Tiefe.

highとmaxの間にxhighが追加。レイテンシと推論深度のバランスをより細かく制御できる。

xhigh between high and max — finer control over latency vs. depth trade-off.

Neue Features im Detail 新機能の詳細 New Features in Detail

Abb. 3: Neue Features von Opus 4.7

図3：Opus 4.7の主要新機能マップ

Fig. 3: Opus 4.7 New Features Map

Self-Check ist die wichtigste Verbesserung: Opus 4.7 erkennt logische Fehler in der Planungsphase und korrigiert sie, bevor eine falsche Antwort ausgegeben wird. Das erhöht die Präzision bei langen autonomen Agent-Tasks erheblich.

Hochauflösendes Vision macht in der Praxis einen großen Unterschied: Komplexe Diagramme, dichte Screenshots, medizinische und wissenschaftliche Dokumente mit feinen Grafiken können jetzt präzise verarbeitet werden. Im visuellen Genauigkeitstest von XBOW sprang der Wert von 54,5% auf 98,5%.

Für Entwickler: Was ist /ultrareview? 開発者向け：/ultrareview とは For developers: What is /ultrareview?

Ein neuer Slash-Befehl in Claude Code. Er analysiert Änderungen gründlich und listet Bugs und Designprobleme auf, die ein sorgfältiger Reviewer finden würde. Pro- und Max-Nutzer von Claude Code können es 3 Mal kostenlos testen.

Claude Codeの新しいスラッシュコマンド。変更内容を徹底的に精査し、慎重なレビュアーなら気づくバグや設計上の問題をリストアップする。ProおよびMaxのClaude Codeユーザーは3回無料で試用できる。

A new slash command in Claude Code. It thoroughly reviews changes and lists bugs and design issues a careful reviewer would catch. Pro and Max Claude Code users get 3 free trials.

自己検証（Self-check）は特に重要な改善だ。Opus 4.7は計画フェーズ中に自分の論理的な欠陥を検出し、誤った回答をユーザーに返す前に修正できるようになった。これにより長時間の自律エージェントタスクでの精度が向上する。

高解像度ビジョンは実務で大きな差を生む。従来は低解像度でしか処理できなかった複雑なダイアグラム、密なスクリーンショット、医療・科学文書の精細な図版が正確に読み取れるようになった。XBOWの視覚精度テストでは54.5%から98.5%と劇的な向上だ。

Self-Check is the most important improvement: Opus 4.7 detects logical flaws during the planning phase and corrects them before returning a wrong answer. This significantly increases accuracy on long autonomous agent tasks.

High-resolution vision makes a real difference in practice: complex diagrams, dense screenshots, and precise figures in medical and scientific documents can now be accurately processed. In XBOW's visual accuracy test, the score jumped from 54.5% to 98.5%.

Vergleich mit der Konkurrenz 他社モデルとの比較 Comparison with Competitors

Anthropic veröffentlichte Vergleichsdaten gegenüber GPT-5.4 (OpenAI) und Gemini 3.1 Pro (Google):

Anthropicは公式発表にGPT-5.4（OpenAI）とGemini 3.1 Pro（Google）との比較チャートを掲載している。

Anthropic published comparison data against GPT-5.4 (OpenAI) and Gemini 3.1 Pro (Google):

Abb. 4: Benchmark-Vergleich 4 Modelle

図4：主要4モデルベンチマーク比較

Fig. 4: Benchmark Comparison — 4 Models

GPT-5.4 Gemini 3.1 Pro Opus 4.6 Opus 4.7

Auf SWE-bench (reale GitHub-Coding-Tasks) führt Opus 4.7 mit 87,6% gegenüber GPT-5.4 (73%) und Gemini 3.1 Pro (74%). Auch bei GPQA Diamond (wissenschaftliche Fragen auf Graduate-Level) liegt Opus 4.7 mit 94,2% vorne.

Hinweis zu Benchmark-Grenzen: Benchmark-Werte sind Richtwerte. Bei spezifischen Anwendungsfällen (bestimmte Sprachverarbeitung, Domänenwissen, kreatives Schreiben) können sich die Verhältnisse verschieben. Im Zweifel: selbst testen.

SWE-bench（現実のGitHubコーディングタスク）ではGPT-5.4の73%、Gemini 3.1 Proの74%に対しOpus 4.7は87.6%と明確にリードしている。GPQA Diamond（大学院レベルの科学問題）でも94.2%と他を上回る。

⚠️ ベンチマークの限界：ベンチマーク数値はあくまでも参考指標だ。実際のユースケース（特定ドメインの文書作成、日本語処理、特殊な推論タスクなど）ではモデルの相対的な性能が変わることがある。自分のユースケースで実際に試すことが重要だ。

On SWE-bench (real-world GitHub coding tasks), Opus 4.7 leads at 87.6% vs GPT-5.4 (73%) and Gemini 3.1 Pro (74%). It also tops GPQA Diamond (graduate-level science questions) at 94.2%.

Note on benchmark limitations: Benchmark numbers are reference points, not absolutes. For specific use cases (domain writing, language-specific tasks, creative work), relative performance can differ. Always test with your own use case.

Migration von Opus 4.6: Was beachten? Opus 4.6から移行する際の注意点 Migrating from Opus 4.6: What to Watch Out For

Wichtige Migrationspunkte:

Prompts ggf. anpassen: Opus 4.7 folgt Anweisungen wörtlicher. Wenn das vorherige Modell vage Anweisungen „kreativ interpretiert" hat, können dieselben Prompts zu unerwarteten Ergebnissen führen.
Token-Verbrauch kann steigen: Durch den neuen Tokenizer verbraucht die gleiche Eingabe möglicherweise 1,0–1,35× mehr Token. Bei hohen Effort-Levels steigt auch der Output-Token-Verbrauch.
xhigh wird empfohlen: Für Coding- und Agent-Tasks empfiehlt Anthropic, mit high oder xhigh zu starten. In Claude Code ist xhigh jetzt der Standard.

移行時に気をつけること：

プロンプトの再調整が必要な場合がある：Opus 4.7は指示をより文字通りに忠実に実行する。以前のモデルが曖昧な指示を「良い感じに解釈してくれていた」場合、同じプロンプトで予期しない結果が生じることがある。
トークン使用量が増加する可能性：新しいトークナイザーにより、同じ入力でも1.0〜1.35倍のトークンを消費する可能性がある。また高い努力レベルでは出力トークンも増える。
xhigh設定が推奨：コーディングとエージェントタスクにはhighまたはxhighの努力レベルから始めることが推奨されている。Claude Codeではデフォルトがxhighに変更された。

Key migration points:

Prompts may need adjustment: Opus 4.7 follows instructions more literally. If the previous model "charitably interpreted" vague instructions, the same prompts may produce unexpected results.
Token usage may increase: The new tokenizer may consume 1.0–1.35× more tokens for the same input. Higher effort levels also increase output token usage.
xhigh is recommended: For coding and agent tasks, Anthropic recommends starting with high or xhigh. Claude Code now defaults to xhigh.

Fazit: Wer profitiert am meisten? まとめ：誰に何が嬉しいか Conclusion: Who Benefits Most?

👨‍💻

Software-Entwickler ソフトウェアエンジニア Software Engineers

Langzeit-Coding, komplexes Debugging und CI/CD-Integration stark verbessert. Größerer Bereich an Tasks, die ohne Aufsicht delegiert werden können.

長時間の自律コーディング、複雑なデバッグ、CI/CDパイプラインへの統合が向上。監督なしで任せられるタスクの範囲が広がる。

Long-horizon coding, complex debugging, and CI/CD integration all improved. Larger range of tasks that can be delegated without supervision.

📊

Daten- & Finanzanalysten データ・金融アナリスト Data & Finance Analysts

Branchenbestwert im Finance Agent Benchmark. Bessere Diagrammanalyse und präzisere Verarbeitung langer Berichte.

Finance Agentベンチマークで業界最高水準。複雑な財務モデルの構築、図表の解析、長文レポートの精密な処理が改善。

Industry-best Finance Agent benchmark. Better chart analysis and more precise processing of long reports.

🔬

Forschung & Life Sciences 研究者・ライフサイエンス Research & Life Sciences

Hochauflösendes Vision ermöglicht präzises Lesen chemischer Strukturformeln und technischer Zeichnungen. Patent- und Diagnoseunterstützung verbessert.

高解像度ビジョンにより化学構造式や複雑な技術図面の読み取りが向上。特許業務、診断支援ツールへの応用が広がる。

High-res vision enables precise reading of chemical structures and technical drawings. Patent work and diagnostic support improved.

⚙️

Enterprise-Entwickler エンタープライズ開発者 Enterprise Developers

Multi-Step-Agent-Workflows, automatische Fehlerkorrektur bei Tool-Aufrufen und bessere Konsistenz bei Langzeit-Tasks erhöhen die Produktionszuverlässigkeit.

マルチステップのエージェントワークフロー、ツール呼び出しエラーの自動回復、長時間タスクの整合性が向上。本番環境での信頼性が増す。

Multi-step agent workflows, automatic tool-call error recovery, and better long-task consistency increase production reliability.

Für allgemeine Unterhaltung und Textarbeit ist Sonnet 4.6 in den meisten Fällen ausreichend. Opus 4.7 ist Opus-Pricing, was der Mehrleistung entspricht — die richtige Wahl hängt vom Anwendungsfall ab.

一方で、一般的な会話やライティング用途であればSonnet 4.6で十分な場合が多い。Opus 4.7はその性能に見合った価格設定（Opusグレード）のため、用途に応じて使い分けることが重要だ。

For general conversation and writing tasks, Sonnet 4.6 is sufficient in most cases. Opus 4.7 is priced at the Opus tier to match its performance — choosing the right model depends on the use case.

— Likesいいねlikes

Quellen: Anthropic Official Blog · CNBC · Axios · GitHub Changelog · Stand: 16. April 2026

情報源：Anthropic公式ブログ · CNBC · Axios · GitHub Changelog · 2026年4月16日時点

Sources: Anthropic Official Blog · CNBC · Axios · GitHub Changelog · As of April 16, 2026