「Claudeは画像生成できない」という常識を覆す衝撃
「Claudeは画像生成しません」―これが2025年11月まで常識だった。
しかし、 その常識は終わった。
Kieran Klaassen氏のX投稿より:
@kieranklaassen
「Claude doesn’t do image generation. Except it does—just add a skill that connects Nano Banana Pro to your workspace.」
– 引用元:X (Twitter), 2025年11月22日
Anthropicが2025年11月に発表した Claude Skillsにより、Claudeは外部API連携が可能になった。そして、Gemini画像生成APIを統合するスキルが登場し、Claudeでの画像生成が現実になったのだ。
本記事で得られる知識:
- Gemini画像生成スキルの仕組みと2つのモデル(Nano Banana vs Pro)
- Claude Code/claude.aiへのセットアップ手順(5分で完了)
- 4K画像生成、セマンティックマスキング、反復改善の実践方法
- 効果的なプロンプト設計のベストプラクティス
Gemini画像生成スキルとは:ClaudeとGeminiの統合アーキテクチャ
Gemini Image Generation Skillは、Anthropicが提供するClaude Skills機能を活用し、GoogleのGemini APIをClaudeワークスペースに統合するプラグインだ。
技術的な仕組み
統合の基本構造:
- Claude Skills機能:Claudeに外部ツールやスクリプトを追加可能
- Gemini API:Google提供の画像生成エンドポイント(
generateContent) - マルチモーダルレスポンス:
responseModalities: ["TEXT", "IMAGE"]で画像とテキストを同時返却
Claude Skillsの革新性
Anthropicは2025年11月、Claude Apps、開発者プラットフォーム、Claude Codeの3つすべてで Skills機能をリリースした。
Claude Skillsの特徴:
- 自動連携:複数のスキルが必要に応じて協調動作
- ポータブル:claude.ai、Claude Code、APIで同じフォーマット使用
- 効率的:必要な情報のみを動的にロード
- 実行可能:スクリプトやコードを含めて信頼性の高いタスク完了が可能
2つのモデル:Nano Banana vs Nano Banana Pro
Gemini画像生成APIは、 2つのモデルを提供している。
| 項目 | Nano Banana | Nano Banana Pro |
|---|---|---|
| モデル名 | gemini-2.5-flash-image | gemini-3-pro-image-preview |
| 最大解像度 | 1024px | 4K (4096px) |
| 速度 | 高速 | 標準 |
| テキストレンダリング | 基本対応 | 高精度対応 |
| Google検索連携 | 非対応 | 対応 |
| マルチ参照画像 | 制限あり | 最大14枚 |
| 推奨用途 | 高速プロトタイピング | 高品質プロダクション |
Nano Banana(gemini-2.5-flash-image)
特徴:
- 1024px解像度に最適化
- 高速生成(フラッシュモデル)
- 基本的なテキストto画像生成に十分
推奨シーン:
- アイデアの素早い可視化
- プロトタイプ作成
- 反復実験フェーズ
Nano Banana Pro(gemini-3-pro-image-preview)
特徴:
- 4K解像度対応(最大4096px)
- 複雑な構図とテキストレンダリングに対応
- Google検索グラウンディングでリアルタイムデータ可視化
- 最大14枚の参照画像を使用した合成が可能
推奨シーン:
- プロダクション品質の画像生成
- ロゴやタイポグラフィの精密作成
- 複数画像の合成・編集
- 最新データに基づくビジュアライゼーション
セットアップ:5分で完了する導入手順
Gemini画像生成スキルを使用可能にするには、 5つのステップが必要だ。
ステップ1: Gemini APIキーの取得
1. Google AI Studioにアクセス
- URL: https://aistudio.google.com
- Googleアカウントでログイン
2. APIキー生成
- 「Get API Key」をクリック
- 新しいAPIキーを作成
- キーをコピーして安全に保存
ステップ2: 環境変数の設定
macOS/Linux:
# ~/.zshrc または ~/.bash_profile に追加
export GEMINI_API_KEY="your-api-key-here"
# 設定を反映
source ~/.zshrc
Windows:
# PowerShellで実行
[System.Environment]::SetEnvironmentVariable('GEMINI_API_KEY', 'your-api-key-here', 'User')
ステップ3: Python依存関係のインストール
スキルは以下の2つのライブラリに依存している:
pip install google-genai>=1.0.0 Pillow>=10.0.0
依存関係の役割:
- google-genai: Gemini APIとの通信
- Pillow: 画像処理とファイル操作
ステップ4: スキルの追加
Claude Codeの場合:
# スキルディレクトリに移動
cd ~/.claude/skills
# GitHubからスキルをクローン
git clone https://github.com/EveryInc/every-marketplace.git temp
cp -r temp/plugins/compounding-engineering/skills/gemini-imagegen ./
rm -rf temp
# または直接ダウンロード
mkdir -p gemini-imagegen
cd gemini-imagegen
# SKILL.md, requirements.txt, scripts/ をダウンロード
claude.aiの場合:
- Settings → Skillsに移動
- 「Add Custom Skill」をクリック
- スキルファイルをアップロード
- 「Enable」をクリック
ステップ5: Claudeの再起動
# Claude Codeを再起動してスキルを読み込み
# 新しいセッションを開始
基本的な使い方:画像生成の実践
セットアップ完了後、Claudeに 画像生成を指示するだけで動作する。
テキストから画像生成
基本的なプロンプト例:
Claudeに指示:
「未来的なサイバーパンク都市のイラストを生成してください。
ネオンライト、高層ビル、雨の夜、シネマティックな構図で。」
Claudeの動作:
- Gemini画像生成スキルを自動検出
- Gemini APIに接続
- 画像とテキスト説明を返却
- 必要に応じて画像をダウンロード可能
アスペクト比と解像度の指定
アスペクト比オプション:
- 1:1(正方形)
- 16:9(横長)
- 9:16(縦長)
- 21:9(超ワイド)
解像度オプション(Pro版のみ):
- 1K(1024px)
- 2K(2048px)
- 4K(4096px)
指定例:
「4K解像度、16:9のアスペクト比で、
プロダクト写真風の高級時計の画像を生成してください。
スタジオライティング、白背景、斜め45度のアングル。」
高度な機能:Pro版の真価
Nano Banana Proを使用すると、3つの高度な機能が解禁される。
1. セマンティックマスキング(画像編集)
既存画像を渡し、 会話形式で編集指示を出せる。
使用例:
「この画像の背景を変更してください。
都市の夜景から、静かな森の風景に。」
従来のマスク編集との違い:
| 従来のマスキング | セマンティックマスキング |
|---|---|
| ピクセル単位で領域を手動指定 | 自然言語で意味的な領域を指定 |
| 「左上の200×200pxを削除」 | 「背景の空を変更」 |
| Photoshop等のツール必須 | 会話だけで完結 |
2. 反復改善(マルチターン対話)
1回の生成で終わらない―これが反復改善の本質だ。
改善フロー例:
初回生成:
「企業ロゴを生成してください。AI関連のスタートアップ、
ミニマルデザイン、青系。」
→ 生成結果を確認
反復1回目:
「もう少し大胆に。幾何学的なシャープさを加えて。」
→ 改善結果を確認
反復2回目:
「完璧です。テキスト'IntelliSync'を追加してください。
サンセリフフォント、太字。」
3. Google検索グラウンディング
リアルタイムデータに基づく画像生成が可能。
使用例:
「2025年の世界GDP上位10カ国を示すインフォグラフィックを生成。
最新データを使用して、棒グラフ形式、各国の国旗付き。」
検索グラウンディングの威力:
- 最新の統計データを自動取得
- 事実に基づく正確なビジュアライゼーション
- トレンド、株価、天気等のリアルタイム情報反映
プロンプト設計のベストプラクティス
Geminiの画像生成は、 プロンプトの具体性に比例して品質が向上する。
1. スタイルを明示する
NG:「かわいい猫の絵を描いて」
OK:「かわいい猫のイラスト、川合風(kawaii style)、パステルカラー、セルアニメーション調(cel-shading)」
2. 写実的表現にはカメラ設定を含める
NG:「海辺の風景写真」
OK:「海辺の風景写真、Canon EOS R5、85mm f/1.4レンズ、ゴールデンアワー、浅い被写界深度、シネマティックな色調」
3. ライティングを詳細に指定
効果的なライティング指定例:
- 「スタジオライティング、キーライト右上45度、リムライト」
- 「自然光、窓からの柔らかい光、朝8時」
- 「ドラマティックなサイドライト、ハイコントラスト」
4. ロゴ・テキストはPro版を指定
NG:「会社のロゴを作って」
OK:「Nano Banana Proを使用して企業ロゴを生成。テキスト’TechVision’、Helvetica太字、ミニマルデザイン、青と白の配色」
5. 構図とアングルを明確化
構図指定例:
- 「三分割法、被写体を右下の交点に配置」
- 「俯瞰アングル(bird’s eye view)」
- 「ローアングル、迫力のある構図」
6. ムードと感情を伝える
ムード指定例:
- 「ノスタルジックで温かみのある雰囲気」
- 「サイバーパンクの暗く不穏な世界観」
- 「ミニマルで洗練されたモダンな印象」
実践例:4つのユースケース
ユースケース1: プロダクトモックアップ
プロンプト:
「4K、16:9で高級スマートウォッチのプロダクト写真を生成。
黒い革ベルト、アルミニウムケース、画面には心拍数グラフ表示。
白背景、スタジオライティング、斜め45度アングル。」
ユースケース2: ソーシャルメディア投稿画像
プロンプト:
「1:1、1K解像度でInstagram投稿用の画像を生成。
テーマ:AIと人間の協働。
抽象的なイラストレーション、温かみのある色調、
中央に'Future of Work'のテキスト、モダンなサンセリフフォント。」
ユースケース3: プレゼンテーション用インフォグラフィック
プロンプト:
「16:9、2Kでインフォグラフィックを生成。
タイトル:'AI導入による生産性向上'
3つのステップを視覚化:
1. 分析(データアイコン)
2. 実装(歯車アイコン)
3. 最適化(グラフ上昇アイコン)
各ステップに具体的な数値(+30%, +50%, +80%)。
青と緑の配色、ミニマルデザイン。」
ユースケース4: ウェブサイトのヒーローイメージ
プロンプト:
「21:9、4K解像度でウェブサイトのヒーローイメージを生成。
テーマ:未来のスマートシティ。
夜景、ネオンライト、ドローンが飛び交う、
高層ビル群、シネマティックな雰囲気、
下部1/3は暗めにしてテキストオーバーレイ用のスペース確保。」
制限事項と注意点
Gemini画像生成スキルには、いくつかの 制限と注意点がある。
SynthID透かし
すべての生成画像にSynthID透かしが埋め込まれる。
- 目視では判別困難
- AI生成を示すデジタル透かし
- 削除不可能
画像のみレスポンスモードの制限
画像のみのレスポンス設定では、Google検索グラウンディングが使用不可。
- テキスト+画像のマルチモーダルレスポンスが推奨
APIキーのセキュリティ
GEMINI_API_KEYは機密情報として扱う必要がある。
- 公開リポジトリにコミットしない
- 環境変数で管理
- 定期的にキーをローテーション
著作権とライセンス
生成画像の利用規約を確認する必要がある。
- 商用利用の可否
- 帰属表示の要否
- 二次創作の制限
まとめ:Claudeの可能性が広がった瞬間
「Claudeは画像生成できない」―この制約は過去のものになった。
Gemini画像生成スキルの統合により、Claudeは:
- テキストto画像生成
- 画像編集(セマンティックマスキング)
- 反復改善による高品質化
- リアルタイムデータに基づくビジュアライゼーション
これらすべてを 会話形式で実現できるようになった。
次のステップ:
- Gemini APIキーを取得(無料枠あり)
- 5分でスキル導入(上記手順に従う)
- Nano Banana Proで実験(4K画像生成を体験)
- 反復改善を実践(対話で品質向上)
Claudeの新たな可能性を、今すぐ体験しよう。
⚠️ 重要な注意事項:
Claude Skillsは強力だが、信頼できるソースからのみスキルを追加すること。コード実行権限を持つため、セキュリティリスクに注意が必要だ。
関連記事:
参考リンク:


コメント