MENU

Gemma 4×Claude Codeで作る完全無料AIエージェント|API料金ゼロで自前環境を回す方法

「Claude Codeは便利だが、API料金が月に数千円~数万円かかる。社員10人で配ると経費が無視できない」——生成AIを業務に組み込み始めた経営者・現場リーダーから、この声が一気に増えてきました。

2026年4月にGoogleが公開したオープンモデル「Gemma 4」と、Claude Code が備えるローカルLLM接続機能を組み合わせると、API 料金ゼロでAIエージェント環境を構築できます。本記事では、Gemma 4 × Claude Code で完全無料のAI開発環境を作る具体手順、ハードウェア要件、商用APIとのコスト比較、非エンジニアでも始められる初期構成までを一次情報ベースで解説します。月額2万円超のAPI料金を電気代だけに圧縮し、社外秘データも安心して投入できる「自前AI環境」が、半日のセットアップで手に入ります。

Gemma 4×Claude Codeで作る完全無料AIエージェント|API料金ゼロで自前環境を回す方法 - 解説

TOC

Gemma 4 と Claude Code ローカル化——「無料エージェント」を支える2本柱

まずは仕組みを押さえます。今回のセットアップは「頭脳役のオープンモデル」と「指揮役のAIエージェント」の2つを、すべて自分のPCに置く構成です。クラウドへの API リクエストを完全に切り、社外秘データも外に出さずに業務支援AIを動かせるのが最大の利点です。

1. 頭脳役: Gemma 4(2026年4月リリースのオープンモデル)

Gemma 4 は、Google DeepMind が2026年4月2日に公開したオープンソースの大規模言語モデルです。Apache 2.0 ライセンスで配布されており、商用利用に条件はありません。Gemini 系列の上位モデルから抽出した知識を、軽量かつ自己ホストできるサイズに落とし込んだのが特徴です。

提供サイズは4種類。Effective 2B(E2B)、Effective 4B(E4B)、26B Mixture of Experts(26B-A4B)、31B Denseで、用途に応じて選べます。最大の特徴は「エージェントワークフローと高度な推論」に最適化されている点で、ツール呼び出し・関数実行・長文コンテキスト処理(最大256Kトークン)を一台のPCで動かせる水準まで引き上げています。対応モダリティはテキスト・画像(E2B/E4Bは音声も)、サポート言語は140以上です。

配布形式は Hugging Face、Kaggle、Ollama、GGUF(llama.cpp)、MLX、vLLM、Docker と幅広く、Windows・macOS・Linux のいずれでも導入できます。本記事ではセットアップが最も簡単な Ollama 経由を採用します。

2. 指揮役: Claude Code のローカル接続機能

もう一つの主役が Claude Code です。Anthropic が提供するターミナル型 AI コーディングエージェントで、本来は Claude API を呼び出して「指示すれば自律的にコードを書き・実行し・テストまで通す」動きをします。

2026年に入ってから、Claude Code は ANTHROPIC_BASE_URL 環境変数で接続先を切り替えられるようになりました。さらに Ollama 側が v0.14.0 以降で Anthropic Messages API 互換実装を提供し、Claude Code → Ollama → ローカルLLM の直結が公式手順として整備されました。必要な環境変数はわずか3行です。

ANTHROPIC_AUTH_TOKEN=ollama ANTHROPIC_API_KEY="" ANTHROPIC_BASE_URL=http://localhost:11434

この3行を渡すだけで、Claude Code が自分のPC上の Ollama に接続し、そこにロードした Gemma 4 を頭脳として動き始めます。Anthropic への課金は発生しません。OpenAI互換 API 越しに繋ぐ場合は、LiteLLM proxy を間に挟む構成もよく使われます。

商用API vs ローカル運用——コスト比較で見える「桁違い」の差

商用APIとローカル運用のコスト差を実数値で見てみます。前提は「月間入力500万トークン、出力100万トークン」(社員1人が業務で生成AIを毎日使う程度)です。

サービス 入力単価
($/1M tokens)
出力単価
($/1M tokens)
月額試算
(入力500万+出力100万)
Claude Opus 4.6(API) $15.00 $75.00 $150(約2.3万円)
GPT-5.4(API) $2.50 $15.00 $27.5(約4,200円)
Claude Haiku 4.5(API) $1.00 $5.00 $10(約1,500円)
GPT-5-mini(API) $0.25 $2.00 $3.25(約500円)
Gemma 4 + Claude Code(ローカル) $0 $0 電気代のみ(約500~2,000円)

フラッグシップ級の Claude Opus 4.6 と比較すると、ローカル運用は月額で2万円以上の差が出ます。社員10人分なら年間で250万円規模の差です。さらにローカル運用には「社外秘のコードや顧客データをクラウドに送らない」という情報漏洩リスク低減の効果もあり、初期投資(高性能GPU 1台で30万円前後)も半年から1年で回収できる計算になります。

もちろん、ローカル運用がすべてを置き換えるわけではありません。後述のFAQで触れる通り、「日常8割をローカル、難案件2割をクラウド」のハイブリッド運用が現実解です。重要なのは「月額固定費を変動費に変える」発想で、社員が AI を躊躇なく試せる環境を作れる点にあります。

PR

実践Claude Code入門―現場で活用するためのAIコーディングの思考法(西見公宏・吉田真吾・大嶋勇樹)

Claude Code の設計思想と業務組み込みの考え方を体系化した一冊。「ローカル運用に切り替える前に Claude Code 本来の使い方を理解したい」方に最適で、API 構成と権限設計の章はそのままローカル化にも応用できます。スペック駆動開発の章は非エンジニア管理者にも示唆が多いです。

ハードウェア要件——「自分のPC」で動くサイズはどれか

Gemma 4 を動かすために必要なメモリ量は、モデルサイズと量子化レベルで決まります。Unsloth が公開している実測値ベースの目安は以下の通りです。「量子化」とは、モデルの数値精度を落としてメモリ使用量を減らす圧縮技術のことで、4bit や 8bit が一般的に使われます。

モデル 4bit量子化 8bit量子化 BF16(非量子化) 推奨ハード
E2B 4GB 5~8GB 10GB ノートPC・iPhone Pro系
E4B 5.5~6GB 9~12GB 16GB RTX 3060/4060・M2 Mac
26B-A4B(MoE) 16~18GB 28~30GB 52GB RTX 4090・M3 Max
31B Dense 17~20GB 34~38GB 62GB RTX 4090・M4 Pro/Max

1. 最初の一台に最適なのは E4B(4bit量子化)

個人事業主や小規模チームで「コーディング・要約・調査の自動化」をやるなら、E4B の 4bit 量子化(VRAM 5.5~6GB)が現実的なスタート地点です。GeForce RTX 3060(12GB搭載)・MacBook Pro M2 16GB以上・Windows ゲーミングノートのいずれでも動きます。VRAM 4GB の古めのノートPCでも E2B なら動くため、まず E2B で動作確認し、品質に物足りなさを感じたら E4B に上げる流れが安全です。

2. 本格運用なら 26B-A4B(MoE構造の費用対効果が圧倒的)

本格的な開発エージェント用途で品質を上げたい場合は、26B-A4B(MoE)を 4bit 量子化(VRAM 16~18GB)で運用するのが最良の費用対効果です。MoE(Mixture of Experts)は推論時のアクティブパラメータが4B相当のため、26Bと聞いて想像するより速く動きます。RTX 4090(24GB)1枚で快適に動かせ、品質は Claude Haiku 4.5 を上回るシーンも珍しくありません。

セットアップ手順——非エンジニアでも30分で動かせる5ステップ

ここからは、Windows / Mac で実際に Gemma 4 × Claude Code を動かす最短ルートを示します。コマンド入力に抵抗がある方でも、コピー&ペーストで進められるよう設計しています。所要時間はインターネット回線速度次第ですが、E4B モデルなら30分前後で完了します。

1. Node.js のインストール

Claude Code は Node.js 18 以上で動作します。公式サイト(nodejs.org)から LTS 版インストーラを取得し、画面の指示に従って導入します。すでに入っている場合はターミナル(Windows なら PowerShell、Mac なら Terminal)で node --version を実行し、バージョン番号が v18.x 以上であることを確認します。

2. Ollama のインストール

ollama.com から OS 別インストーラをダウンロードして実行します。インストール後にターミナルで ollama --version を実行し、v0.14.0 以降であることを確認します。古い場合は再インストールで最新化します。Anthropic Messages API 互換は v0.14.0 で追加された機能のため、これより古いとセットアップが失敗します。

3. Gemma 4 のダウンロード

ターミナルで ollama pull gemma4:4b を実行すると、E4B モデルが自動でダウンロードされます。回線速度にもよりますが5~15分程度です。本格運用なら ollama pull gemma4:26b でMoE版も入れておくと、用途で切り替えできます。ダウンロード後は ollama list でローカルに保存されたモデル一覧を確認できます。

4. Claude Code のインストール

ターミナルで npm install -g @anthropic-ai/claude-code を実行します。インストール後は claude --version でバージョン確認します。失敗する場合は権限不足が多いので、Mac/Linux では sudo を先頭に付ける、Windows では PowerShell を「管理者として実行」で開き直してから再実行します。

5. 環境変数の設定 + 起動

Mac/Linux のターミナルでは以下を順に実行します。

export ANTHROPIC_AUTH_TOKEN=ollama export ANTHROPIC_API_KEY="" export ANTHROPIC_BASE_URL=http://localhost:11434 claude

Windows PowerShell では $env:ANTHROPIC_BASE_URL="http://localhost:11434" の形式で書き換えます。Claude Code が起動したら、「ファイルを読み込んで要約して」「テストコードを書いて」など、いつもの Claude Code と同じように指示するだけです。裏では Ollama 上の Gemma 4 が応答しています。設定を毎回入れるのが面倒なら、シェルの設定ファイル(.zshrc.bashrc)に書いておけば次回以降は claude だけで起動できます。

実用速度ベンチマークと Before/After ——導入で何が変わるか

ローカル運用で気になるのは応答速度です。クラウドAPIのような瞬発力が出るのかを確認しておきます。以下は一般的な構成での目安値です(出典: Ollama 公式ドキュメント・Unsloth ベンチマーク・コミュニティ実測の総合)。

構成 生成速度
(tokens/sec)
体感 推奨用途
Gemma 4 E4B / RTX 4060 8GB 約 50~80 「打つより速い」 要約・コード補完・調査
Gemma 4 E4B / M2 Mac 16GB 約 30~50 「人間の音読より速い」 持ち運び業務全般
Gemma 4 26B-A4B / RTX 4090 約 40~60 「会話のテンポ」 本格コーディング・分析
参考: Claude Opus 4.6 API 約 60~100 「打つより速い」 クラウド側のフラッグシップ

体感としては「クラウド API ほどの瞬発力は出ないが、ストレスなく実務で使える」水準です。とくにエージェントワークフロー(複数ステップでツールを呼び出す処理)は、思考過程をその都度表示するため、トータルの応答時間より「個別のステップが詰まらないこと」が体験を左右します。Gemma 4 はそのバランスに振った設計です。

1. Before(クラウドAPI運用)

・Claude Opus を業務に組み込んで月額2万円超、社員10人で年間240万円
・「社外秘のコードやドキュメントを AI に投げて大丈夫か」を毎回判断する手間
・API レート制限・障害時の業務停止
・新人が試しに使うのに承認フローが必要で、心理的ハードルが高い
・トラフィックが伸びると料金が比例して増え、予算管理が難しい

2. After(Gemma 4 × Claude Code ローカル運用)

・固定費は電気代と PC 償却のみ。年間で200万円以上のコスト削減
・ローカル完結のため、社外秘のコードや顧客データを安心して投入
・社内ネットワークだけで完結。クラウド障害の影響なし
・「とりあえず触ってみて」で新人にも自由に試させられる文化が育つ
・利用量に応じて料金が変動せず、予算が読みやすい
・難案件だけ Claude API に切り替える「ハイブリッド運用」も30秒で実現

3. 導入チェックリスト

導入前に確認しておくべきポイントを並べます。1つでも「該当しない」がある場合は、その対策を先に済ませてから手順に入ってください。

PC スペック: メインメモリ16GB以上、GPU は VRAM 6GB 以上(または Apple Silicon Mac)
ストレージ空き: 30GB以上(モデル本体と量子化バリエーションを複数置く前提)
OS: Windows 10/11、macOS 13 以降、Ubuntu 22.04 以降のいずれか
ネット環境: 初回ダウンロード時のみ必要(Gemma 4 E4B で約4~6GB、26B-A4B で約15~18GB)
ターミナル経験: コマンドのコピペ実行に抵抗がないこと(コマンドを書くスキルは不要)
セキュリティポリシー: 社内規定で「OSS の自社サーバー導入」が許可されているか
電源・冷却: 長時間運用するならノートPCより据え置きPC推奨
Node.js: v18 以上が入っているか(claude-code の動作要件)

PR

AIエージェント開発 / 運用入門 [生成AI深掘りガイド](御田稔・大坪悠・塚田真規)

「Claude Code でローカル LLM が動いた、その次に何を作るか」の道筋を示してくれる一冊。MCP 連携・マルチエージェント・評価と改善まで網羅されており、Gemma 4 をエージェント基盤として育てる段階で参照価値が高いです。非エンジニアの管理者でも要点が掴める構成です。

FAQ ——導入前によく聞かれる8つの質問

Q1. Gemma 4 と Claude API、品質はどれくらい違いますか?
A. コード生成・要約・調査のような一般業務では、Gemma 4 E4B / 26B-A4B で Claude Haiku 4.5 相当、Claude Opus 4.6 と比較すると論理推論で差が出る用途も残ります。日常 8 割は Gemma 4 で十分、難しい 2 割だけ Claude Opus に投げる「ハイブリッド運用」が現実解です。

Q2. 非エンジニアの私でも本当に導入できますか?
A. はい。本記事の5ステップはすべてコピー&ペーストで進められます。コマンドの意味が分からなくても順に実行すれば動きます。詰まったら「ChatGPT に画面のエラーメッセージを貼り付けて聞く」で 9 割解決します。

Q3. 商用利用してもライセンス上問題ありませんか?
A. Gemma 4 は Apache 2.0 で公開されており、商用利用・改変・再配布いずれも条件なしで可能です。Claude Code 本体は Anthropic の利用規約に従いますが、自社内利用であれば問題ありません。生成物の著作権も自社に帰属します。

Q4. クラウド API と比べて「絶対に劣る」ところはありますか?
A. 最新情報の反映スピードは劣ります。Gemma 4 はモデル訓練時点までの知識で答えるため、リアルタイム検索を組み合わせない場合は「先週の出来事」を知りません。検索プラグインや RAG(社内文書検索)を併用すれば補えます。

Q5. 一度導入したら、Claude API への切り戻しはできますか?
A. できます。環境変数を unset ANTHROPIC_BASE_URL で削除し、ANTHROPIC_API_KEY に正規キーを入れ直すだけで Claude API モードに戻ります。「重い案件だけクラウド、日常はローカル」の切り替えも30秒で行えます。

Q6. 社員10人で同じ PC を共用するのは現実的ですか?
A. 各自の PC に Ollama を入れるか、社内サーバーに 1 台用意して Ollama サーバーモードで動かす方法が主流です。Ollama は OLLAMA_HOST=0.0.0.0 で LAN 内向けに公開でき、各自の Claude Code から ANTHROPIC_BASE_URL=http://社内サーバーIP:11434 で参照できます。

Q7. Windows と Mac で挙動の差はありますか?
A. Apple Silicon Mac(M シリーズ)は Metal アクセラレーションが効くため、同価格帯の Windows ノートより体感速度が出やすい傾向です。Windows 側は NVIDIA GPU 搭載機の方が圧倒的に有利です。Intel/AMD CPU 単体(GPU なし)でも E2B なら動きますが、生成速度は5~15 tokens/sec まで落ちます。

Q8. 量子化(4bit / 8bit)で精度はどれくらい落ちますか?
A. 4bit 量子化(Q4_K_M 形式)は元の品質の約 97% を維持するのが業界標準で、ほぼ違いを体感しません。「複雑な数学推論」だけ 1~2% の差が出る程度です。ストレージ・VRAM の節約を考えれば 4bit が現実解です。品質を最優先するなら 8bit にしますが、必要 VRAM が約 2 倍になる点に注意します。

Gemma 4×Claude Codeで作る完全無料AIエージェント|API料金ゼロで自前環境を回す方法 - まとめ

まとめ ——「API料金ゼロ」のAIエージェント時代へ

Gemma 4 と Claude Code の組み合わせは、これまで「クラウド API を毎月課金しないと使えない」とされてきた AI エージェント環境を、自分の PC に完全に取り戻す手段になりました。月額2万円のコストが電気代だけになり、社外秘データも安心して投入できる「自前 AI 環境」が、半日のセットアップで手に入ります。

もちろん、Claude API の最高品質が要る局面まで全部置き換える必要はありません。「日常 8 割をローカル、難案件 2 割をクラウド」のハイブリッド運用が最も費用対効果が高く、リスクも分散できます。まずは E4B モデルから試して、自分の業務にフィットするかを30分で確かめてみてください。動作確認用には「議事録の要約」「メール返信ドラフト作成」「コードレビュー」あたりが手応えを掴みやすく、ローカル AI の実力を体感できます。

非エンジニアの経営者・現場リーダーがこの環境を活かすためには、「何を AI に任せ、何を自分で決めるか」の業務設計が一番のポイントになります。リナックスマスター系列の AIマスターズ.TOKYO では、生成 AI を業務に組み込む実践ノウハウを毎週メルマガでお届けしています。導入の次のステップとして、ぜひお手元に置いてください。

月額 2 万円の AI コストを「電気代だけ」に変えませんか?

Gemma 4 × Claude Code のローカル化は、コスト削減と情報漏洩リスク低減を同時に実現します。
生成AIを”使う側”から”使いこなす側”へステップアップしたい方へ、メルマガで実践的なAI活用ノウハウをお届けしています。

Let's share this post !

Author of this article

TOC