こんにちは。
LLM(Large Language Model)、本当に盛り上がっていますね。
OpenAI社のChatGPTに始まり、GoogleのGemini、AnthropicのClaudeなど、主要なクラウド提供モデルは今や定番となっています。
国内でも、 デジタル庁が7つ選定 するなど、活用が広がっています。
とはいえ、これらは基本的にクラウド経由で利用するもの。
「ならばローカル(オンプレ)で動かしてみよう」というのが、今回のテーマです。
ローカルで動かすのに必要なもの
ローカルでLLMを動作させる上で重要なのは、以下の 2 点です。
- ・GPU
推論処理のほとんどはGPUで実行されるため、高性能なものが必須です。 - ・GPUメモリ(VRAM)
モデルを展開する領域。CPU側のメインメモリとは別物です。
特にGPUメモリ容量がボトルネックになり、搭載量によって「どの規模のモデルを動かせるか」がほぼ決まります。
モデルの規模って?
モデルの規模とは、簡単に言えば「学習パラメータ数」のことです。
- ・パラメータが多いモデル → より多くの知識を保持し、表現力が高い
- ・パラメータが少ないモデル → 軽量で高速だが、表現力は限定的
たとえば、ChatGPTに使われていたGPT-5.1(2026年3月現在は、GPT-5.2がデフォルト)は、
約2兆パラメータと言われています(アナリストによる推定値です。実際は非公開です)。
数字だけ聞くと想像がつきませんが、広辞苑の収録語数が約25万語と言われると、 「なんか凄そう」と小学生並みの感想を抱きます。
モデルとメモリ量
モデルに必要となるメモリ量は、概ね以下の式で見積もれます。
メモリ量 ≒ パラメータ数 × B × 1.2
(Bは、モデルにより異なります。0.5、1、2のいずれかの値になります)
つまり、ChatGPT級の2兆パラメータなら、ざっくり1TB〜4TBくらいのメモリが必要になります。
もちろんそんなGPUは一般入手不可能なので、手に入るGPUメモリ量から現実的なモデルを逆算することになります。
入手可能なメモリ量
1TB級のメモリは手に入りませんので、“一般入手できる範囲でメモリが多いもの”という視点で調べてみます。
(※2026年3月時点の価格です)
PC
こちらは、Appleシリコンや一体型AIワークステーションのように、 CPUとGPUが大容量メモリを共有するタイプです。
※ GMKtecとHPの製品は、他製品とはアーキテクチャが異なります。
| メーカー | 製品 | メモリ量 | 参考価格 |
|---|---|---|---|
| NVIDIA | DGX Spark | 128GB | 約72万円 |
| ASUS | ASUS Ascent GX10 | 128GB | 約72万円 |
| DELL | DELL Pro Max with GB10 | 128GB | 約75万円 |
| Apple | Mac Studio (M4 Max) | 128GB | 約55万円 |
| Apple | Mac Mini (M4 Pro) | 64GB | 約33万円 |
| GMKtec | EVO X2 | 128GB | 約39万円 |
| HP | Z2 Mini G1a モデル17 | 128GB | 約290万円 |
サーバー
こちらは、弊社が推しているHPEのサーバー製品です。GPUが前の世代になります。
| メーカー | 製品 | GPU | メモリ量 | 参考価格 |
|---|---|---|---|---|
| HPE | ML350 Compute Gen 12 | NVIDIA L40S | 48GB × 4 | 約1,220万円 |
| HPE | DL320 Compute Gen 12 | NVIDIA L4 | 24GB × 2 | 約570万円 |
カード
こちらは、拡張カード型のGPUです。それぞれVRAM容量がモデル選定の決め手になります。
| メーカー | 製品 | メモリ量 | 参考価格 |
|---|---|---|---|
| NVIDIA | NVIDIA RTX PRO 6000 Blackwell Sv.Ed. | 96GB | 約350万円 |
| NVIDIA | NVIDIA RTX PRO 6000 Blackwell Max-Q WS.Ed. | 96GB | 約150万円 |
| NVIDIA | NVIDIA RTX PRO 4500 Blackwell | 32GB | 約45万円 |
| NVIDIA | NVIDIA RTX PRO 4000 Blackwell | 24GB | 約27万円 |
| AMD | Radeon AI Pro R9700 | 32GB | 約27万円 |
| AMD | Radeon Pro W7900 | 48GB | 約94万円 |
メモリ量と動かせるモデル例
メモリ量と、その上で動かせるモデルをいくつか挙げてみます。
モデル名の後ろに付いている数字が、パラメータの数です。bは、単位です。billion(= 10億)を意味します。
※ 推論時に実際に使われるパラメータ数は、記載の数値とは異なります。
例えば、Qwen 3.5 35bは3bになります。
メモリ24GB
100〜400億パラメータくらいのモデルを動かせます。比較的高度な文章生成や、チャットボットの運用に利用できます。
- ・Gemma 3 27b
- ・GPT-OSS 20b
- ・Phi 4 14b
- ・Qwen 3.5 27b等
メモリ32〜48GB
130〜800億パラメータくらいのモデルを動かせます。高度な推論や、プログラム生成に利用できます。
- ・Qwen 3.5 35b等
メモリ96GB
400〜1600億パラメータくらいのモデルを動かせます。精度の高い推論や、大規模なプログラム生成に利用できます。
- ・GPT-OSS 120b
- ・LLama 4 Scout 109b
- ・Qwen 3.5 122b等
※ GPT-OSS 120b は、MXFP4に対応したGPUが必要です。
まとめ
ローカルLLM運用のために調達可能なハードウェアと、動作可能なモデルについて調べてみました。
現段階におけるローカルLLMの導入としては、以下のいずれかの形になると考えます。
- ・ご予算内でハードウェアを入手
→ 動かせる範囲で、用途にマッチするモデルを探す - ・クラウドでマシンを借りて、いろいろなモデルを試す
→ モデルにあったハードウェアを入手
どちらの方法を採用するかは、お財布と考え方次第でしょうか。
お問い合わせください
弊社では、ローカルLLM用ハードウェアの調達も承っております。
まずはお気軽にお見積りをご用命ください。
