ぴこらむ ローカル(オンプレ)でLLMを動かしたい

こんにちは。
LLM(Large Language Model)、本当に盛り上がっていますね。
OpenAI社のChatGPTに始まり、GoogleのGemini、AnthropicのClaudeなど、主要なクラウド提供モデルは今や定番となっています。
国内でも、 デジタル庁が7つ選定 するなど、活用が広がっています。
 

とはいえ、これらは基本的にクラウド経由で利用するもの。
「ならばローカル(オンプレ)で動かしてみよう」というのが、今回のテーマです。
 

ローカルで動かすのに必要なもの

ローカルでLLMを動作させる上で重要なのは、以下の 2 点です。
 

  • ・GPU
    推論処理のほとんどはGPUで実行されるため、高性能なものが必須です。
  • ・GPUメモリ(VRAM)
    モデルを展開する領域。CPU側のメインメモリとは別物です。
  •  

特にGPUメモリ容量がボトルネックになり、搭載量によって「どの規模のモデルを動かせるか」がほぼ決まります。

 

モデルの規模って?

モデルの規模とは、簡単に言えば「学習パラメータ数」のことです。
 

  • ・パラメータが多いモデル → より多くの知識を保持し、表現力が高い
  • ・パラメータが少ないモデル → 軽量で高速だが、表現力は限定的
  •  

たとえば、ChatGPTに使われていたGPT-5.1(2026年3月現在は、GPT-5.2がデフォルト)は、
約2兆パラメータと言われています(アナリストによる推定値です。実際は非公開です)。
 

数字だけ聞くと想像がつきませんが、広辞苑の収録語数が約25万語と言われると、 「なんか凄そう」と小学生並みの感想を抱きます。
 

モデルとメモリ量

モデルに必要となるメモリ量は、概ね以下の式で見積もれます。
 

メモリ量 ≒ パラメータ数 × B × 1.2
(Bは、モデルにより異なります。0.5、1、2のいずれかの値になります)

 

つまり、ChatGPT級の2兆パラメータなら、ざっくり1TB〜4TBくらいのメモリが必要になります。
もちろんそんなGPUは一般入手不可能なので、手に入るGPUメモリ量から現実的なモデルを逆算することになります。
 

入手可能なメモリ量

1TB級のメモリは手に入りませんので、“一般入手できる範囲でメモリが多いもの”という視点で調べてみます。
(※2026年3月時点の価格です)
 

PC

こちらは、Appleシリコンや一体型AIワークステーションのように、 CPUとGPUが大容量メモリを共有するタイプです。
※ GMKtecとHPの製品は、他製品とはアーキテクチャが異なります。

メーカー 製品 メモリ量 参考価格
NVIDIA DGX Spark 128GB 約72万円
ASUS ASUS Ascent GX10 128GB 約72万円
DELL DELL Pro Max with GB10 128GB 約75万円
Apple Mac Studio (M4 Max) 128GB 約55万円
Apple Mac Mini (M4 Pro) 64GB 約33万円
GMKtec EVO X2 128GB 約39万円
HP Z2 Mini G1a モデル17 128GB 約290万円
 

サーバー

こちらは、弊社が推しているHPEのサーバー製品です。GPUが前の世代になります。

メーカー 製品 GPU メモリ量 参考価格
HPE ML350 Compute Gen 12 NVIDIA L40S 48GB × 4 約1,220万円
HPE DL320 Compute Gen 12 NVIDIA L4 24GB × 2 約570万円
 

カード

こちらは、拡張カード型のGPUです。それぞれVRAM容量がモデル選定の決め手になります。

メーカー 製品 メモリ量 参考価格
NVIDIA NVIDIA RTX PRO 6000 Blackwell Sv.Ed. 96GB 約350万円
NVIDIA NVIDIA RTX PRO 6000 Blackwell Max-Q WS.Ed. 96GB 約150万円
NVIDIA NVIDIA RTX PRO 4500 Blackwell 32GB 約45万円
NVIDIA NVIDIA RTX PRO 4000 Blackwell 24GB 約27万円
AMD Radeon AI Pro R9700 32GB 約27万円
AMD Radeon Pro W7900 48GB 約94万円
 

メモリ量と動かせるモデル例

メモリ量と、その上で動かせるモデルをいくつか挙げてみます。
モデル名の後ろに付いている数字が、パラメータの数です。bは、単位です。billion(= 10億)を意味します。
 

※ 推論時に実際に使われるパラメータ数は、記載の数値とは異なります。
例えば、Qwen 3.5 35bは3bになります。
 

メモリ24GB

100〜400億パラメータくらいのモデルを動かせます。比較的高度な文章生成や、チャットボットの運用に利用できます。

  • ・Gemma 3 27b
  • ・GPT-OSS 20b
  • ・Phi 4 14b
  • ・Qwen 3.5 27b等


メモリ32〜48GB

130〜800億パラメータくらいのモデルを動かせます。高度な推論や、プログラム生成に利用できます。

  • ・Qwen 3.5 35b等


メモリ96GB

400〜1600億パラメータくらいのモデルを動かせます。精度の高い推論や、大規模なプログラム生成に利用できます。

  • ・GPT-OSS 120b
  • ・LLama 4 Scout 109b
  • ・Qwen 3.5 122b等


※ GPT-OSS 120b は、MXFP4に対応したGPUが必要です。
 

まとめ

ローカルLLM運用のために調達可能なハードウェアと、動作可能なモデルについて調べてみました。

現段階におけるローカルLLMの導入としては、以下のいずれかの形になると考えます。
 

  • ・ご予算内でハードウェアを入手
    → 動かせる範囲で、用途にマッチするモデルを探す
  • ・クラウドでマシンを借りて、いろいろなモデルを試す
    → モデルにあったハードウェアを入手


どちらの方法を採用するかは、お財布と考え方次第でしょうか。

 

お問い合わせください

弊社では、ローカルLLM用ハードウェアの調達も承っております。
まずはお気軽にお見積りをご用命ください。