ローカル（オンプレ）でLLMを動かしたい

ぴこらむローカル（オンプレ）でLLMを動かしたい

TOP
メールマガジン
ローカル（オンプレ）でLLMを動かしたい

こんにちは。
LLM（Large Language Model）、本当に盛り上がっていますね。
OpenAI社のChatGPTに始まり、GoogleのGemini、AnthropicのClaudeなど、主要なクラウド提供モデルは今や定番となっています。
国内でも、デジタル庁が7つ選定するなど、活用が広がっています。

とはいえ、これらは基本的にクラウド経由で利用するもの。
「ならばローカル（オンプレ）で動かしてみよう」というのが、今回のテーマです。

ローカルで動かすのに必要なもの

ローカルでLLMを動作させる上で重要なのは、以下の 2 点です。

・GPU
推論処理のほとんどはGPUで実行されるため、高性能なものが必須です。
・GPUメモリ（VRAM）
モデルを展開する領域。CPU側のメインメモリとは別物です。

特にGPUメモリ容量がボトルネックになり、搭載量によって「どの規模のモデルを動かせるか」がほぼ決まります。

モデルの規模って？

モデルの規模とは、簡単に言えば「学習パラメータ数」のことです。

・パラメータが多いモデル → より多くの知識を保持し、表現力が高い
・パラメータが少ないモデル → 軽量で高速だが、表現力は限定的

たとえば、ChatGPTに使われていたGPT-5.1（2026年3月現在は、GPT-5.2がデフォルト）は、
約2兆パラメータと言われています（アナリストによる推定値です。実際は非公開です）。

数字だけ聞くと想像がつきませんが、広辞苑の収録語数が約25万語と言われると、「なんか凄そう」と小学生並みの感想を抱きます。

モデルとメモリ量

モデルに必要となるメモリ量は、概ね以下の式で見積もれます。

メモリ量 ≒ パラメータ数 × B × 1.2
（Bは、モデルにより異なります。0.5、1、2のいずれかの値になります）

つまり、ChatGPT級の2兆パラメータなら、ざっくり1TB〜4TBくらいのメモリが必要になります。
もちろんそんなGPUは一般入手不可能なので、手に入るGPUメモリ量から現実的なモデルを逆算することになります。

入手可能なメモリ量

1TB級のメモリは手に入りませんので、“一般入手できる範囲でメモリが多いもの”という視点で調べてみます。
（※2026年3月時点の価格です）

PC

こちらは、Appleシリコンや一体型AIワークステーションのように、 CPUとGPUが大容量メモリを共有するタイプです。
※ GMKtecとHPの製品は、他製品とはアーキテクチャが異なります。

メーカー	製品	メモリ量	参考価格
NVIDIA	DGX Spark	128GB	約72万円
ASUS	ASUS Ascent GX10	128GB	約72万円
DELL	DELL Pro Max with GB10	128GB	約75万円
Apple	Mac Studio (M4 Max)	128GB	約55万円
Apple	Mac Mini (M4 Pro)	64GB	約33万円
GMKtec	EVO X2	128GB	約39万円
HP	Z2 Mini G1a モデル17	128GB	約290万円

サーバー

こちらは、弊社が推しているHPEのサーバー製品です。GPUが前の世代になります。

メーカー	製品	GPU	メモリ量	参考価格
HPE	ML350 Compute Gen 12	NVIDIA L40S	48GB × 4	約1,220万円
HPE	DL320 Compute Gen 12	NVIDIA L4	24GB × 2	約570万円

カード

こちらは、拡張カード型のGPUです。それぞれVRAM容量がモデル選定の決め手になります。

メーカー	製品	メモリ量	参考価格
NVIDIA	NVIDIA RTX PRO 6000 Blackwell Sv.Ed.	96GB	約350万円
NVIDIA	NVIDIA RTX PRO 6000 Blackwell Max-Q WS.Ed.	96GB	約150万円
NVIDIA	NVIDIA RTX PRO 4500 Blackwell	32GB	約45万円
NVIDIA	NVIDIA RTX PRO 4000 Blackwell	24GB	約27万円
AMD	Radeon AI Pro R9700	32GB	約27万円
AMD	Radeon Pro W7900	48GB	約94万円

メモリ量と動かせるモデル例

メモリ量と、その上で動かせるモデルをいくつか挙げてみます。
モデル名の後ろに付いている数字が、パラメータの数です。bは、単位です。billion（= 10億）を意味します。

※ 推論時に実際に使われるパラメータ数は、記載の数値とは異なります。
例えば、Qwen 3.5 35bは3bになります。

メモリ24GB

100〜400億パラメータくらいのモデルを動かせます。比較的高度な文章生成や、チャットボットの運用に利用できます。

・Gemma 3 27b
・GPT-OSS 20b
・Phi 4 14b
・Qwen 3.5 27b等

メモリ32〜48GB

130〜800億パラメータくらいのモデルを動かせます。高度な推論や、プログラム生成に利用できます。

・Qwen 3.5 35b等

メモリ96GB

400〜1600億パラメータくらいのモデルを動かせます。精度の高い推論や、大規模なプログラム生成に利用できます。

・GPT-OSS 120b
・LLama 4 Scout 109b
・Qwen 3.5 122b等

※ GPT-OSS 120b は、MXFP4に対応したGPUが必要です。

まとめ

ローカルLLM運用のために調達可能なハードウェアと、動作可能なモデルについて調べてみました。

現段階におけるローカルLLMの導入としては、以下のいずれかの形になると考えます。

・ご予算内でハードウェアを入手
→ 動かせる範囲で、用途にマッチするモデルを探す
・クラウドでマシンを借りて、いろいろなモデルを試す
→ モデルにあったハードウェアを入手

どちらの方法を採用するかは、お財布と考え方次第でしょうか。

お問い合わせください

弊社では、ローカルLLM用ハードウェアの調達も承っております。
まずはお気軽にお見積りをご用命ください。

お問い合わせ

ぴこらむ ローカル（オンプレ）でLLMを動かしたい