最近はローカルllmにハマって色々と実験したりしています。その理由はAMD AIMAX 395+のPCを購入したから。ということなんですが。逆か?AIに興味があったからAIMAX+395を買ったのか。
閑話休題。
色々と調べていたら頭がこんがらがってきたので、それこそAIにまとめてもらいました。
AIMAX+395 / DGX Spark / RTX Spark / 各種GPU 比較メモ
概要
ローカル LLM 用の計算機として、手元の Ryzen AI MAX+ 395(AIMAX+395, 128GB) を基準に、過去に比較対象として挙がった GPU / AI PC を整理したメモ。 主に見る項目は以下。
- 容量:そのモデルが載るかどうか
- メモリ帯域:LLM の速度に効きやすい
- 実測 / 既知の速度感:tok/s、prefill、TTFT など
- 立ち位置:速度重視か、大容量モデル重視か
比較表
| 機種 | メモリ容量 | メモリ帯域 | 位置づけ | LLMでの強み | 弱み / 注意点 | 手元で出ている速度メモ |
|---|---|---|---|---|---|---|
| Ryzen AI MAX+ 395(AIMAX+395, 128GB) | 128GB 統合メモリ(CPU/GPU共有) | 約 256~273 GB/s | 大容量モデル向けの土台 | 35B超~70B量子化、さらに上の大きいモデルまで「載せやすい」 | 5090級の離散GPUより帯域が低く、速度は不利 | 過去に出てきた例では Qwen3.6-27B Q4_K_M / 16K context で decode 26.85 tok/s、prefill 20.2s |
| NVIDIA DGX Spark | 128GB LPDDR5x 統合メモリ | 273 GB/s | AIMAX+395 と似た“容量重視”寄り | 128GB統合メモリで大きいモデルを単機で回しやすい。NVIDIAスタックが使える | 帯域は 5090 などのハイエンド離散GPUよりかなり低い。速度最優先機ではない | 公式仕様は 1 PFLOP FP4 / 128GB / 273GB/s。ただし LLM の tok/s 実測はモデル・ランタイム依存で、手元会話内では確定値なし |
| NVIDIA RTX Spark | 最大 128GB 統合メモリ | 公開資料上は未固定(少なくとも「128GB統合メモリの Spark 系」) | Windows向け Spark プラットフォーム | DGX Spark系の流れを Windows PC に持ち込む系統。大きめのローカルAI用途を狙った設計 | まだ新しく、ローカル LLM の実測・運用報告が少ない。DGX Spark と違って「PCベンダー実装差」が大きくなる可能性あり | 現時点では 1 PFLOP級 / 最大128GB統合メモリ の説明が中心。LLM の tok/s 比較材料はまだ少ない |
| RTX 5090 | 32GB GDDR7 | 1792 GB/s | 速度特化 | 32GBに収まるモデルならかなり速い。27B/32B/35B級を高速に回す本命候補 | 32GB上限なので、70B以上や巨大MoEは単体だと厳しい | 手元会話では「速さ最優先なら 5090」という整理。モデルを32GB以内に収める前提 |
| Intel Arc Pro B60 | 24GB GDDR6 | 456 GB/s | 24GB枠の候補 | 24GBを確保しつつ、AIMAXよりはGPUらしい帯域で回せる | 5090とは速度差が大きい。24GBなので載るモデルにも限界 | 手元会話では「24GBのIntel候補」として比較対象 |
| Intel Arc Pro B70 | 32GB GDDR6 | 608 GB/s | Intel側の上位候補 | 32GBあるので 24GB級より扱いやすい。帯域も B60 より上 | 5090には届かない。価格と入手性、実運用報告の確認が必要 | 手元会話では「Intelで見るなら B70 が本命寄り」という位置づけ |
| Radeon PRO W7800 | 32GB GDDR6 | 576 GB/s | AMD単体GPUの有力候補 | 32GBあるのでモデルの収まりが良い。AIMAXより速度寄り | NVIDIA系ほど事例が多くない。ROCm / Windows 周りは要確認 | 手元会話では「AMD単体GPUなら容量と速度のバランスが良い」という整理 |
| RTX 4000 Ada | 20GB GDDR6 | 360 GB/s | 省電力・業務向け | ワークステーション用途としては扱いやすい | 20GBはLLM用として窮屈。27B級を楽に回す用途には向きにくい | LLM専用機としては優先度低め、という扱い |
| RX 7900 XTX(24GB AMD候補として入れるなら) | 24GB GDDR6 | 今回の比較では未固定 | 24GBのAMD候補 | 24GBクラスでAMDを比較対象に入れるなら候補になる | 今回の過去会話では W7800/W7900 の方が主軸で、こちらは深掘り不足 | 24GB AMD枠としては候補だが、今回の整理では情報薄め |
ざっくりした読み方
1. 速度を最優先するなら
基本は RTX 5090。
- 帯域が非常に大きい
- 32GB以内に収まるモデルならかなり有利
- 27B / 32B / 35B あたりを快適に回したいなら本命
逆に言うと、**「35Bくらいまでを速く使いたい」**なら 5090 が一番わかりやすい。
2. 大きいモデルを単機で抱えたいなら
基本は AIMAX+395 または DGX Spark。
- 128GB統合メモリが効く
- 35B超、70B量子化、大きめ MoE まで視野に入る
- ただし 帯域は 5090 よりかなり低いので、同じモデルを載せられるなら速度は不利
つまりこの系統は、
- 速さ重視ではなく
- 「まず載ること」重視
のマシン。
3. 24~32GB帯の中間候補
ここは Arc Pro B60 / B70 / W7800 の領域。
- 24GB帯なら B60 や 7900 XTX 系
- 32GB帯なら B70 や W7800
- 5090ほど速くはないが、AIMAX系よりは「普通のGPUっぽい速度」が出しやすい
自分向けの整理
AIMAX+395
向いていること
- 35B超のモデルをローカルで触る
- 70B量子化や大きめモデルを単機で試す
- 「まず載ること」を優先する
向いていないこと
- 27Bや35Bを最高速で回したい用途
- 同じモデルで 5090 と速度勝負すること
DGX Spark
向いていること
- NVIDIA スタックで 128GB統合メモリ機 を使いたい
- 大きいモデルをローカルで試したい
- 「単体GPUワークステーション」ではなく、小型AI開発機として見る
注意点
- 273 GB/s なので、帯域だけ見れば AIMAX+395 と近い側
- 「5090より速いマシン」ではなく、AIMAX+395 の NVIDIA 版に近い見方の方がわかりやすい
RTX Spark
向いていること
- Windows側で Spark 系プラットフォームを使いたい
- 128GB統合メモリ系の AI PC に興味がある
- ノート/小型PC側でのローカルAI用途を見たい
注意点
- まだ新しく、LLM 実測比較が薄い
- DGX Spark と違って「どのベンダーのどの筐体か」で実際の運用感が変わる可能性がある
- 現時点では、“Windows版 Spark 系統”として見るくらいが無難
RTX 5090
向いていること
- 27B / 32B / 35B を速く回したい
- 32GB以内に収まるモデルを快適に使いたい
- ローカルLLMの体感速度を重視したい
注意点
- 70B級や巨大MoEは単体では厳しい
- 「速いが、載る量には限界がある」というタイプ
用途別のまとめ
| 目的 | 向いている候補 |
|---|---|
| 27B / 35B をできるだけ速く回したい | RTX 5090 |
| 35B超、70B量子化、大きめMoEを単機で抱えたい | AIMAX+395 / DGX Spark |
| Windows系の Spark プラットフォームを見たい | RTX Spark |
| 24GBで妥協しつつ単体GPU運用したい | Arc Pro B60 |
| 32GBクラスで Intel 側を狙う | Arc Pro B70 |
| AMD単体GPUで容量と速度のバランスを取りたい | Radeon PRO W7800 |
付録:速度指標の意味
PP / Prefill
入力プロンプトを最初に読み込む処理速度。 長い会話履歴、長文PDF、RAGで大量の文書を渡すときに効く。
- 長文を食わせたときの初動の待ち時間
- コンテキストが長いほど効いてくる
体感
- 短い質問だけならそこまで気にならない
- PDF要約、資料読み込み、長い履歴ではかなり重要
tok/s(Decode speed)
返答を 1 トークンずつ生成する速度。 普段「このGPUは何 tok/s 出るか」と言うときは、だいたいこれ。
体感
- 返答が流れる速さに直結
- 雑談、コード生成、チャットの快適さに一番わかりやすい
TTFT(Time To First Token)
質問を送ってから、最初の1文字目が返るまでの時間。
体感
- 「押してから反応が鈍いか、すぐ出るか」
- prefill が重いと TTFT も悪化しやすい
帯域(GB/s)
メモリと計算器の間でどれだけ速くデータを運べるか。 LLM はかなり帯域依存なので、同じVRAM量でも帯域差で tok/s が変わる。
ざっくり言うと、
- 5090:帯域が大きい → 速い
- AIMAX / DGX Spark:容量は大きいが帯域は低め → 載るが速度は不利
という理解でだいたい合う。
VRAM / 統合メモリ容量
モデル本体や KV キャッシュを置く器。
重要な点
- 速くても載らなければ意味がない
- 逆に、載るけど遅いというケースもある
この比較だと、
- 5090:速いが 32GB
- AIMAX+395 / DGX Spark / RTX Spark:128GBで載せやすいが、速度では不利
という差になる。
現時点の結論
自分向けにかなり雑に言い切ると、こんな整理になる。
- 35Bくらいまでを速く使う → RTX 5090
- 35B超や70B量子化を単機で触る → AIMAX+395 / DGX Spark
- Windows系の Spark で今後の選択肢を見たい → RTX Spark
- 24~32GB帯の中間候補 → B60 / B70 / W7800
つまり、AIMAX+395 を基準に考えると、 「速さを取りにいくなら 5090」「容量を活かすなら AIMAX / DGX Spark」 という整理が一番わかりやすい。
という感じになりました。お金に糸目を付けないのなら、5090でqwen3.6-27b-MTPを回してhermesagent辺りを使えば、かなり実用的に使えると思えます。AIMAX+395だと少し遅いかなーって感じるところもありますね。windows切って、linuxに移行すればもう少し早くなりそうですが、色々あってまだwindowsを切れないんですよねー。