ローカルLLM界隈

最近はローカルllmにハマって色々と実験したりしています。その理由はAMD AIMAX 395+のPCを購入したから。ということなんですが。逆か?AIに興味があったからAIMAX+395を買ったのか。

閑話休題。

色々と調べていたら頭がこんがらがってきたので、それこそAIにまとめてもらいました。

AIMAX+395 / DGX Spark / RTX Spark / 各種GPU 比較メモ

概要

ローカル LLM 用の計算機として、手元の Ryzen AI MAX+ 395(AIMAX+395, 128GB) を基準に、過去に比較対象として挙がった GPU / AI PC を整理したメモ。 主に見る項目は以下。

  • 容量:そのモデルが載るかどうか
  • メモリ帯域:LLM の速度に効きやすい
  • 実測 / 既知の速度感:tok/s、prefill、TTFT など
  • 立ち位置:速度重視か、大容量モデル重視か

比較表

機種 メモリ容量 メモリ帯域 位置づけ LLMでの強み 弱み / 注意点 手元で出ている速度メモ
Ryzen AI MAX+ 395(AIMAX+395, 128GB) 128GB 統合メモリ(CPU/GPU共有) 256~273 GB/s 大容量モデル向けの土台 35B超~70B量子化、さらに上の大きいモデルまで「載せやすい」 5090級の離散GPUより帯域が低く、速度は不利 過去に出てきた例では Qwen3.6-27B Q4_K_M / 16K contextdecode 26.85 tok/s、prefill 20.2s
NVIDIA DGX Spark 128GB LPDDR5x 統合メモリ 273 GB/s AIMAX+395 と似た“容量重視”寄り 128GB統合メモリで大きいモデルを単機で回しやすい。NVIDIAスタックが使える 帯域は 5090 などのハイエンド離散GPUよりかなり低い。速度最優先機ではない 公式仕様は 1 PFLOP FP4 / 128GB / 273GB/s。ただし LLM の tok/s 実測はモデル・ランタイム依存で、手元会話内では確定値なし
NVIDIA RTX Spark 最大 128GB 統合メモリ 公開資料上は未固定(少なくとも「128GB統合メモリの Spark 系」) Windows向け Spark プラットフォーム DGX Spark系の流れを Windows PC に持ち込む系統。大きめのローカルAI用途を狙った設計 まだ新しく、ローカル LLM の実測・運用報告が少ない。DGX Spark と違って「PCベンダー実装差」が大きくなる可能性あり 現時点では 1 PFLOP級 / 最大128GB統合メモリ の説明が中心。LLM の tok/s 比較材料はまだ少ない
RTX 5090 32GB GDDR7 1792 GB/s 速度特化 32GBに収まるモデルならかなり速い。27B/32B/35B級を高速に回す本命候補 32GB上限なので、70B以上や巨大MoEは単体だと厳しい 手元会話では「速さ最優先なら 5090」という整理。モデルを32GB以内に収める前提
Intel Arc Pro B60 24GB GDDR6 456 GB/s 24GB枠の候補 24GBを確保しつつ、AIMAXよりはGPUらしい帯域で回せる 5090とは速度差が大きい。24GBなので載るモデルにも限界 手元会話では「24GBのIntel候補」として比較対象
Intel Arc Pro B70 32GB GDDR6 608 GB/s Intel側の上位候補 32GBあるので 24GB級より扱いやすい。帯域も B60 より上 5090には届かない。価格と入手性、実運用報告の確認が必要 手元会話では「Intelで見るなら B70 が本命寄り」という位置づけ
Radeon PRO W7800 32GB GDDR6 576 GB/s AMD単体GPUの有力候補 32GBあるのでモデルの収まりが良い。AIMAXより速度寄り NVIDIA系ほど事例が多くない。ROCm / Windows 周りは要確認 手元会話では「AMD単体GPUなら容量と速度のバランスが良い」という整理
RTX 4000 Ada 20GB GDDR6 360 GB/s 省電力・業務向け ワークステーション用途としては扱いやすい 20GBはLLM用として窮屈。27B級を楽に回す用途には向きにくい LLM専用機としては優先度低め、という扱い
RX 7900 XTX(24GB AMD候補として入れるなら) 24GB GDDR6 今回の比較では未固定 24GBのAMD候補 24GBクラスでAMDを比較対象に入れるなら候補になる 今回の過去会話では W7800/W7900 の方が主軸で、こちらは深掘り不足 24GB AMD枠としては候補だが、今回の整理では情報薄め

ざっくりした読み方

1. 速度を最優先するなら

基本は RTX 5090

  • 帯域が非常に大きい
  • 32GB以内に収まるモデルならかなり有利
  • 27B / 32B / 35B あたりを快適に回したいなら本命

逆に言うと、**「35Bくらいまでを速く使いたい」**なら 5090 が一番わかりやすい。


2. 大きいモデルを単機で抱えたいなら

基本は AIMAX+395 または DGX Spark

  • 128GB統合メモリが効く
  • 35B超、70B量子化、大きめ MoE まで視野に入る
  • ただし 帯域は 5090 よりかなり低いので、同じモデルを載せられるなら速度は不利

つまりこの系統は、

  • 速さ重視ではなく
  • 「まず載ること」重視

のマシン。


3. 24~32GB帯の中間候補

ここは Arc Pro B60 / B70 / W7800 の領域。

  • 24GB帯なら B60 や 7900 XTX 系
  • 32GB帯なら B70 や W7800
  • 5090ほど速くはないが、AIMAX系よりは「普通のGPUっぽい速度」が出しやすい

自分向けの整理

AIMAX+395

向いていること

  • 35B超のモデルをローカルで触る
  • 70B量子化や大きめモデルを単機で試す
  • 「まず載ること」を優先する

向いていないこと

  • 27Bや35Bを最高速で回したい用途
  • 同じモデルで 5090 と速度勝負すること

DGX Spark

向いていること

  • NVIDIA スタックで 128GB統合メモリ機 を使いたい
  • 大きいモデルをローカルで試したい
  • 「単体GPUワークステーション」ではなく、小型AI開発機として見る

注意点

  • 273 GB/s なので、帯域だけ見れば AIMAX+395 と近い側
  • 「5090より速いマシン」ではなく、AIMAX+395 の NVIDIA 版に近い見方の方がわかりやすい

RTX Spark

向いていること

  • Windows側で Spark 系プラットフォームを使いたい
  • 128GB統合メモリ系の AI PC に興味がある
  • ノート/小型PC側でのローカルAI用途を見たい

注意点

  • まだ新しく、LLM 実測比較が薄い
  • DGX Spark と違って「どのベンダーのどの筐体か」で実際の運用感が変わる可能性がある
  • 現時点では、“Windows版 Spark 系統”として見るくらいが無難

RTX 5090

向いていること

  • 27B / 32B / 35B を速く回したい
  • 32GB以内に収まるモデルを快適に使いたい
  • ローカルLLMの体感速度を重視したい

注意点

  • 70B級や巨大MoEは単体では厳しい
  • 「速いが、載る量には限界がある」というタイプ

用途別のまとめ

目的 向いている候補
27B / 35B をできるだけ速く回したい RTX 5090
35B超、70B量子化、大きめMoEを単機で抱えたい AIMAX+395 / DGX Spark
Windows系の Spark プラットフォームを見たい RTX Spark
24GBで妥協しつつ単体GPU運用したい Arc Pro B60
32GBクラスで Intel 側を狙う Arc Pro B70
AMD単体GPUで容量と速度のバランスを取りたい Radeon PRO W7800

付録:速度指標の意味

PP / Prefill

入力プロンプトを最初に読み込む処理速度。 長い会話履歴、長文PDF、RAGで大量の文書を渡すときに効く。

  • 長文を食わせたときの初動の待ち時間
  • コンテキストが長いほど効いてくる

体感

  • 短い質問だけならそこまで気にならない
  • PDF要約、資料読み込み、長い履歴ではかなり重要

tok/s(Decode speed)

返答を 1 トークンずつ生成する速度。 普段「このGPUは何 tok/s 出るか」と言うときは、だいたいこれ。

体感

  • 返答が流れる速さに直結
  • 雑談、コード生成、チャットの快適さに一番わかりやすい

TTFT(Time To First Token)

質問を送ってから、最初の1文字目が返るまでの時間。

体感

  • 「押してから反応が鈍いか、すぐ出るか」
  • prefill が重いと TTFT も悪化しやすい

帯域(GB/s)

メモリと計算器の間でどれだけ速くデータを運べるか。 LLM はかなり帯域依存なので、同じVRAM量でも帯域差で tok/s が変わる

ざっくり言うと、

  • 5090:帯域が大きい → 速い
  • AIMAX / DGX Spark:容量は大きいが帯域は低め → 載るが速度は不利

という理解でだいたい合う。


VRAM / 統合メモリ容量

モデル本体や KV キャッシュを置く器。

重要な点

  • 速くても載らなければ意味がない
  • 逆に、載るけど遅いというケースもある

この比較だと、

  • 5090:速いが 32GB
  • AIMAX+395 / DGX Spark / RTX Spark:128GBで載せやすいが、速度では不利

という差になる。


現時点の結論

自分向けにかなり雑に言い切ると、こんな整理になる。

  • 35Bくらいまでを速く使うRTX 5090
  • 35B超や70B量子化を単機で触るAIMAX+395 / DGX Spark
  • Windows系の Spark で今後の選択肢を見たいRTX Spark
  • 24~32GB帯の中間候補B60 / B70 / W7800

つまり、AIMAX+395 を基準に考えると、 「速さを取りにいくなら 5090」「容量を活かすなら AIMAX / DGX Spark」 という整理が一番わかりやすい。


という感じになりました。お金に糸目を付けないのなら、5090でqwen3.6-27b-MTPを回してhermesagent辺りを使えば、かなり実用的に使えると思えます。AIMAX+395だと少し遅いかなーって感じるところもありますね。windows切って、linuxに移行すればもう少し早くなりそうですが、色々あってまだwindowsを切れないんですよねー。

カテゴリー: Linux、サーバー, PC関連, 未分類, 趣味 パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA