LOCAL AI RIG — Project Log

Projekt budowy lokalnej stacji roboczej zdolnej do uruchamiania dużych modeli językowych (LLM) bez dostępu do chmury — na potrzeby wspomagania lokalnego serwera WWW.

Celem jest stworzenie ekonomicznej, ale skalowalnej platformy, która pozwoli na integrację LLM z aplikacjami webowymi: generowanie treści, asystent kodu, analiza dokumentów, odpowiedzi kontekstowe. Całość działa lokalnie — bez kosztów API, bez limitu zapytań, z pełną kontrolą nad danymi.

A project to build a local workstation capable of running large language models (LLMs) without cloud access — designed to support a local web server with AI capabilities.

The goal is to build a cost-effective yet scalable platform for integrating LLMs into web applications: content generation, code assistant, document analysis, contextual responses. Everything runs locally — no API costs, no request limits, full data control.

Mapa faz

Phase map

2025 — Faza 01 zakończona

2025 — Phase 01 done

Platforma Intel LGA1150 — ekonomiczne wejście w temat. Osiągnięto limit tej architektury (PCIe 3.0, max 32 GB RAM).

Intel LGA1150 platform — cost-effective entry point. Architectural limits reached (PCIe 3.0, max 32 GB RAM).

kwi 2026 — Faza 02 zakończona

Apr 2026 — Phase 02 done

Migracja na AMD AM4 (Ryzen 7 3700X, X570, 64 GB). Zachowanie kart GPU. PCIe 4.0, podwójna pamięć RAM.

Migration to AMD AM4 (Ryzen 7 3700X, X570, 64 GB). GPU cards retained. PCIe 4.0, doubled RAM capacity.

2026 — Faza 03 planowana

2026 — Phase 03 planned

Wymiana GPU NVIDIA na AMD Radeon RX 7900 XTX (24 GB VRAM). Przejście na architekturę RDNA3 / ROCm.

Replacing NVIDIA GPUs with AMD Radeon RX 7900 XTX (24 GB VRAM). Transition to RDNA3 / ROCm architecture.

2026/27 — Faza 04 przyszłość

2026/27 — Phase 04 future

Dodanie drugiej karty Radeon RX 7900 XTX → 48 GB VRAM łącznie.

Adding a second Radeon RX 7900 XTX → 48 GB VRAM total.

2027+ — Faza 05 koncepcja

2027+ — Phase 05 concept

Potencjalne przejście na platformę AMD Threadripper dla jeszcze większej przepustowości PCIe i pamięci.

Potential migration to AMD Threadripper platform for even greater PCIe bandwidth and memory capacity.

Stack oprogramowania

Software stack

Ollama Ubuntu 24.04 LTS CUDA 13.0 ComfyUI ROCm (planned) Qwen3 · Gemma4 · Llama3

Pierwsza faza projektu zakładała ekonomiczne wejście — wykorzystanie sprzętu z rynku wtórnego jako bazy do eksperymentowania z lokalnymi LLM.

Platforma LGA1150 z procesorem Intel Core i7-4790 stanowiła rozsądny punkt startowy: cztery rdzenie Haswell z obsługą Hyper-Threading, stabilna platforma DDR3, dostępność używanych komponentów. Dwie karty NVIDIA GeForce RTX 3060 zostały dobrane jako wydajne, dwunastogigabajtowe jednostki zdolne do uruchamiania modeli 7B–14B w pełni z VRAM.

The first phase aimed for cost-effective entry — leveraging second-hand hardware as a base for experimenting with local LLMs.

The LGA1150 platform with an Intel Core i7-4790 was a sensible starting point: four Haswell cores with Hyper-Threading support, stable DDR3 platform, abundant used component availability. Two NVIDIA GeForce RTX 3060 cards were chosen as capable 12 GB units able to run 7B–14B models fully from VRAM.

Specyfikacja systemu

System specification

Płyta główna / Board	Intel LGA1150 (Z97/H97)
Procesor / CPU	Intel Core i7-4790 @ 3.60 GHz
Rdzenie / Cores	4 cores / 8 threads (Haswell)
Maks. takt / Boost	4.00 GHz
RAM	32 GB DDR3
GPU #1	NVIDIA GeForce RTX 3060 12 GB
GPU #2	NVIDIA GeForce RTX 3060 12 GB
VRAM łącznie / total	24 GB (2× 12 GB)
Szyna PCIe / Bus	PCIe 3.0
System operacyjny	Ubuntu 24.04 LTS
Kernel	6.17.0-20-generic
Driver NVIDIA	580.126.09 / CUDA 13.0

Osiągi benchmarkowe

Benchmark performance

generowanie — tok/s (wyżej = lepiej)

generation — tok/s (higher = better)

llama3.1:8b

63.8

qwen2.5:7b

44.6

qwen3:14b

33.6

qwen3.5:27b

9.0

Dlaczego faza 1 dobiegła końca

Why phase 1 ended

RAM limit

32 GB

max dla LGA1150
DDR3 bez ECC

LGA1150 maximum
DDR3 non-ECC

PCIe gen

3.0

wąskie gardło
multi-GPU span

bottleneck for
multi-GPU span

CPU cores

4c/8t

limit przy
dużych modelach

bottleneck with
larger models

Platforma LGA1150 osiągnęła swój praktyczny sufit. Dalszy rozwój wymagał przejścia na nowszą architekturę z PCIe 4.0 i obsługą większej ilości pamięci RAM. The LGA1150 platform reached its practical ceiling. Further development required migration to a newer architecture with PCIe 4.0 and support for more RAM.

Migracja na platformę AMD AM4 z zachowaniem obu kart GPU. Nowa płyta główna, procesor i pamięć RAM przy minimalnych kosztach przejścia.

Kluczowym celem fazy 2 było odblokowanie ograniczeń poprzedniej platformy bez wymiany kart graficznych. ASUS PRIME X570-PRO z Ryzenem 7 3700X dostarcza PCIe 4.0, 8 fizycznych rdzeni i obsługę do 128 GB DDR4 — zostawiając duży margines na dalszy rozwój. Jednym z wyzwań fazy był błąd negocjacji PCIe przy dwóch kartach, naprawiony przez aktualizację BIOS do wersji 5044 (AGESA ComboV2PI 1.2.0.Cc).

Migration to AMD AM4 platform while retaining both GPU cards. New motherboard, CPU and RAM at minimal transition cost.

The key goal of phase 2 was to remove the bottlenecks of the previous platform without replacing the graphics cards. ASUS PRIME X570-PRO with Ryzen 7 3700X delivers PCIe 4.0, 8 physical cores and support for up to 128 GB DDR4 — leaving significant room for further development. One challenge was a PCIe negotiation bug with two cards installed, resolved by updating BIOS to version 5044 (AGESA ComboV2PI 1.2.0.Cc).

Specyfikacja po upgradzie

Post-upgrade specification

Płyta główna / Board	ASUS PRIME X570-PRO
Procesor / CPU	AMD Ryzen 7 3700X @ 4.43 GHz
Rdzenie / Cores	8 cores / 16 threads (Zen 2)
Maks. takt / Boost	4.426 GHz
RAM	64 GB DDR4
GPU #1	NVIDIA GeForce RTX 3060 12 GB
GPU #2	NVIDIA GeForce RTX 3060 12 GB
VRAM łącznie / total	24 GB (2× 12 GB)
Szyna PCIe / Bus	PCIe 4.0 (Gen4)
L3 cache	32 MB (2 instances)
System operacyjny	Ubuntu 24.04 LTS
BIOS	5044 (2026-01-27)
Driver NVIDIA	580.126.09 / CUDA 13.0

Porównanie wyników — before vs after

Results comparison — before vs after

generowanie tok/s — szary: Intel i7 / zielony: Ryzen 3700X

generation tok/s — gray: Intel i7 / green: Ryzen 3700X

llama3.1:8b

63.8

65.0 +1.9%

qwen2.5:7b

44.6

46.4 +4.1%

qwen3:14b

33.6

34.3 +2.1%

qwen3.5:27b

9.0

11.5 +27.8%

Czas ładowania modeli

Model load times

llama3.1:8b

3.28s

→

2.74s

−16%

qwen2.5:7b

21.4s

→

0.82s

−96%

qwen3:14b

10.9s

→

2.66s

−76%

qwen3.5:27b

18.6s

→

2.87s

−85%

Podwojenie RAM (32→64 GB) spowodowało dramatyczne skrócenie czasów ładowania — modele przestały wymagać swap i trafią w całości do pamięci. Poprawa generowania dla qwen3.5:27b wynika z naprawy negocjacji PCIe 4.0 między dwoma kartami GPU. Doubling RAM (32→64 GB) dramatically reduced load times — models no longer require swap and fit entirely in memory. The generation improvement for qwen3.5:27b comes from fixing PCIe 4.0 negotiation between the two GPU cards.

Wyzwania fazy

Phase challenges

Problem: PCIe degradacja do Gen1 (2.5 GT/s)

Issue: PCIe degradation to Gen1 (2.5 GT/s)

Obie karty RTX 3060 negocjowały PCIe Gen1 zamiast Gen4, powodując 34% regresję dla modelu qwen3.5:27b wymagającego spanu między kartami.

Both RTX 3060 cards negotiated PCIe Gen1 instead of Gen4, causing 34% regression for qwen3.5:27b which requires spanning between cards.

Rozwiązanie: aktualizacja BIOS 5021 → 5044

Fix: BIOS update 5021 → 5044

AGESA ComboV2PI 1.2.0.Cc naprawił negocjację PCIe 4.0 przy dwóch kartach GPU na tym samym root complexie procesora.

AGESA ComboV2PI 1.2.0.Cc fixed PCIe 4.0 negotiation with two GPU cards on the same CPU root complex.

Przejście z dwóch kart NVIDIA RTX 3060 (2× 12 GB) na jedną kartę AMD Radeon RX 7900 XTX z 24 GB VRAM — eliminując potrzebę multi-GPU span przy zachowaniu tej samej łącznej pojemności VRAM.

Zmiana architektury GPU jest krokiem strategicznym: pojedyncza karta z 24 GB VRAM pozwoli uruchamiać modele 27B–34B bez kosztów komunikacji między kartami. Przejście na ROCm otwiera ekosystem AMD dla lokalnych deploymentów LLM.

Transitioning from two NVIDIA RTX 3060 cards (2× 12 GB) to a single AMD Radeon RX 7900 XTX with 24 GB VRAM — eliminating the need for multi-GPU span while maintaining the same total VRAM capacity.

The GPU architecture change is a strategic move: a single card with 24 GB VRAM will run 27B–34B models without inter-card communication overhead. Moving to ROCm opens the AMD ecosystem for local LLM deployments.

Docelowa specyfikacja GPU

Target GPU specification

GPU	AMD Radeon RX 7900 XTX
Architektura	RDNA3 (gfx1100)
VRAM	24 GB GDDR6
Przepustowość / Bandwidth	960 GB/s
Compute	61 TFLOPS FP16
Stack AI	ROCm 6.x / HIP
Interfejs	PCIe 4.0 x16

Oczekiwane korzyści

Expected benefits

VRAM / card

24 GB

vs 12 GB na kartę
pełne modele 27B

vs 12 GB per card
full 27B models fit

Bandwidth

960

GB/s GDDR6
vs ~360 GB/s RTX 3060

Ta strona zostanie uzupełniona o rzeczywiste wyniki benchmarków po instalacji karty i konfiguracji środowiska ROCm. Planowane testy obejmą te same modele co fazy 1 i 2 dla pełnego porównania. This page will be updated with actual benchmark results after the card is installed and ROCm environment is configured. Planned tests will cover the same models as phases 1 and 2 for full comparison.

Do zrobienia

To do

Zakup karty AMD Radeon RX 7900 XTX

Purchase AMD Radeon RX 7900 XTX

Instalacja ROCm 6.x, konfiguracja Ollama z backendem AMD

ROCm 6.x installation, Ollama configuration with AMD backend

Testy porównawcze ze wszystkimi poprzednimi fazami

Comparative benchmarks against all previous phases

Testy modeli 34B+ które nie mieściły się wcześniej w VRAM jednej karty

Testing 34B+ models that previously didn't fit in a single card's VRAM

Dodanie drugiej karty AMD Radeon RX 7900 XTX pozwoli osiągnąć 48 GB łącznego VRAM — wystarczającego do uruchamiania modeli 70B w quant Q4 lub modeli 34B w pełnej precyzji.

W odróżnieniu od fazy 1 gdzie dwie karty RTX 3060 musiały spanować modele przez ograniczoną szynę PCIe, dwie karty 7900 XTX pracujące na RDNA3 z ROCm powinny efektywnie współdzielić obciążenie dzięki wyższej przepustowości i lepszemu wsparciu multi-GPU w stosie AMD.

Adding a second AMD Radeon RX 7900 XTX will achieve 48 GB total VRAM — sufficient to run 70B models in Q4 quant or 34B models at full precision.

Unlike phase 1 where two RTX 3060 cards had to span models across a limited PCIe bus, two 7900 XTX cards running RDNA3 with ROCm should efficiently share workload thanks to higher bandwidth and better multi-GPU support in the AMD stack.

Docelowa konfiguracja

Target configuration

GPU #1	AMD Radeon RX 7900 XTX 24 GB
GPU #2	AMD Radeon RX 7900 XTX 24 GB
VRAM łącznie	48 GB GDDR6
Bandwidth łącznie	1920 GB/s
Modele docelowe	70B Q4 · 34B FP16 · multi-modal
PCIe	4.0 x16 + x8 (ASUS X570-PRO)

VRAM total

48 GB

modele 70B Q4

70B Q4 models

Bandwidth

1.9 TB/s

2× 960 GB/s

Max model

~70B

Q4_K_M quant

Faza 4 jest uzależniona od wyników fazy 3. Jeśli przejście na RDNA3/ROCm okaże się stabilne i wydajne, dodanie drugiej karty będzie naturalnym następnym krokiem. Phase 4 depends on the results of phase 3. If the RDNA3/ROCm transition proves stable and performant, adding a second card will be the natural next step.

Koncepcja docelowej platformy dla projektu — przejście na architekturę klasy workstation z AMD Threadripper PRO, oferującą przepustowość PCIe i pamięci nieosiągalną na platformach konsumenckich.

To wczesna wizja, nie konkretny plan. Decyzja o migracji będzie zależeć od tego, czy platforma AM4 okaże się wystarczająca po fazach 3 i 4, oraz od dostępności i cen sprzętu Threadripper w czasie decyzji.

The concept for the project's ultimate platform — migration to a workstation-class architecture with AMD Threadripper PRO, offering PCIe and memory bandwidth unachievable on consumer platforms.

This is an early vision, not a concrete plan. The migration decision will depend on whether the AM4 platform proves sufficient after phases 3 and 4, and on Threadripper hardware availability and pricing at decision time.

Dlaczego Threadripper

Why Threadripper

Lanes PCIe

PCIe lanes

128

vs 24 na AM4
pełne x16 dla obu GPU

vs 24 on AM4
full x16 for both GPUs

RAM

2 TB

8-kanałowy DDR5
Threadripper PRO 7000

8-channel DDR5
Threadripper PRO 7000

Threadripper PRO oferuje to czego AM4 nigdy nie dostarczy: pełne x16 PCIe dla każdej karty GPU niezależnie od konfiguracji, 8-kanałową pamięć DDR5 i infrastrukturę ECC. Dla projektu AI Rig oznacza to możliwość uruchamiania modeli 405B przy wystarczającej ilości VRAM. Threadripper PRO offers what AM4 can never deliver: full x16 PCIe for each GPU card regardless of configuration, 8-channel DDR5 memory, and ECC infrastructure. For the AI Rig project, this means the ability to run 405B models with sufficient VRAM.

Warunki migracji

Migration conditions

AM4 + 2× 7900 XTX okaże się niewystarczające dla docelowych zadań

AM4 + 2× 7900 XTX proves insufficient for target workloads

Ceny platform Threadripper PRO spadną do akceptowalnego poziomu

Threadripper PRO platform prices drop to an acceptable level

Modele LLM wymagające >48 GB VRAM staną się powszechnym przypadkiem użycia

LLM models requiring >48 GB VRAM become a common use case