Gå til innhold

Skjermkort til å kjøre kunstig intelligens (LLM) lokalt.


Anbefalte innlegg

Har lyst til å prøve å bygge en maskin som kan kjøre litt større modeller med kunstig intelligens på en grei måte. Problemet er alltid VRAM. Mitt RTX 4080 er mer en raskt nok til å kjøre en 70B model, men siden modellen er for stor til å lastes i VRAM, går alt sammen utrolig sakte. Målet i første omgang er å få totalt minst 64 GB VRAM. Å kjøpe profesjonelle skjermkort til flere hundre tusen er selvfølgelig helt uaktuelt, men hvor enkelt/vanskelig er det å sette sammen en rigg med f.eks 4 stk. 4060 TI til dette formålet?

Finnes det andre skjermkort som er bedre egnet til dette? Hva med AMD? Nvidia er utrolig gjerrige på VRAM, og jeg antar at en rigg med 4 stk. 7800 XT vil yte vesentlig bedre enn 4 stk. 4060 TI, uten å koste så voldsomt mye mer.

Finner veldig lite informasjon på nettet om dette, og jeg har ikke lyst til å bruke en haug med penger uten å være rimleg sikker på at jeg kan få det til å virke. Noen her som har prøvd noe liknende, eller vet hvor jeg kan finne mer informasjon om temaet?


Her er iallfall en som har fått det til å fungere:
 

 

Lenke til kommentar
Videoannonse
Annonse
Jalla21 skrev (48 minutter siden):

Hadde jeg vært deg så hadde funnet på noe annet enn å bygge egen rigg for LMM hjemme.

Denne artikkelen er fra i sommer, men fortsatt helt grei.

https://www.hyperstack.cloud/technical-resources/tutorials/how-to-choose-the-right-gpu-for-llm-a-practical-guide

Har lest artikkelen, men dette er skjermkort ment for det profesjonelle markedet, og koster alt for mye for et lite hobbyprosjekt hjemme i stua. Målet er å få en ganske grei ytelse uten at det koster skjorta.

Lenke til kommentar

Har du vurdert en Mac Mini Pro M4 med 64GB minne til under 30k? 
 

Kjappere minne ca samme hastighet på minnet som på RTX 4060 afaik selv om det sikkert er tregere enn 4080, men tipper det er raskere enn 4x4060 pga mindre latency. 

Det er forventet at Ollama kommer med MLX støtte også snart, som gir 20-40% forbedring i ytelse for de som har testet i LMStudio.

Eller vente på M4 Max og Ultra så du kan få enda mer minne.

Endret av Phantom Software
Lenke til kommentar
Phantom Software skrev (58 minutter siden):

Har du vurdert en Mac Mini Pro M4 med 64GB minne til under 30k? 
 

Kjappere minne ca samme hastighet på minnet som på RTX 4060 afaik selv om det sikkert er tregere enn 4080, men tipper det er raskere enn 4x4060 pga mindre latency. 

Det er forventet at Ollama kommer med MLX støtte også snart, som gir 20-40% forbedring i ytelse for de som har testet i LMStudio.

Eller vente på M4 Max og Ultra så du kan få enda mer minne.

Har vurdert det ja. Har sett tester der Mac mini kjører 70B modeller helt greit. Derimot er jeg usikker på om det er mulig å fjernstyre en Mac fra en Windows maskin. Planen er å bruke eksternt skrivebord på hoved-PCen og vise den kunstige intelligensen på skjerm nummer 2. Føler det vil bli veldig tungvint om jeg må drive å flytte fram og tilbake på skjerm, mus, og tastatur for hver gang jeg skal bruke den kunstige intelligensen.

Lenke til kommentar
1 hour ago, Splitter said:

Derimot er jeg usikker på om det er mulig å fjernstyre en Mac fra en Windows maskin.

Jo det går fint med standard VNC. Du kan også bruke typiske support-verktøy som HelpWire eller Parsec for å koble til utenfra, men jeg anbefaler heller Tailscale + VNC til det.
 

Siden du snakker om 70B modeller så antar jeg du har fokus på LLM hovedsakelig. Da ville jeg bare kjørt det på Mac Mini'en som en Ollama server og koblet til fra Windows over lokalt nett, eller via f ex Tailscale, så kan du bruke det fra mobilen på farten også.

Lenke til kommentar
Phantom Software skrev (1 time siden):

Jo det går fint med standard VNC. Du kan også bruke typiske support-verktøy som HelpWire eller Parsec for å koble til utenfra, men jeg anbefaler heller Tailscale + VNC til det.
 

Siden du snakker om 70B modeller så antar jeg du har fokus på LLM hovedsakelig. Da ville jeg bare kjørt det på Mac Mini'en som en Ollama server og koblet til fra Windows over lokalt nett, eller via f ex Tailscale, så kan du bruke det fra mobilen på farten også.

Å bruke den lokale AIen fra telefonen, hadde jeg ikke tenkt på. Det kunne bli et spennende prosjekt. Tok en rask kikk på sidene til Apple, men fant ikke i farten noen Mac Mini med 64GB minne til under 30k der. Har du link?

Lenke til kommentar
Splitter skrev (På 14.12.2024 den 2:05 PM):

Å kjøpe profesjonelle skjermkort til flere hundre tusen er selvfølgelig helt uaktuelt, men hvor enkelt/vanskelig er det å sette sammen en rigg med f.eks 4 stk. 4060 TI til dette formålet?

Du kan faktisk demontere LLM og installere den i flere grafikkort med lite vRAM. Men de spesifikke metodene for demontering og implementeringsmetoder er forskjellige.

Den første er Pipeline Parallellism. Den deler opp modellen i flere deler før og etter, og setter dem inn i henholdsvis forskjellige grafikkort. På denne måten må hvert grafikkort vente til det forrige kortet fullfører sin beregning før det kan starte sin egen beregning, så dette løser kun. problem med å stappe modellen inn i grafikkortet. Den faktiske datahastigheten er fortsatt hastigheten til et kort. Selvfølgelig kan du kombinere 4 4060Ti 16GB, så du får en 4060 Ti 64GB.

Imidlertid er slike fordeler vanlige med rammeverk og programvareapplikasjoner som lama.cpp, Transformers eller ollama, exllama kan oppnå denne typen segmentering

Untitled.thumb.png.cd706f47a3a24fdd0c681daa3d832529.png

 

En annen metode er at Tensor Parallelism deler opp hvert lag av modellen i flere deler og legger dem inn i flere grafikkort. Hvert grafikkort må utføre en del av operasjonen og utveksle resultatdata. På denne måten kan du bruke all datakraften til alle grafikkort. Disse rammeverkene som TensorRT-LLM, vLLM, deepspeed er imidlertid stort sett på bedriftsnivå og trenger mer avanserte kodingsferdigheter. Dessuten støtter kanskje ikke disse rammeverkene maskinvare på forbrukernivå. Du må lese dokumentasjonen nøye før du legger pengene dine på flere kort. I tillegg kan du også trenge et serverhovedkort utstyrt med en spesialisert chip for å la grafikkortene kommunisere med hverandre uten å måtte gå gjennom CPU hver gang data utveksles.

Untitled.thumb.png.3724b42ff08b1f24fc5b120f03927e85.png

Endret av James G
Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
×
×
  • Opprett ny...