Skjermkort til å kjøre kunstig intelligens (LLM) lokalt.

Splitter · 14. desember

Har lyst til å prøve å bygge en maskin som kan kjøre litt større modeller med kunstig intelligens på en grei måte. Problemet er alltid VRAM. Mitt RTX 4080 er mer en raskt nok til å kjøre en 70B model, men siden modellen er for stor til å lastes i VRAM, går alt sammen utrolig sakte. Målet i første omgang er å få totalt minst 64 GB VRAM. Å kjøpe profesjonelle skjermkort til flere hundre tusen er selvfølgelig helt uaktuelt, men hvor enkelt/vanskelig er det å sette sammen en rigg med f.eks 4 stk. 4060 TI til dette formålet?

Finnes det andre skjermkort som er bedre egnet til dette? Hva med AMD? Nvidia er utrolig gjerrige på VRAM, og jeg antar at en rigg med 4 stk. 7800 XT vil yte vesentlig bedre enn 4 stk. 4060 TI, uten å koste så voldsomt mye mer.

Finner veldig lite informasjon på nettet om dette, og jeg har ikke lyst til å bruke en haug med penger uten å være rimleg sikker på at jeg kan få det til å virke. Noen her som har prøvd noe liknende, eller vet hvor jeg kan finne mer informasjon om temaet?

Her er iallfall en som har fått det til å fungere:

Jalla21 · 14. desember

Hadde jeg vært deg så hadde funnet på noe annet enn å bygge egen rigg for LMM hjemme.

Denne artikkelen er fra i sommer, men fortsatt helt grei.

https://www.hyperstack.cloud/technical-resources/tutorials/how-to-choose-the-right-gpu-for-llm-a-practical-guide

Splitter · 14. desember

Jalla21 skrev (48 minutter siden):

Hadde jeg vært deg så hadde funnet på noe annet enn å bygge egen rigg for LMM hjemme.

Denne artikkelen er fra i sommer, men fortsatt helt grei.

https://www.hyperstack.cloud/technical-resources/tutorials/how-to-choose-the-right-gpu-for-llm-a-practical-guide

Har lest artikkelen, men dette er skjermkort ment for det profesjonelle markedet, og koster alt for mye for et lite hobbyprosjekt hjemme i stua. Målet er å få en ganske grei ytelse uten at det koster skjorta.

Phantom Software · 14. desember

Har du vurdert en Mac Mini Pro M4 med 64GB minne til under 30k?

~~Kjappere minne~~ ca samme hastighet på minnet som på RTX 4060 afaik selv om det sikkert er tregere enn 4080, men tipper det er raskere enn 4x4060 pga mindre latency.

Det er forventet at Ollama kommer med MLX støtte også snart, som gir 20-40% forbedring i ytelse for de som har testet i LMStudio.

Eller vente på M4 Max og Ultra så du kan få enda mer minne.

Endret 14. desember av Phantom Software

Svein M · 14. desember

For Nvidia

https://www.nvidia.com/en-eu/design-visualization/desktop-graphics/

Det minste kortet i (Ada Lovelace) serien er RTX 2000 (det har 16GB): https://www.prisjakt.no/product.php?p=13321012

Endret 14. desember av Svein M

Splitter · 14. desember

Phantom Software skrev (58 minutter siden):

Har du vurdert en Mac Mini Pro M4 med 64GB minne til under 30k?

~~Kjappere minne~~ ca samme hastighet på minnet som på RTX 4060 afaik selv om det sikkert er tregere enn 4080, men tipper det er raskere enn 4x4060 pga mindre latency.

Det er forventet at Ollama kommer med MLX støtte også snart, som gir 20-40% forbedring i ytelse for de som har testet i LMStudio.

Eller vente på M4 Max og Ultra så du kan få enda mer minne.

Har vurdert det ja. Har sett tester der Mac mini kjører 70B modeller helt greit. Derimot er jeg usikker på om det er mulig å fjernstyre en Mac fra en Windows maskin. Planen er å bruke eksternt skrivebord på hoved-PCen og vise den kunstige intelligensen på skjerm nummer 2. Føler det vil bli veldig tungvint om jeg må drive å flytte fram og tilbake på skjerm, mus, og tastatur for hver gang jeg skal bruke den kunstige intelligensen.

Splitter · 14. desember

Svein M skrev (56 minutter siden):

For Nvidia

https://www.nvidia.com/en-eu/design-visualization/desktop-graphics/

Det minste kortet i (Ada Lovelace) serien er RTX 2000 (det har 16GB): https://www.prisjakt.no/product.php?p=13321012

Interessant, men vil dette bli bedre enn bare å kjøpe vanlige 4060 TI?

Phantom Software · 14. desember

1 hour ago, Splitter said:

Derimot er jeg usikker på om det er mulig å fjernstyre en Mac fra en Windows maskin.

Jo det går fint med standard VNC. Du kan også bruke typiske support-verktøy som HelpWire eller Parsec for å koble til utenfra, men jeg anbefaler heller Tailscale + VNC til det.

Siden du snakker om 70B modeller så antar jeg du har fokus på LLM hovedsakelig. Da ville jeg bare kjørt det på Mac Mini'en som en Ollama server og koblet til fra Windows over lokalt nett, eller via f ex Tailscale, så kan du bruke det fra mobilen på farten også.

Svein M · 14. desember

Splitter skrev (3 timer siden):

Interessant, men vil dette bli bedre enn bare å kjøpe vanlige 4060 TI?

Jeg ser at 4060 Ti 16GB er en god del kraftigere enn RTX 2000 Ada.

https://www.gpu-monkey.com/en/compare_gpu-nvidia_rtx_2000_ada-vs-nvidia_geforce_rtx_4060_ti_16gb_founders_edition#google_vignette

Splitter · 14. desember

Phantom Software skrev (1 time siden):

Jo det går fint med standard VNC. Du kan også bruke typiske support-verktøy som HelpWire eller Parsec for å koble til utenfra, men jeg anbefaler heller Tailscale + VNC til det.

Siden du snakker om 70B modeller så antar jeg du har fokus på LLM hovedsakelig. Da ville jeg bare kjørt det på Mac Mini'en som en Ollama server og koblet til fra Windows over lokalt nett, eller via f ex Tailscale, så kan du bruke det fra mobilen på farten også.

Å bruke den lokale AIen fra telefonen, hadde jeg ikke tenkt på. Det kunne bli et spennende prosjekt. Tok en rask kikk på sidene til Apple, men fant ikke i farten noen Mac Mini med 64GB minne til under 30k der. Har du link?

Splitter · 14. desember

Svein M skrev (34 minutter siden):

Jeg ser at 4060 Ti 16GB er en god del kraftigere enn RTX 2000 Ada.

https://www.gpu-monkey.com/en/compare_gpu-nvidia_rtx_2000_ada-vs-nvidia_geforce_rtx_4060_ti_16gb_founders_edition#google_vignette

Ok, da er nok 4060 TI et bedre valg.

Phantom Software · 15. desember

5 hours ago, Splitter said:

Tok en rask kikk på sidene til Apple, men fant ikke i farten noen Mac Mini med 64GB minne til under 30k der. Har du link?

Får ikke lenket direkte til spec, men gå til https://www.apple.com/no/mac-mini, kjøp, velg m4 Pro, endre til 64gb minne -> 28990 kr.

James G · tirsdag kl 00:00

Splitter skrev (På 14.12.2024 den 2:05 PM):

Å kjøpe profesjonelle skjermkort til flere hundre tusen er selvfølgelig helt uaktuelt, men hvor enkelt/vanskelig er det å sette sammen en rigg med f.eks 4 stk. 4060 TI til dette formålet?

Du kan faktisk demontere LLM og installere den i flere grafikkort med lite vRAM. Men de spesifikke metodene for demontering og implementeringsmetoder er forskjellige.

Den første er Pipeline Parallellism. Den deler opp modellen i flere deler før og etter, og setter dem inn i henholdsvis forskjellige grafikkort. På denne måten må hvert grafikkort vente til det forrige kortet fullfører sin beregning før det kan starte sin egen beregning, så dette løser kun. problem med å stappe modellen inn i grafikkortet. Den faktiske datahastigheten er fortsatt hastigheten til et kort. Selvfølgelig kan du kombinere 4 4060Ti 16GB, så du får en 4060 Ti 64GB.

Imidlertid er slike fordeler vanlige med rammeverk og programvareapplikasjoner som lama.cpp, Transformers eller ollama, exllama kan oppnå denne typen segmentering

En annen metode er at Tensor Parallelism deler opp hvert lag av modellen i flere deler og legger dem inn i flere grafikkort. Hvert grafikkort må utføre en del av operasjonen og utveksle resultatdata. På denne måten kan du bruke all datakraften til alle grafikkort. Disse rammeverkene som TensorRT-LLM, vLLM, deepspeed er imidlertid stort sett på bedriftsnivå og trenger mer avanserte kodingsferdigheter. Dessuten støtter kanskje ikke disse rammeverkene maskinvare på forbrukernivå. Du må lese dokumentasjonen nøye før du legger pengene dine på flere kort. I tillegg kan du også trenge et serverhovedkort utstyrt med en spesialisert chip for å la grafikkortene kommunisere med hverandre uten å måtte gå gjennom CPU hver gang data utveksles.

Endret tirsdag kl 08:44 av James G

Logg inn

Skjermkort til å kjøre kunstig intelligens (LLM) lokalt.

Anbefalte innlegg

Splitter

Lenke til kommentar

Videoannonse

Jalla21

Lenke til kommentar

Splitter

Lenke til kommentar

Phantom Software

Lenke til kommentar

Svein M

Lenke til kommentar

Splitter

Lenke til kommentar

Splitter

Lenke til kommentar

Phantom Software

Lenke til kommentar

Svein M

Lenke til kommentar

Splitter

Lenke til kommentar

Splitter

Lenke til kommentar

Phantom Software

Lenke til kommentar

James G

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Populær nå

trykk i vannbåren varme leilighet

Hvem er aktive 0 medlemmer