Splitter Skrevet 14. desember Del Skrevet 14. desember Har lyst til å prøve å bygge en maskin som kan kjøre litt større modeller med kunstig intelligens på en grei måte. Problemet er alltid VRAM. Mitt RTX 4080 er mer en raskt nok til å kjøre en 70B model, men siden modellen er for stor til å lastes i VRAM, går alt sammen utrolig sakte. Målet i første omgang er å få totalt minst 64 GB VRAM. Å kjøpe profesjonelle skjermkort til flere hundre tusen er selvfølgelig helt uaktuelt, men hvor enkelt/vanskelig er det å sette sammen en rigg med f.eks 4 stk. 4060 TI til dette formålet? Finnes det andre skjermkort som er bedre egnet til dette? Hva med AMD? Nvidia er utrolig gjerrige på VRAM, og jeg antar at en rigg med 4 stk. 7800 XT vil yte vesentlig bedre enn 4 stk. 4060 TI, uten å koste så voldsomt mye mer. Finner veldig lite informasjon på nettet om dette, og jeg har ikke lyst til å bruke en haug med penger uten å være rimleg sikker på at jeg kan få det til å virke. Noen her som har prøvd noe liknende, eller vet hvor jeg kan finne mer informasjon om temaet? Her er iallfall en som har fått det til å fungere: Lenke til kommentar
Jalla21 Skrevet 14. desember Del Skrevet 14. desember Hadde jeg vært deg så hadde funnet på noe annet enn å bygge egen rigg for LMM hjemme. Denne artikkelen er fra i sommer, men fortsatt helt grei. https://www.hyperstack.cloud/technical-resources/tutorials/how-to-choose-the-right-gpu-for-llm-a-practical-guide Lenke til kommentar
Splitter Skrevet 14. desember Forfatter Del Skrevet 14. desember Jalla21 skrev (48 minutter siden): Hadde jeg vært deg så hadde funnet på noe annet enn å bygge egen rigg for LMM hjemme. Denne artikkelen er fra i sommer, men fortsatt helt grei. https://www.hyperstack.cloud/technical-resources/tutorials/how-to-choose-the-right-gpu-for-llm-a-practical-guide Har lest artikkelen, men dette er skjermkort ment for det profesjonelle markedet, og koster alt for mye for et lite hobbyprosjekt hjemme i stua. Målet er å få en ganske grei ytelse uten at det koster skjorta. Lenke til kommentar
Phantom Software Skrevet 14. desember Del Skrevet 14. desember (endret) Har du vurdert en Mac Mini Pro M4 med 64GB minne til under 30k? Kjappere minne ca samme hastighet på minnet som på RTX 4060 afaik selv om det sikkert er tregere enn 4080, men tipper det er raskere enn 4x4060 pga mindre latency. Det er forventet at Ollama kommer med MLX støtte også snart, som gir 20-40% forbedring i ytelse for de som har testet i LMStudio. Eller vente på M4 Max og Ultra så du kan få enda mer minne. Endret 14. desember av Phantom Software Lenke til kommentar
Svein M Skrevet 14. desember Del Skrevet 14. desember (endret) For Nvidia https://www.nvidia.com/en-eu/design-visualization/desktop-graphics/ Det minste kortet i (Ada Lovelace) serien er RTX 2000 (det har 16GB): https://www.prisjakt.no/product.php?p=13321012 Endret 14. desember av Svein M Lenke til kommentar
Splitter Skrevet 14. desember Forfatter Del Skrevet 14. desember Phantom Software skrev (58 minutter siden): Har du vurdert en Mac Mini Pro M4 med 64GB minne til under 30k? Kjappere minne ca samme hastighet på minnet som på RTX 4060 afaik selv om det sikkert er tregere enn 4080, men tipper det er raskere enn 4x4060 pga mindre latency. Det er forventet at Ollama kommer med MLX støtte også snart, som gir 20-40% forbedring i ytelse for de som har testet i LMStudio. Eller vente på M4 Max og Ultra så du kan få enda mer minne. Har vurdert det ja. Har sett tester der Mac mini kjører 70B modeller helt greit. Derimot er jeg usikker på om det er mulig å fjernstyre en Mac fra en Windows maskin. Planen er å bruke eksternt skrivebord på hoved-PCen og vise den kunstige intelligensen på skjerm nummer 2. Føler det vil bli veldig tungvint om jeg må drive å flytte fram og tilbake på skjerm, mus, og tastatur for hver gang jeg skal bruke den kunstige intelligensen. Lenke til kommentar
Splitter Skrevet 14. desember Forfatter Del Skrevet 14. desember Svein M skrev (56 minutter siden): For Nvidia https://www.nvidia.com/en-eu/design-visualization/desktop-graphics/ Det minste kortet i (Ada Lovelace) serien er RTX 2000 (det har 16GB): https://www.prisjakt.no/product.php?p=13321012 Interessant, men vil dette bli bedre enn bare å kjøpe vanlige 4060 TI? Lenke til kommentar
Phantom Software Skrevet 14. desember Del Skrevet 14. desember 1 hour ago, Splitter said: Derimot er jeg usikker på om det er mulig å fjernstyre en Mac fra en Windows maskin. Jo det går fint med standard VNC. Du kan også bruke typiske support-verktøy som HelpWire eller Parsec for å koble til utenfra, men jeg anbefaler heller Tailscale + VNC til det. Siden du snakker om 70B modeller så antar jeg du har fokus på LLM hovedsakelig. Da ville jeg bare kjørt det på Mac Mini'en som en Ollama server og koblet til fra Windows over lokalt nett, eller via f ex Tailscale, så kan du bruke det fra mobilen på farten også. Lenke til kommentar
Svein M Skrevet 14. desember Del Skrevet 14. desember Splitter skrev (3 timer siden): Interessant, men vil dette bli bedre enn bare å kjøpe vanlige 4060 TI? Jeg ser at 4060 Ti 16GB er en god del kraftigere enn RTX 2000 Ada. https://www.gpu-monkey.com/en/compare_gpu-nvidia_rtx_2000_ada-vs-nvidia_geforce_rtx_4060_ti_16gb_founders_edition#google_vignette Lenke til kommentar
Splitter Skrevet 14. desember Forfatter Del Skrevet 14. desember Phantom Software skrev (1 time siden): Jo det går fint med standard VNC. Du kan også bruke typiske support-verktøy som HelpWire eller Parsec for å koble til utenfra, men jeg anbefaler heller Tailscale + VNC til det. Siden du snakker om 70B modeller så antar jeg du har fokus på LLM hovedsakelig. Da ville jeg bare kjørt det på Mac Mini'en som en Ollama server og koblet til fra Windows over lokalt nett, eller via f ex Tailscale, så kan du bruke det fra mobilen på farten også. Å bruke den lokale AIen fra telefonen, hadde jeg ikke tenkt på. Det kunne bli et spennende prosjekt. Tok en rask kikk på sidene til Apple, men fant ikke i farten noen Mac Mini med 64GB minne til under 30k der. Har du link? Lenke til kommentar
Splitter Skrevet 14. desember Forfatter Del Skrevet 14. desember Svein M skrev (34 minutter siden): Jeg ser at 4060 Ti 16GB er en god del kraftigere enn RTX 2000 Ada. https://www.gpu-monkey.com/en/compare_gpu-nvidia_rtx_2000_ada-vs-nvidia_geforce_rtx_4060_ti_16gb_founders_edition#google_vignette Ok, da er nok 4060 TI et bedre valg. Lenke til kommentar
Phantom Software Skrevet 15. desember Del Skrevet 15. desember 5 hours ago, Splitter said: Tok en rask kikk på sidene til Apple, men fant ikke i farten noen Mac Mini med 64GB minne til under 30k der. Har du link? Får ikke lenket direkte til spec, men gå til https://www.apple.com/no/mac-mini, kjøp, velg m4 Pro, endre til 64gb minne -> 28990 kr. Lenke til kommentar
James G Skrevet tirsdag kl 00:00 Del Skrevet tirsdag kl 00:00 (endret) Splitter skrev (På 14.12.2024 den 2:05 PM): Å kjøpe profesjonelle skjermkort til flere hundre tusen er selvfølgelig helt uaktuelt, men hvor enkelt/vanskelig er det å sette sammen en rigg med f.eks 4 stk. 4060 TI til dette formålet? Du kan faktisk demontere LLM og installere den i flere grafikkort med lite vRAM. Men de spesifikke metodene for demontering og implementeringsmetoder er forskjellige. Den første er Pipeline Parallellism. Den deler opp modellen i flere deler før og etter, og setter dem inn i henholdsvis forskjellige grafikkort. På denne måten må hvert grafikkort vente til det forrige kortet fullfører sin beregning før det kan starte sin egen beregning, så dette løser kun. problem med å stappe modellen inn i grafikkortet. Den faktiske datahastigheten er fortsatt hastigheten til et kort. Selvfølgelig kan du kombinere 4 4060Ti 16GB, så du får en 4060 Ti 64GB. Imidlertid er slike fordeler vanlige med rammeverk og programvareapplikasjoner som lama.cpp, Transformers eller ollama, exllama kan oppnå denne typen segmentering En annen metode er at Tensor Parallelism deler opp hvert lag av modellen i flere deler og legger dem inn i flere grafikkort. Hvert grafikkort må utføre en del av operasjonen og utveksle resultatdata. På denne måten kan du bruke all datakraften til alle grafikkort. Disse rammeverkene som TensorRT-LLM, vLLM, deepspeed er imidlertid stort sett på bedriftsnivå og trenger mer avanserte kodingsferdigheter. Dessuten støtter kanskje ikke disse rammeverkene maskinvare på forbrukernivå. Du må lese dokumentasjonen nøye før du legger pengene dine på flere kort. I tillegg kan du også trenge et serverhovedkort utstyrt med en spesialisert chip for å la grafikkortene kommunisere med hverandre uten å måtte gå gjennom CPU hver gang data utveksles. Endret tirsdag kl 08:44 av James G Lenke til kommentar
Anbefalte innlegg
Opprett en konto eller logg inn for å kommentere
Du må være et medlem for å kunne skrive en kommentar
Opprett konto
Det er enkelt å melde seg inn for å starte en ny konto!
Start en kontoLogg inn
Har du allerede en konto? Logg inn her.
Logg inn nå