Gå til innhold

Hjelp til valg av linux-klynge


Anbefalte innlegg

Jeg skal sette opp en klyngeløsning (cluter) med Linux. Sannsynligvis blir det enten Suse Enterprise 10 eller Red Hat Enterprise 5. Til det har jeg noen grunnleggende spørsmål:

 

Hvis vi kjøper 2 maskiner nå, er det enkelt å øke klyngen til 4 eller 8 senere?

Må vi regne med noe nedetid (omstart) når vi skal oppgradere til flere maskiner?

Må/bør de nye maskinene ha lik maskinvare som de to første?

Lenke til kommentar
Videoannonse
Annonse
Jeg skal sette opp en klyngeløsning (cluter) med Linux. Sannsynligvis blir det enten Suse Enterprise 10 eller Red Hat Enterprise 5. Til det har jeg noen grunnleggende spørsmål:

 

Hvis vi kjøper 2 maskiner nå, er det enkelt å øke klyngen til 4 eller 8 senere?

Det er trivielt, bare koble de nye nodene til routeren. Det finnes god software for å automatisere prosessen. Typisk lager du da et bilde av installasjonen når du har satt opp en node akkurat slik du vil ha den, så ruller du ut det bildet på de andre, men med spesifikk domene/IP på hver.

Må vi regne med noe nedetid (omstart) når vi skal oppgradere til flere maskiner?
Enhver router støtter hot-plug såvidt jeg vet, så det er bare å koble til.
Må/bør de nye maskinene ha lik maskinvare som de to første?
Nei, du kan ha klyngen så heterogen du vil, det går kun utover lastbalansering. Du kan blande OS-versjoner, 32/64-bit, i det hele tatt. Men blander du software kan du oppleve interoperabilitetsproblemer (en kode virker på en node, men ikke på den andre). Nodene er i utgangspunktet bare forskjellige maskiner på samme nett. Vurder hvilke tjenester du vil sentralisere, med en såpass liten klynge er det ikke sikkert det er noe poeng i å legge mye tid i sentraliserte tjenster (f.eks. DNS, autentisering, lagring, osv.).
Lenke til kommentar
Må vi regne med noe nedetid (omstart) når vi skal oppgradere til flere maskiner?
Enhver router støtter hot-plug såvidt jeg vet, så det er bare å koble til.

Mulig jeg formulerte meg litt dårlig. Er det bare å plugge til de nye nodene, installere OS på de også oppdages de nye ressursene automatisk slik at jeg kan starte mpi-jobber på f.eks 4 noder i stedet for 2?

 

Hvordan fordeles jobber på enorme klynger? Hvis en av 100 noder streiker så må jo den jobben kunne sendes videre til en annen maskin sånn at man slipper å risikere at alt arbeidet fra de 100 maskinene blir bortkastet og må gjøres på nytt. Er det trivielt å få til med "vanlig" programvare og en liten klynge som denne?

 

PS. Jeg lagde noen flere tråder om relaterte emner for å ikke dytte inn alt for mye i den samme tråden:

Hvor viktig er redundant PSU?

Nettverk til HPC-klynge

Lenke til kommentar
Mulig jeg formulerte meg litt dårlig. Er det bare å plugge til de nye nodene, installere OS på de også oppdages de nye ressursene automatisk slik at jeg kan starte mpi-jobber på f.eks 4 noder i stedet for 2?
Du formulerte deg helt fint. For å se hvorfor kan du se på hvordan parallelle jobber fordelt på flere noder startes. Bruk pakkebehandleren til din distro og installer openmpi. Vips så er din hjemmemaskin en fungerende linux-node, parallelle jobber startes med kommandoen mpirun. Kommandoen gies typisk tre input: Antall prosesser, liste over hosts og binærfilen som skal kjøres. Hosts angis med domene eller IP, så alt som trengs er at routeren gir deg domene/IP til noden, så kan du legge den inn som host i neste jobb som kjøres.
Hvordan fordeles jobber på enorme klynger?
Med køprogram, f.eks. Torque.
Hvis en av 100 noder streiker så må jo den jobben kunne sendes videre til en annen maskin sånn at man slipper å risikere at alt arbeidet fra de 100 maskinene blir bortkastet og må gjøres på nytt.
Ideelt sett har du checkpoint restart til programmene dine, hvilket betyr at du kan starte jobben der hvor den slapp/stoppet. For mange er nok slik funksjonalitet kun visjon, og sjelden optimalt implementert. Store jobber ønsker man derfor å få igjennom uten stans, det er derfor man betaler ekstra for redundans. Det mest kritiske er minnet, derfor har alle nodeløsninger fra alle leverandører ECC minne for å unngå minnefeil. Nummer to er harddisk, disker ryker med jevne mellomrom på en stor klynge, så hvis jobbene dine typisk tar et par uker og kjører på hundre noder ønsker du diskredundans. Punkt tre på listen er power supply, som etter min mening er overvurdert. Dersom strømforsyningen holder de første ukene, så er feilprosenten gjerne veldig liten, så personlig ville ikke jeg vært villig til å betale mye ekstra for redundant power på en større klynge, men alle er ikke enige med meg der.
PS. Jeg lagde noen flere tråder om relaterte emner for å ikke dytte inn alt for mye i den samme tråden:

Hvor viktig er redundant PSU?

Nettverk til HPC-klynge

Skal ta en titt.
Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...