Slik flyttet Facebook 30 peta

Slik flyttet Facebook 30 peta

Ikke bare-bare å håndtere 30.000.000.000.000.000 byte i et live-system.

Nå forteller Facebook om hvordan de i juni gjennomførte sitt flytt av 30 petabyte i Hadoop-systemet etter at deres forrige datasenter med Hive-rammeverk ikke hadde plass til flere noder.

Datamengden Facebook sitter på tilsvarer i deres egne ord 3000 ganger så mye informasjon som USAs kongressbibliotek har.

Faceboook bruker Hadhoop til å daglig hente inn og lagre uhorvelige mengder informasjon generert av sine brukere, som analyseres ved hjelp av Apache Hive.

Gjennomførbart

Det hadde av naturlige årsaker ikke vært strategisk lurt å flytte systemet fysisk, ettersom det ville medført altfor lang nedetid for den populære tjenesten.

Det lå videre andre utfordringer til grunn, blant annet det faktum at det kontinuerlig slettes og skrives nye data til Hadoop-systemet de benytter. Derfor måtte data migreres mer eller mindre på direkten til nytt system

Facebooks ingeniører måtte utvikle et replikasjonssystem som speilet endringer fra det gamle clusteret til det nye og større som ligger i Prineville i Oregon.

- Fremgangsmåten ble mer kompleks siden kilden er et live filsystem, skriver ingeniør Paul Yang i en blogg.

- Vi har vist at det er mulig å på en effektiv måte holde en aktiv klynge på adskillige petabyte skikkelig replikert med kun en liten forsinkelse.

Endringslogg

Hadoop er et distribuert filsystem utviklet av Apache Software Foundation, og det første ingeniørene gjorde var å kopiere over alt via Hadoop-applikasjoner som Distcp. Så, via det nye replikasjonssystemet, tok Facebook seg av fil og metadataendringer som hadde skjedd etter råkopiprosessen.

- Filendringer ble oppdaget gjennom et spesialbygget Hive-plugin som merket seg endringer i en logg. Replikasjonssystemet hentet stadig opp loggen og kopierte de modifiserte filene så destinasjonen aldri lå mer enn et par timer bak, forklarer Yang.

Når ingeniørene var klare for selve byttet slo Facebook midlertidig av Hadoops mulighet til å opprette nye filer og lot replikeringssystemet ferdiggjøre replikeringen av data til den nye klyngen. Så slo de på den nye Jobtrackeren.

- Når replikeringen hadde hentet seg inn var begge clusterene identiske og vi endret DNS-oppføringene slik at domenenavn-referansene i Hadoop-jobbene pekte til serverne i det nye clusteret, forklarer Yang.

Nyttig for andre

Computerworlds nyhetstjeneste påpeker at Facebooks Hadoop-erfaringer kan være av interesse for det stigende antall bedrifter som tar i bruk programvaren til å oppbevare og analysere enorme datamengder strukturert og ustrukturert data.

Mye av tiltrekkingskraften til Hadoop er evnen til å bryte ned store datasett til mindre blokker som deretter distribueres på tvers av en klynge av systemer bestående av standard servermaskinvare for hurtigere behandling.

Også Ebay, Amazon og Yahoo bruker Hadoop. Yahoo er en av de store bidragsyterne til åpen kildekode-prosjektet.

Facebooks gamle datasenter bestod av 2000 maskiner på 12 terabyte fordelt på 1200 8-kjernersmaskiner og 800 16-kjernersmaskiner, hver med 32 gigabyte ram.

Sosiale Medier