• No results found

Bakgrunn for prosjektet

Kongsberg Seatex er et datterselskap av Kongsberg Maritime som utvikler, produserer og selger

maritimt utstyr på verdensbasis. Bedriften benytter blant annet autonome skip til forskning og utvikling.

Disse selvkjørende skipene samler store mengder data når de er i drift. Dataene samles opp, arkiveres og gjøres tilgjengelig for videre analyse. Utfordringen med dette er mengden data som fartøyene produserer; det er her snakk om mellom en til to terrabyte med data per skip på en dag. Disse

datamengdene er for store til at det er hensiktsmessig å bruke en ren skyløsning for å håndtere dem, da dette blir dyrt og ressurskrevende. Kongsberg Seatex ønsker seg heller derfor et sikkert system for å sentralisere og lagre denne dataen. Deler av dataen skal ligge tilgjengelig for hurtiglesing basert på innhold, slik at utviklere raskere kan hente ut dataen som er interessant, mens resten arkiveres på et tregere medium.

I denne oppgaven har vi derfor fått i oppdrag å se på løsninger som kan effektivisere og forenkle

lagringen av filer, med hensikten å gjøre systemet mer fleksibelt og oversiktlig, samtidig som at analysen av filene blir raskere og enklere for utviklere. Oppdragsgiver har foreslått IBM Spectrum Scale som utgangspunkt for denne nye løsningen. Programmet er designet for å løse problemstillinger knyttet til lagring av store mengder data på flere ulike medium, slik som flaskehalser i ytelsen, kostnadseffektiv skalering av filsystemet, og generell oversiktlighet med sammenheng mellom enheter. Filhierarkiet som brukeren ser vises uavhengig av hvordan dataen er lagret, så brukerne trenger ikke å forholde seg til fysisk filplassering. Vi tror at Spectrum Scale er et godt alternativ for å løse Kongsbergs Seatex sin problemstilling. Derfor vil vi i denne rapporten vurdere dette systemet i forhold til bedriftens krav og behov.

2.1 Dagens systemer og rutiner

I dagens system (se figur 1) samles data fra de autonome fartøyene på disker i et Network Attached Storage (NAS), som senere fraktes over til datasenteret. Et NAS er kort forklart en enkel diskløsning som kobles på nettet, og kan nåes av andre maskiner som har tilgang til dette nettverket. På datasenteret lastes filene over til et annet NAS ved behov, noe som tar lang tid. Her arkiveres filene hierarkisk basert på dato. Dagens måte å lagre data på er lite skalerbar, uoversiktlig og lite optimalisert. Dette er fordi NAS lagrer all data på samme sted og på samme type medium, noe som raskt fører til at tilgangen til filsystemet til en flaskehals. Kostnadene ved en slik løsning vil stige lineært med kravet til kapasitet. I tillegg gir NASet oss et «single point of failure», noe som hverken er ønskelig i forhold til beskyttelse mot tap eller for høy oppetid og tilgjengelighet av data.

NTNU Prosjektgruppe 115 15-May-20

5 Forstudierapport

Figur 1 - Dagens løsning

2.2 Hvorfor IBM Spectrum Scale?

Problemstillingen i dette prosjektet er igjen hovedsakelig mengden data som produseres og skal lagres.

Hvert fartøy produserer mellom 1 og 2 terrabyte med data i døgnet. Lagres all data på disker, enten “on premise” eller i skyen kommer systemet til å bli for dyrt til det at lønner seg å bruke, og kompleksiteten øker over tid. Et av kravene til systemet er dermed å bruke magnetiske bånd for å lagre deler av dataene. Magnetiske bånd, eller tape, er mye billigere enn disker og kan lagre store mengder data per enhet. Skal man lagre flere petabytes med data, vil tape være et valg som gir mer mening økonomisk sett. Slike kassetter er robuste og kan lagres uten behov for strøm over lang tid. Ulempen er at de er mye tregere enn disker, og derfor er prioritering av data viktig. For å ha et fungerende system må det lages en hybridløsning hvor magnetiske bånd blir brukt for langtidslagring av data, mens data som blir eller skal bli behandlet er tilgjengelig på disker.

Her kommer IBM Spectrum Scale inn i bildet. Informasjonen her er et utdrag fra dokumentasjonen om Spectrum Scale sine nettsider (IBM 2020a), og brukermanualen om Spectrum Scale (Quintero et al, 2019). Spectrum Scale er et intelligent, fleksibelt, parallelt filsystem med mange funksjoner for å dekke ulike behov og konfigurasjoner. Programmet installeres på en eller flere noder i et cluster, altså

maskiner som samarbeider, som sammen sørger for høy oppetid og tilgjengelighet. Disse nodene kommuniserer med hverandre over et høyhastighetsnettverk. Applikasjonene som kommuniserer mot filsystemet sender forespørsler til nodene som er koblet mot lagringsmediet om å få tilgang til data.

6 Forstudierapport

Lagringsmediet er typisk et Storage Area Network (SAN) eller en annen form for redundant løsning.

Programmet er en del av programvare-suiten IBM Spectrum Storage, som inneholder flere alternativer for Software Defined Storage (SDS).

Dokumentasjonen for Spectrum Scale er omfattende, og systemet kan konfigureres på mange forskjellige vis. Noen av hovedfunksjonene som kan nevnes er:

• Skalerbart enterprise-programvare som kan brukes på standard maskinvare

• Høyhastighets parallelt filsystem som kan etableres på kryss av geografiske lokasjoner

• Enorm kapasitet for lagring av data

• Bredt spekter av konfigurasjoner for å møte bedriftsbehov

• Konfigurasjonen kan gå fra å være veldig enkel til veldig kompleks avhengig av behov

• Høy grad av kompatibilitet med operativsystemer og protokoller samler ulike enheter på samme plattform

• Global tilgang til filsystemet, selv med dårlig internett-tilkobling

• Live-migrering av filsystemet mellom ulike clustre legger til rette for høy ytelse, redundans og backup

• Innebygde funksjoner for høy oppetid, failover og kryptering

Filsystemet er designet slik at det sprer data systematisk over flere disker i RAID. Programvaren legger til rette for flere funksjoner, slik som HA, høy I/O-båndbredde, god skalerbarhet og sikker lagring. Ved å gruppere disker med ulik pris og hastighet vil Spectrum Scale kunne flytte dataene dit de trengs etter behov, noe som sparer kostnader ved unødvendig bruk av dyr lagring. Effekten av dette vil også være at man ikke trenger å grue seg for å bruke lagring med høy ytelse, da man kun trenger å gjøre dette der det er behov for det. Ved å definere egne regler for dataen man importerer i filsystemet vil programmet kunne behandle dataen automatisk for å optimalisere for både ytelse og kostnadsbesparelse.

Når vi ser på IBM Spectrum Scale kontra dagens NAS er det mange grunner til å velge Spectrum Scale:

• Spectrum Scale er et parallelt filsystem designet med høy ytelse og skalerbarhet for Big Data og AI-workload i tankene. Et NAS er derimot et lineært filsystem der ytelse raskt begrenses ved mange forespørsler og høye krav til lese- og skrivehastigheter.

• Filsystemet har virtuelt sett ubegrenset med lagringskapasitet.

• Lagring av data er policy-basert, og skjer på den type lagringsmedium som er hensiktsmessig, og sparer derfor kostnader. Spectrum Scale kan defineres til å kun ta vare på de data man trenger, og kaste resten. Et NAS er derimot en enkel lagringsenhet som kun er designet for å lagre data.

• Løsningen er multifunksjonell, mens NAS kun har en enkelt funksjon.

• Overlegen kapasitet for båndbredde, oppetid og redundans. Et NAS vil derimot være et «single point of failure» ved uhell og feil.

• Spectrum Scale kan spres over ulike geografiske lokasjoner der spesifiserte datasett sendes over og synkroniseres automatisk, noe som maskerer forsinkelser i nettverket.

NTNU Prosjektgruppe 115 15-May-20

7 Forstudierapport