In veel gevallen worden organisaties na een begin te hebben gemaakt met big data met door wat onderzoeksbureau Forrester ‘giftige data’ wordt genoemd. Een voorbeeld is een telecomleverancier die machinedata verzamelt over wie op welke masten inlogt, hoe lang mensen online zijn, hoeveel data ze verbruiken en of ze zich verplaatsten. Deze data gebruikt de leverancier vervolgens om profielen op te maken over het gedrag van gebruikers.
Dezelfde telecomleverancier heeft te maken met veel door gebruikers gegenereerde data, denk daarbij aan bankgegevens, BSN-informatie, data uit het verkoopsysteem over klachten en verlengingen en informatie die ooit vrijwillig tijdens een enquête is doorgegeven. De mate waarin het bedrijf in staat is deze informatie te correleren kan van waarde zijn, maar het is ook giftige informatie in die zin dat als de data zich buiten de organisatie beweegt en in handen van derden komt, dit voor zowel de klant als de leverancier catastrofale gevolgen kan hebben.
1. Denk over beveiliging na voordat je met een project start
Je installeert ook geen slot op je deur nadat je bent beroofd, dus moet je ook niet wachten op een datalek voordat je je data beveiligt. Je IT-afdeling moet samen met andere stakeholders serieuze gesprekken gaan voeren over databeveiliging voordat je de data in een Hadoop-cluster gaat zetten.
2. Bepaal welke data opgeslagen worden
Als je van plan bent om een oplossing als Hadoop te gebruiken om analytische berekeningen op data waarop regelgeving van toepassing is, moet je naar alle waarschijnlijkheid gewoon aan de geldende regels blijven voldoen. Zelfs als de data die je opslaat niet aan regelgeving onderhevig is, dan nog een risicoanalyse moeten uitvoeren waarin je meeneemt wat er gebeurt als de data gestolen wordt.
3. Kijk goed naar accountability
Op dit moment bevindt de data die je gebruikt zich waarschijnlijk in verschillende organisatorische silo’s en datasets. Het centraliseren van accountability voor databeveiliging zorgt ervoor dat je beleid kunt handhaven en toegangscontrole rond deze silo’s kunt toepassen.
4. Versleutel zowel data in ruste als data in gebruik
Versleutel je data op bestandsniveau. Daarnaast kan SSL-encryptie helpen om big data die verspreid wordt tussen nodes en applicaties te beveiligen. “Bestandsversleuteling kan bescherming bieden als kwaadwillende gebruikers of beheerders toegang verkrijgen tot datanodes en direct bestanden willen openen. Het maakt gestolen bestanden of schijfimages onleesbaar. Het is wel leesbaar door Hadoop en verwante applicaties en schaalt met de groei van het cluster mee. Dit is een kosteneffectieve manier om het risico van verschillende bedreigingen op gebied van security te verlagen”, zegt analist Adrian Lane van Securosis.
5. Breng een scheiding aan tussen sleutels en versleutelde data
Het opslaan van encryptiesleutels op dezelfde server als je versleutelde data is vragen om problemen. Een beheersysteem voor encryptiesleutels laat je de keys op een veilige manier opslaan op een andere locatie dan waar de data die je probeert te beschermen zich bevindt.
6. Gebruik het Kerberos netwerkauthenticatieprotocol
Je moet bepalen welke mensen en processen toegang hebben tot opgeslagen data binnen je big data-systeem. “Dit is een noodzaak om onvertrouwde nodes en applicaties uit je cluster te houden”, zegt Lane. “Het helpt je toegang via de webconsole te beschermen, wat het lastiger maakt om beheerrollen te hacken. We weten dat Kerberos lastig is in te stellen. Ook het (re)valideren van nieuwe nodes en applicaties vereist het nodige werk. Maar zonder zulk wederzijds vertrouwen en is het makkelijk om Hadoop ertoe te verleiden onvertrouwde applicaties of nodes in het cluster te laten die data kunnen toevoegen, aanpassen of downloaden. Kerberos is een van de meest effectieve securitytools beschikbaar en het werkt goed met een Hadoop-infrastructuur. Gebruik het dan ook.”
7. Automatiseer op een veilige manier
Met big data werk je met meerdere nodes, dus er zal soms iets bijgeplaatst of weggehaald moeten worden. Tools als Chef en Puppet zorgen ervoor dat je patches, applicatieconfiguratie, updates, images en certificaten automatiseert, maar het bouwen van deze scripts vergt veel tijd, maar betaalt zich vanzelf terug, zegt Lane. “Het zorgt ervoor dat iedere nieuwe node direct van een basisniveau security gebruikmaakt.”
8. Zorg dat er binnen je cluster gelogd wordt
“Big data gaat goed samen met het verzamelen en beheren van logbestanden”, zegt Lane. “Veel webbedrijven starten met big data om logbestanden te kunnen beheren. Waarom voeg je logging niet toe aan je bestaande cluster? Het geeft mogelijkheden tot onderzoek als iets stuk gaat of als je vermoed dat je bent gehackt. Zonder event-tracing ben je blind. Het loggen van MR-verzoeken en andere clusteractiviteit is eenvoudig op te zetten en vereist een minimale hoeveelheid storage en rekenkracht”, aldus Lane.
9. Implementeer veilige vormen van communicatie tussen nodes en tussen nodes en applicaties
Om dit te doen heb je een SSL/TLS-implementatie nodig die alle netwerkcommunicatie beschermt in plaats van slechts een gedeelte. Sommige Hadoop-leveranciers, waaronder Cloudera, bieden dit al aan. Hetzelfde geldt voor veel cloudleveranciers. Als je setup deze mogelijkheid niet biedt, moet je de diensten gaan opnemen in je applicatiestack.
Reageer
Preview