Als IT-professional ga je dagelijks om met data en ben je verantwoordelijk voor het op de juiste manier toegankelijk maken en beveiligen van data. Die klus wordt echter steeds ingewikkelder, vanwege datafragmentatie via gedistribueerde IT-omgevingen bijvoorbeeld, maar ook zeker vanwege de explosie aan data waar we midden in zitten. Koppel dit aan meer wet- en regelgeving op het gebied van iets als dataprivacy en het wordt alleen maar belangrijker dat je weet wat je hebt aan data.
Conceptueel is bovenstaande uiteenzetting niet zo lastig te begrijpen. Het daadwerkelijk in de praktijk brengen is echter een ander verhaal. Voor een deel is dat omdat het nog altijd niet vanzelfsprekend is om een specifieke oplossing te gebruiken voor het inzichtelijk krijgen van alle data in je volledige IT-omgeving. Dat wil Veritas graag bieden met Information Studio.
Twee onderdelen
Information Studio bestaat uit twee onderdelen, de hub en de data engine. De hub is zoals de naam al aangeeft de spil waar alles om draait. Dat wil zeggen, in de hub configureer je, doe je het beheer en handel je specifieke taken af, onder andere. De data engine is verantwoordelijk voor het leggen van de verbinding met de verschillende databronnen in je omgeving, maar ook voor het discovery-gedeelte, het verzamelen van metadata, de classificatie van de data en het doorsturen van resultaten naar de hub.
Overigens wordt het geheel als een enkele virtuele applicatie uitgerold, dus met beide rollen. Je kunt beide onderdelen in een enkele VM draaien. In de praktijk zal dit echter zelden tot nooit het geval zijn en zal het een combinatie zijn van een hub en meerdere data engines. Hou er bij het installeren van de onderdelen rekening mee dat ze draaien in een omgeving met een goede netwerkverbinding. Er gaat namelijk nogal wat data van een bron naar een data engine. Dat is op zich ook al een goed argument om meerdere data engines te gebruiken overigens. Dan kun je de netwerkbelasting namelijk optimaliseren.
Je hoeft als IT-afdeling geen ingewikkelde dingen te doen om Information Studio in gebruik te nemen. Kort door de bocht gesteld heb je niet meer dan een VM nodig om de hub te draaien en eentje om de data engine te draaien. Het geheel draait in Docker-containers die worden beheerd middels Kubernetes. Bij de data engine is het enige waar je rekening mee moet houden dat niet alle connectoren ingebouwd zitten. Veel wel, maar voor on-premises versies van SharePoint, Exchange, SQL, Oracle en CIFS moet er een agent geïnstalleerd worden op een separate Windows VM binnen hetzelfde lokale netwerk als deze databronnen. Geen enorme extra handeling, maar wel goed om te weten voor je ermee aan de slag gaat.
Verbinden en ontdekken
Information Studio is zo ontworpen dat je in vijf stappen van niets naar volledig inzicht in je data kan gaan. Het begint met het verbinden van databronnen (stap 1) met de data engine, waarna de topologie van je databronnen in kaart kan worden gebracht (stap 2). Vervolgens wordt metadata wordt verzameld (stap 3) en kan er overgegaan worden tot dataclassificatie (stap 4) en uiteindelijk het genereren van rapporten (stap 5).
Het begint dus met het verbinden en het in kaart brengen van de topologie. Het leeuwendeel van dit hele proces is geautomatiseerd door Veritas. Zo zitten er veel connectoren ingebouwd in de data engine zoals we hebben gezien. Daarnaast vindt de discovery eveneens plaats zonder dat je daar zelf omkijken naar hebt. Per databron wordt een specifieke discovery policy toegewezen, waarna er vanuit de hub het verzoek komt aan de data engine voor de topologie van de databron. Op dit moment legt de data engine verbinding met de databron en voert dit verzoek uit, om de resultaten terug te sturen naar de hub, waar de informatie wordt opgeslagen.
Scannen en classificeren
Op dit punt komen we het daadwerkelijke werk dat door Information Studio moet worden uitgevoerd. Data wordt gescand en de data engine haalt metadata op. Voorbeelden van dergelijke metadata zijn toegangstijd, tijd van aanmaken en aanpassen, maar uiteraard ook de pathnaam. Verder kan het tags van Office 365 ophalen. Het eindresultaat is een JSON-bestand met daarin de veranderde data, dat wordt doorgestuurd naar de hub. Daar wordt het geïndexeerd en opgeslagen.
Een van de belangrijkste componenten van Information Studio (zo niet het belangrijkste), is de stap die nu komt, namelijk de classificatie van de data. Hiermee is het bijvoorbeeld mogelijk om PII-data te identificeren. In Information Studio zitten niet minder dan 700 vooraf geconfigureerde dataclassificatiepatronen en meer dan 110 policies voor veelvoorkomende privacy en compliance principes. Deze patronen en policies worden regelmatig aangevuld en voorzien van updates door Veritas. Uiteraard kun je binnen de hub aangeven welke policies relevant zijn voor je organisatie. Die worden ingeschakeld, de andere niet.
Als de policies zijn vastgesteld door de gebruiker, wordt er een schema aangehangen en kan de hub een query uitsturen om een lijst van bestanden te krijgen die veranderd zijn sinds de vorige keer dat dit is gebeurd. Vervolgens wordt de opdracht gegeven aan de data engine om de classificatie te starten op de relevante bestanden. Iedere match die wordt gevonden met een geselecteerde policy, levert een tag op die door Information Studio aan het bestand gehangen wordt. Deze tag wordt uiteindelijk naar de hub gestuurd, waarna hij wordt verwijderd van de data engine.
Rapporten
Met alleen classificatie ben je er natuurlijk nog niet. Je moet het ook nog inzichtelijk zien te krijgen. Dat gebeurt bij Information Studio door middel van rapporten. Deze rapporten worden grafisch weergegeven in de UI van de hub. Hier wordt ook duidelijk waar bepaalde data staat en wordt gelijksoortige data samengepakt.
Het idee achter deze rapporten is niet alleen dat je ernaar kunt kijken, maar ook dat je er actie op kunt ondernemen. Zo is het mogelijk om bijvoorbeeld alle PII-data ouder dan een door jezelf ingestelde tijdspanne eruit te filteren. Ben je gebonden aan opslaglocatie voor die data (binnen of buiten de EU bijvoorbeeld), dan kun je hier meteen mee aan de slag om compliant te zijn.
Ook het concept van defensible deletion komt hier om de hoek kijken. Je wilt informatie die je niet langer hoeft te bewaren dan een vastgestelde periode liever ook niet langer bewaren. Dat kan alleen maar problemen opleveren in de toekomst. Tot slot kun je in de rapporten ook meteen zien welke data verweesd is en dus niet meer relevant is voor de organisatie en kun je niet-zakelijke data eruit filteren.
Toekomst: jong product
Na het doorlopen van deze vijf stappen, heb je als het goed is een volledig inzicht in de data die je verspreid over je IT-omgeving hebt staan, on-prem, op meerdere plaatsen en in de cloud. Uiteraard hangt het eindresultaat deels af van hoe je het zelf inricht en wat je met de resultaten uit de rapporten doet. Ingewikkeld komt een en ander in ieder geval niet over op ons, zowel qua installatie, het inrichten en het in gebruik nemen. Het is daarnaast een relatief jong product van Veritas, dus het kan alleen nog maar krachtiger worden. Zo zou het ons niet verbazen als het actiegedeelte van de tool nog de nodige uitbreidingen gaat krijgen, zodat je nog fijnmaziger te werk kunt gaan. De toekomst zal het uitwijzen en we zullen het zeker blijven volgen.
Ook het concept van defensible deletion komt hier om de hoek kijken. Je wilt informatie die je niet langer hoeft te bewaren dan een vastgestelde periode liever ook niet langer bewaren. Dat kan alleen maar problemen 192-168-1-1ip opleveren in de toekomst. Tot slot kun je in de rapporten ook meteen zien welke data verweesd is en dus niet meer relevant is voor de organisatie en kun je niet-zakelijke data eruit filteren. Thank you.
Concept for feh calendar data has been explained very well.Looking forward for such informative posts.
Reageer
Preview