Beslissingen die zijn gebaseerd op data zijn erg groot geworden en bedrijven investeren in data-science-programma's, BI-tools, AI-projecten en organisatorische veranderingen om meer op data te sturen. Sommige zetten richting de klant in met datavisualisaties op web of mobiel, of verzamelen nieuwe typen telemetrie van sensoren, wearables en third party-API's, Anderen zetten ongestructureerde databronnen zoals documenten, afbeeldingen, video's en spraakbestanden in voor intern gebruik.
Het werk van data en analytics draait vooral om de vraag: hoe voegt dit waarde toe? Daarbij komt een hoop kijken: dashboards, rapportages en visualisaties die bijdragen aan het beslissingsproces, modellen van data-scientists om uitkomsten te voorspellen, of applicaties die data, analytics en modellen gebruiken.
Wat vaak wordt ondergewaardeerd, is al het operationele datawerk dat voorafgaat aan het klaarmaken en juist formatteren van data voor het gebruikt kan worden in het proces om het uiteindelijk aan gebruikers te laten zien. DataOps omvat al dat werk: bronnen, opschoning, verwerking, opslaan en beheren van gegevens. We gebruiken daar allemaal jargon voor als ETL, data-integratie, data-prep, data-masking en meer.
DataOps is een vrij nieuwe parapluterm voor al die elementen van databeheer die als doel hebben om de gebruikers van de uiteindelijke gegevens - inclusief bestuurders, data-scientists en applicaties - in staat te stellen de gegevens om te zetten in een toegevoegde waarde voor het bedrijf. Maar DataOps is meer dan de som van die delen.
Wat is en waarom bestaat DataOps?
DataOps lijkt op Agile methodologieën in zoverre dat het draait om iteratie om zo de kwaliteit van dataverwerking te verbeteren. Het lijkt ook op DevOps, vooral als het aankomt op het automatiseren van datastromen, het mogelijk maken van frequentere wijzigingen van dataverwerking en het verlagen van de tijd tot recovery als er wordt gereageerd op operationele incidenten.
Er is een DataOps Manifesto met twintig basisprincipes die gaan over de cultuur (het richten op klanttevredenheid), team-dynamiek (zichzelf organiseren, dagelijkse interacties), technische best practices (maak een inwisselbare omgeving) en kwaliteit (monitor op kwaliteit en prestaties).
Je vraagt je wellicht terecht af of we die term nou nodig hebben. Nou, het zorgt ervoor dat het de gesprekken over het zakelijk gebruik van data versimpelt en definieert een rol voor een kritieke bedrijfsfunctie. Het helpt gerichter te investeren, teams aan te sturen om dezelfde dingen te doen en definieert prioriteiten omtrent bedrijfsresultaten. Een manier om nieuwe terminologie te begrijpen is door het definiëren rondom mensen, processen, technologie en cultuur.
Menselijke factor DataOps
Er zijn diverse rollen gekoppeld aan DataOps:
- Klanten zijn de directe doelen van data, analytics, applicaties en machine learning die worden aangemaakt. Ze kunnen de daadwerkelijke kopers van producten of diensten zijn, of interne klanten zoals leidinggevenden die analytics gebruiken ter ondersteuning van beslissingen, of andere werknemers die data verwerken als onderdeel van hun bedrijfsproces.
- Eindgebruikers zijn datascientists, dashboard-ontwikkelaars, rapportmakers, applicatie-ontwikkelaars, citizen data-scientists en anderen die data verwerken om resultaten te genereren via applicaties, visualisaties, API's en andere tools.
- Mensen die direct aan DataOps werken, inclusief database-ontwikkelaars, data-programmeurs en andere ontwikkelaars die de datastromen en databasetools beheren.
- Databeheerders die verantwoordelijk zijn voor datakwaliteit, -definitie en -koppelingen
- Bedrijfsoprichters die doorgaans de kopers van datadiensten zijn en beslissingen maken rond bronnen, sponsoring, policy's en verwerking.
DataOps omvat diverse processen en disciplines, maar waar organisaties in investeren hangt grotendeels af van het type bedrijfsbehoeftes, datasoorten, datacomplexiteiten, service level-eisen en compliancefactoren.
Drie functies DataOps
Het eerste aspect van DataOps gaat om de datastroom van bron tot eindpunt. Zie dit als het productieproces dat wordt beheerd door de ontwikkeling en operationele kanten van DataOps. De datastromen of -pipelines kunnen worden ontwikkeld met verschillende technologieën om data te integreren, op te schonen en te beheren. Dit gaat niet alleen om de invoer van gegevens, maar ook om tools waarmee databeheerders datakwaliteit kunnen beheren als het gaat om uitzonderingssituaties, het datatraject en andere metadata kunnen volgen en zich bezighouden met archivering en verwijdering van gegevens.
Het tweede aspect is het ontwikkelproces waarbij elementen van de datastromen worden beheerd en verbeterd. Een goede omschrijving van dit onderdeel vind je terug in het Medium-artikel: "Dataops is not just devops for data". Het ontwikkelproces gaat over meerdere stadio: beheer van de sandbox, ontwikkelen, orkestreren, testen, uitrollen en monitoren. De laatste vier zijn ongeveer hetzelfde als CI/CD bij DevOps.
Het derde aspect van DataOps-processen gaat over het onderhouden en beheren van de infrastructuur. Net als bij DevOps gaat dit om hebt beheren van productiedatastromen en het zorg dragen voor de betrouwbaarheid, beveiliging en prestaties. Omdat workflows van data-scientists - vooral wanneer ze zich bezighouden met machine learning - erg variabel zijn, is het een grotere uitdaging om schaalbare, presterende en modulaire ontwikkelomgevingen te ontwerpen om meerdere typen workloads te ondersteunen.
Het brede landschap
Een heleboel technologieën vallen onder DataOps, omdat het een heel scala aan orkestratie, beheer en dataverwerking omvat. Omdat daarbij ook nog eens bedrijven investeren in big data, data-science en machine learning, zijn er veel concurrerende leveranciers actief in deze niche. Hier is een overzicht om mee te beginnen:
- Amazon Web Services heeft zeven types database, van doorsnee relationele databases tot document-stores en key-value databases. Azure biedt ook verschillende types.
- Verschillende tools integreren data en maken datastromen, inclusief data-integratie en datastreaming. Je hebt dan ook nog Master Data Management en tooling voor het beheer van datakwaliteit.
- Er zijn verschillende tools die te maken hebben met ontwikkeling, data-science en testen binnen DataOps. Veel organisaties gebruiken Jupyter, maar er zijn andere opties voor data-science. Voor testen, denk aan tools als Delphix en QuerySurge.
- Alteryx, Databricks, ai en Dataiku geven end-to-end analytics en machine leraning-platforms die DataOps, data-science en DevOps ondersteunen.
- Andere tools richten zich op databeveiliging, -masking en ander data-werk.
DataOps voortgedreven door competitieve inzichten
DevOps ontstond door de spanning tussen ontwikkelteams die met een Agile-proces snel code moesten itereren, terwijl operationele IT-teams dat proces vertraagden om betrouwbaarheid, prestaties en beveiliging te kunnen garanderen. DevOps-teams kwamen samen om beide te kunnen doen en investeerden in automatiseringen als CI/CD, geautomatiseerd testen, softwarematige infrastructuur en gecentraliseerde monitoring om de technische hiaten in te vullen.
Met DataOps komt er nog een groep bij kijken: data-scientists, dashboardontwikkelaars, data-ontwerpers, database-ontwikkelaars en andere ontwikkelaars werken aan datastromen en datakwaliteit. Behalve het beheren van de snelheid waarop releases verschijnen en de prestaties, betrouwbaarheid en beveiliging van de infrastructuur, zorgen DataOps-teams ervoor dat er een competitieve waarde zit in data, analytics, machine learning-modellen en andere producten en diensten die van dataverwerking afkomen.
Competitieve waarde komt van de analytics-productie, maar ook van hoe DataOps-teams samenwerken aan de complexiteiten die bij dataverwerking komen kijken. Hoe snel lopen gegevens door de datastroom? Welk volume van gegevens en welke kwaliteitsniveau worden ondersteund? Hoe kunnen teams een nieuwe databron integreren en hoe flexibel zijn de databaseplatforms om een groeiend aantal methodes van datamodellen te ondersteunen?
Dit zijn slechts een paar van de vragen en prestatie-zorgen die DataOps-specialisten onder de loep moeten nemen. Nu meer bedrijven de meerwaarde van data en analytics zien en er bereid zijn ok in te investeren, kun je ervan uitgaan dat er een toenemende vraag is naar expertise rond DataOps-cultuur en -werkzaamheden.
Reageer
Preview