"Hoe vaak heb ik wel niet gehoord 'Het model werkt prima, maar...'", verzucht Dell Technologies Global CTO Unstructured Data Solutions Keith Manthey op bezoek in Eindhoven. Hij gaf op de High Tech Campus een toelichting op de ontwikkeling van AI (of, zoals we in een andere sessie op dezelfde informatiedag over machine learning hoorden: "statistiek 2.0") en de uitdagingen waar de meeste organisaties tegenaan lopen. Hij stelt dat het kernprobleem steeds is dat er een model wordt ontworpen zonder dat er rekening wordt gehouden met de infrastructuur waar het op moet draaien. De loads laten daarna opslag, netwerk en alle andere resources kraken en het AI-model genereert vervolgens geen resultaten.
Nou kun je zo'n sentiment - dat de hardware beperkingen kent waar je omheen moet ontwerpen - natuurlijk verwachten van een hardwarespecialist. Een softwaremaker zal zeggen dat de ontwikkelde programmatuur niet toereikend is, een cloudspecialist zal hameren op schaalbare capaciteit, een data scientist op de datakwaliteit en een netwerkdeskundige rept eerder over bandbreedtegebrek. Dat neemt niet weg dat de ongestructureerde datadeskundige van Dell Technologies wel degelijk een punt heeft als hij het heeft over infrastructurele vraagstukken bij de ontwikkeling van AI. Computerworld ging verder in gesprek met Manthey over zulke hardwarematige uitdagingen bij het inzetten van kunstmatige intelligentie.
Wel in lab, niet in productie
"De hele industrie is gefocust op het model", zegt hij. "Het idee is 'bouw een model en dan komen de resultaten wel', maar er wordt niet ontworpen voor de afmetingen." Met 'afmetingen' doelt hij op de benodigde capaciteit die gepaard gaat met de rekenkracht en data - en de fysieke grenzen qua beschikbare resources. Bij zulke tegen fysieke grenzen aanlopende projecten hebben we het niet eens over kleine partijen, maar over grote bedrijven die van de hoed en de rand weten als het gaat om AI, bezweert hij. Maar vaak lopen ze tegen hetzelfde probleem aan, wat valt samen te vatten als 'prestaties versus capaciteit'.
Op een bijeenkomst van SURFsara eind vorig jaar werd ook stilgestaan bij de vereiste infrastructuur van AI. Volgens deskundigen komen nu een aantal trends bij elkaar (snelle dataverbindingen, cloud en edge, GPU-kracht en meer) waardoor kunstmatige intelligentie eindelijk dingen kan doen die meer zijn dan het uitrekenen van een volgende zet in een complex spel. Meer over de komst van verbeterde AI in: Waarom kunstmatige intelligentie deze keer realistisch is.
"Door die focus op het model zijn er twee dingen gebeurd. Allereerst is de data scientist de eenhoorn is geworden waar iedereen naar zoekt." Met andere woorden, er is veel meer vraag naar vaardige ontwikkelaars dan dat er een aanbod is. "En het tweede is dat de datasets waar we de modellen op bouwen elke dag groter worden." Er is volgens hem onvoldoende aandacht voor hoe je het werk van de data scientist efficiënt maakt. De modellen die in het lab prima werken, zie je zelden in productie terug. En daar is een reden voor.
We hebben het namelijk over enorme hoeveelheden data. Manthey noemt een voorbeeld van 27 miljoen afbeeldingen en een set van 180 miljoen scans in een AI-onderzoek naar hersenkanker waar hij bij betrokken was. "Je hebt het dus over 200 miljoen afbeeldingen om een model te bouwen. Petabytes aan data. Meer dan je op een server kunt cachen, meer dan je kunt cachen met GPU's." Ook geen wonder dat de modellen in productie vastlopen. Kortom: de AI moet zijn ontworpen voor de toepassing ervan.
Waar staan die petabytes eigenlijk?
Een zelfrijdend algoritme stelt een basiseis aan de hoeveelheid gegevens om cruciale beslissingen te nemen, legt hij uit. "Stel je moet een auto die honderd kilometer per uur rijdt tot stilstand brengen. Dan moet je ver genoeg vooruit kunnen kijken om te bepalen wanneer je op welk punt rijdt met welke snelheid. Om dat uit te rekenen, zit je vast aan een eis die wordt ingegeven door de natuurkunde: je hebt de informatie nodig over de weg die geleverd wordt door een LiDAR van 16k pixels." En dat basisgegeven moet bepalend zijn voor hoe je model en infrastructuur eruit gaan zien.
Op deze resolutie heb je het over honderden miljoenen pixels aan informatie waar het model naar kijkt. Dus dat model moet rekening houden met deze eisen en hoe daarin voorzien gaat worden. "Oftewel: wat vragen deze 16k-afbeeldingen van bestandsactiviteit, GPU-activiteit en netwerkactiviteit." Als je een model bouwt zonder je af te vragen 'waar staan die petabytes aan gegevens eigenlijk en hoe kom ik daar?' voorspelt hij dat je tegen problemen gaat aanlopen.
Kassa bij, alsjeblieft
En dat probleem van data-throughput is al meer dan honderd jaar oud, houdt hij eerder op de dag zijn publiek in Eindhoven voor als hij de stelling van Little aanhaalt. Het aantal klanten in een rij van een supermarkt wordt bepaald door hoeveel klanten er aansluiten in een periode en hoe lang het duurt dat een klant bij een kassa staat af te rekenen. Of intuïtiever: een drukke supermarkt op zaterdagochtend plus een klant die muntjes één voor één staat uit te tellen, betekent dat de winkel maar beter nog een kassa kan openen. Maar omdat je met een maximale hoeveelheid kassa's, zit, kun je de doorlooptijd op een gegeven moment niet verder vergroten.
Manthey haalt een berucht voorbeeld aan van een snelweg met vijftig banen van de drukke G4 in Peking. Er is op de G4 een tolpoort en een knelpunt waar die brede weg overgaat in twintig banen en uiteindelijk zelfs zes. Gevolg: de Moeder Aller Files en een onbeweeglijke chaos van auto's die proberen te ritsen. Dat is met computerinfrastructuur niet anders. "De meeste infrastructuur gaat uit van zes banen."
Waar zit de bottleneck dan precies? Interconnect-issues? Bonje met de bandbreedte? Parallellisatieproblemen? Ook. Maar volgens Manthey draait dat grotendeels om de bestandssystemen die we vandaag de dag gebruiken. Die zijn ontworpen met het idee dat als je een bestand aanspreekt, er op een gegeven moment naar geschreven zal worden. "In de storage is een zekere hoeveelheid NVRAM toegewezen aan het vasthouden van deze buffer. En de NVRAM bepaalt hoeveel bestanden je geopend kunt houden", legt hij uit.
Dat zijn 23.000 geopende bestanden bij 32 GPU's, vertelt hij. De grote jongens komen nog tot 200.000 geopende bestanden, maar vallen daarna ook om. "Dit is geen schaalbare architectuur." Je moet dus vooral lezen en niet schrijven. Vandaar OneFS, een bestandssysteem dat Isilon Systems bouwde op basis van FreeBSD. Mede omdat dit zo geschikt is om op een schaalbare manier ongestructureerde data uit te pluizen, nam EMC (inmiddels Dell EMC) dit bedrijf en diens propriëtaire bestandssysteem in 2010 over voor gebruik in de eigen NAS-technologie.
Grenzen definiëren
Voor die enorme beeldresoluties waar we het net over hadden met de zelfrijdende auto en de 16k-LiDAR is een traditioneel bestandssysteem ongeschikt. We hebben het dan over honderdduizenden inputs die moeten worden verwerkt door het machine learning-mechanisme en een bestandssysteem dat deze allemaal tegelijk wil aanspreken "zal niet zo goed presteren".
Maar de oplossing voor 99 procent van de organisaties die met AI-modellen aan de slag gaan is volgens Manthey dat ze duidelijk grenzen gaan definiëren van wat je gaat doen. "Hoeveel mensen gebruiken modellen? Zeg dat je er tien hebt die twee modellen per week maken. Wat zijn dan de eisen aan opslag en rekenkracht die je nodig hebt voor twintig modellen per week?" Door de requirements duidelijk op papier te hebben, kun je ontwerpen voor de beschikbare specificaties.
Forscher. TV-Mabe. Zertifizierter Social Media Fan. Hipster-freundlicher Bierliebhaber. Web-Gelehrter. [Link]
Misschien eens bij CERN buurten: [Link]
Reageer
Preview