Free Frogs Referentie Architectuur

posted 20.04.2012

Het gebruik van gegevens in organisaties kent één constante factor: het gebruik ervan is voortdurend in beweging. Veranderingen in aansturing van organisaties, veranderingen van marktomstandigheden, veranderingen van wet- en regelgeving, veranderingen in het ICT landschap zullen gebeuren en je kunt er maar beter op voorbereid zijn: ‘Change will happen’.

Om tijdig en kostenefficiënt te kunnen anticiperen is werken onder een architectuur die verandering als uitgangspunt neemt noodzakelijk. Het geeft een blauwdruk, een bestemmingsplan waarop je een complete gegevensinfrastructuur kan bouwen. De praktijk leert dat je niet een complete structuur in een keer neerzet, de infrastructuur evolueert in de loop van de tijd en beweegt mee met de veranderende omstandigheden of de veranderende focus van een organisatie.

Datawarehouses worden niet uitsluitend voor managementrapportage en analyses gebruikt. Organisaties hebben veel geld geïnvesteerd in hun informatievoorziening en willen rendement halen op hun investering. De bestaande datawarehouses worden ingezet bij het oplossen van systeemintegratie vraagstukken en voor near real time operationele toepassingen. Praktisch probleem is dat datawarehouses meestal niet ontworpen zijn voor andere gebruikseisen dan de Intelligence functie.

Onze referentie architectuur omvat alle vormen van gegevensconsumptie: van operationele monitoring van bedrijfsprocessen, het schonen en verrijken van gegevens in systeemintegratie, tot dashboards en what-if analyse.

De referentiearchitectuur beschrijft de toepassingsgebieden van gegevens in de informatievoorziening. De vraag welk van deze toepassingsgebieden je op korte en lange termijn nodig hebt wordt beantwoord met de Free Frogs architectuurscan. De combinatie van de referentiearchitectuur en de architectuurscan leidt tot een implementatie oplossing en bijbehorende routekaart, die passend is voor de organisatie. De referentiearchitectuur is dan ook geen blauwdruk voor een technische implementatie.

Wij onderscheiden vier toepassingsgebieden:

  • Eenvormig model, zonder interpretatie
  • Interpretatie tegen verschillende contexten
  • Eén leidende waarheid
  • Volgbaarheid

Free Frogs referentie architectuur

Eenvormig model, zonder interpretatie
In een organisatie worden verschillende vormen van gestructureerde gegevens (in bedrijfssystemen) en semi-gestructureerde gegevens (binaire gegevensformaten, zoals foto’s, documenten) opgeslagen. Alle gegevensverzamelingen ondersteunen samen alle bedrijfsprocessen.

Je wilt deze gegevensverzamelingen kunnen benaderen voor het bevragen en analyseren van deze gegevens, of om deze gegevens te distribueren naar andere systemen. Dit kunnen vragen zijn die (near) real time gesteld worden of op een bevroren historische set gesteld worden.

Wij delen de gegevensverzamelingen in een viertal type verzamelingen:
1. Operationele Gegevens Park: de historische opslag van gegevens uit operationele systemen, zoals een logistiek systeem, een financieel systeem, een personeelssysteem.
2. Manuele Gegevens Verrijking: handmatig beheerde gegevenssets ten behoeve van het verrijken van de andere gegevenssets.
3. Media Park: semi-gestructureerde (binaire) gegevensformaten, bijvoorbeeld foto of film, die een andere opslag- en ontsluitingstructuur hebben dan in het Operationele Gegevens Park
4. Sensing Park: verzamelde gegevens die uit een gegevensstroom afgetapt worden en waarvan de verzameling vraaggestuurd of event-based zijn. Voorbeelden zijn gegevens van camerasystemen die bij een bepaalde trigger opgeslagen worden, of gegevens uit een online meetsysteem zoals een SCADA, waarbij pas bij het overschrijden van een drempelwaarde gegevens vastgelegd worden. Maar denk ook aan nieuwe toepassingen zoals het aftappen van twitter feeds en het crawlen van websites.

Om deze gegevens eenduidig te kunnen bevragen is het prettig als ze gemapped kunnen worden op een eenduidig bedrijfsproces model dat de samenhang tussen bedrijfsentiteiten beschrijft. Door de gegevens uit het onderliggende systeem samen te brengen in het Eenduidig Gegevens Model ontstaat er eenvormigheid in de bevraging en uitwisseling van de gegevens.

Eenvormigheid vergroot enerzijds de duurzaamheid van de informatievoorziening en maakt anderzijds gebruik van historische gegevens voor systeemintegratie eenvoudiger en beheerbaarder.
In het Eenduidig Gegevens Model worden nog geen business rules toegepast, de gegevens worden beschreven ‘as-is’.

Interpretatie tegen verschillende contexten
Systeemintegratie en ETL processen hebben één overeenkomst: het vraagstuk van integratie betreft het samenvoegen, schonen en vaak ook verrijken van gegevens. De inhoud van de verrijking is voor BI vraagstukken anders dan voor systeemintegratie. Bij BI vraagstukken is het vraagstuk het toevoegen van nieuwe datasets aan bestaande gegevens om hiërarchieën te bouwen met een specifieke invalshoek: een marketing invalshoek, een logistieke invalshoek, een financiële invalshoek. Bij systeemintegratie is het vraagstuk vaak het combineren van operationele gegevens met (extern geleverde) referentiegegevens. Denk hierbij aan codestelsels voor declaratieberichten.

De vraag naar geïnterpreteerde, geïntegreerde en geschoonde gegevens binnen verschillende bedrijfscontexten is voor zowel de Intelligence functie als voor operationele systeemintegratie het oplossen van dezelfde puzzel, waarbij dezelfde operationele gegevens betroken zijn. Ieder integratievraagstuk is een interpretatievraagstuk van de gegevens uit het onderliggende eenvormige model.

Eén leidende waarheid
Binnen een bedrijfscontext kunnen er verschillende interpretaties bestaan van dezelfde gegevenssets. Binnen de Intelligence functie is de leidende interpretatie afhankelijk van het besturingsmodel van de organisatie, de bestuurlijke informatievoorziening zoals deze traditioneel binnen de BI geldend.

Dit is niet de enige leidende waarheid. Het Referentie Park beschrijft de leidende interpretatie van geïnterpreteerde gegevens (geïntegreerd, geschoond, verrijkt). Master Data Management is een voorbeeld van een functie die gegevens voor het Referentie Park levert, bijvoorbeeld het ‘golden’ record voor iedere klant van de organisatie.

Volgbaarheid
De zichtbaarheid van het verband tussen de verschillende toepassingsgebieden is voor veel organisaties belangrijk. Voor het beheer van de vele transformaties op gegevens is inzichtelijkheid randvoorwaardelijk. Vanuit toezicht (audit) en verantwoording is volgbaarheid over de gehele keten van transformaties, van bron van de gegevens tot presentatie van de gegevens, voor veel organisatie een grote uitdaging. Toezichthouders eisen onder druk van publieke sentimenten steeds meer transparantie op financieel en operationeel gebied.

Metadata Management is niet het meest aansprekende toepassingsgebied, maar voor veel organisaties is de gevraagde governance op de gebruikte gegevens in de organisatie een groeiende kostenpost. Informatie is geëvolueerd tot een productiemiddel, waarbij gegevens de grondstof zijn.

De trade-off
De mate van actualiteit van gegevens binnen de verschillende toepassingsgebieden is op voorhand niet gelijk aan elkaar. Iedere uitgevoerde transformatie heeft verwerkingstijd nodig.

Trade off tussen actualiteit en integratiegraad

Hoe hoger de integratiegraad van gegevens, hoe lager de actualiteit van de gegevens. De omvang van de gegevensset is hierbij van belang: hoe meer er gelijktijdig getransformeerd moet worden, hoe langer het duurt. Het bijladen van een datawarehouse met complexe business rules duurt vaak een nacht. En dan hebben geschoolde experts vaak hun uiterste best gedaan om het binnen een nacht mogelijk te maken.

Welke technische architectuur men ook kiest, het vraagstuk van verwerkingstijd blijft ondanks de snelle technologische vooruitgang en vergroting van verwerkingscapaciteit een praktische uitdaging.

Uiteindelijk is het een kwestie van geld: hoe meer er geïnvesteerd wordt in technische verwerkingscapaciteit, hoe actueler grote geïntegreerde gegevenssets geleverd kunnen worden. Wij kijken kritisch naar de gevraagde actualiteit. Vaak blijkt dat men in de praktijk prima uit de voeten kan met minder geschoonde of verrijkte gegevens en dat kan significante kostenbesparingen opleveren.
Hoe hoger de mate van integratie, des te hoger de gevraagde kwaliteit van het functioneel beheer en dat aspect wordt niet altijd even goed meegewogen in de exploitatiekosten van de gegevensinfrastructuur.