Geprinte versie: V.1.0.0, uitgebracht op 23-11-2020

Bijsluiter - 4. De vragenlijst

Deze ‘bijsluiter’ is de gebruikershandleiding behorend bij de Handreiking Duurzaam Toegankelijke Algoritmes. Deze handreiking bestaat uit een overzichtsplaat, een vragenlijst en deze bijsluiter. Alle onderdelen van zowel de overzichtsplaat als de vragenlijst worden in dit document nader toegelicht en waar mogelijk voorzien van praktische voorbeelden.

4. De vragenlijst

4.1 Inleiding

In deze paragraaf worden de vragen uit de vragenlijst toegelicht. Je leest wat de achterliggende gedachte van elke vraag is en waar mogelijk geven we voorbeelden van mogelijke beantwoording. De vragenlijst is bedoeld als checklist voor de informatiebeheerspecialist. De vragenlijst helpt om te voorkomen dat aspecten van duurzame toegankelijkheid en accountability over het hoofd worden gezien. De bedoeling van de vragenlijst is dat de informatiebeheerspecialist probeert om de vragen zelf, eventueel samen met andere betrokkenen, te beantwoorden en zo vanuit de eigen expertise een bijdrage te leveren aan het ontwerp van een algoritme. De vragenlijst dient zodoende als handvat om archiveringsprincipes ‘by design’ onderdeel te maken van de inrichting. Niet alle vragen zullen altijd relevant zijn, bovendien zullen er ongetwijfeld vragen ontbreken. Het doel is om de lezer op weg te helpen bij het uitvoeren van analyses die ten grondslag liggen aan te maken ontwerpkeuzes op het gebied van archivering.

4.2 Analysefase

In de analysefase, zijn de volgende vragen aan de orde.

4.2.1 Welk proces wordt ondersteund door het algoritme?

Deze vraag gaat over het beoogde doel van de inzet van het algoritme. Het is belangrijk om te weten waarvoor een algoritme wordt ingezet, omdat aan de hand van die kennis ingeschat kan worden welke specifieke risico’s zich voordoen en met welke belanghebbenden rekening gehouden moet worden. Ook kan aan de hand van deze informatie worden bekeken welk zaaktype en welke bewaartermijn(en) uit de selectielijst van toepassing zijn.

Op welke wijze wordt het algoritme ingezet?

Een algoritme kan op verschillende wijzen worden ingezet. Bijvoorbeeld voor een eenmalige analyse of juist voor een periodiek of doorlopend gebruik. Dit onderscheid kan van belang zijn bij het bepalen van de beheermaatregelen. Bij periodiek of doorlopend gebruik, zal bijvoorbeeld gekeken moeten worden of trainingsdata wordt geactualiseerd en wat dat eventueel betekent voor versiebeheer, waar dat bij eenmalige toepassing niet van belang zal zijn.

Een ander aspect dat bij deze vraag hoort, is de vraag of de inzet van het algoritme tot volledig geautomatiseerde analyse en/of besluitvorming leidt, of dat de uitkomst van een algoritme input is voor verder menselijk handelen. Dit is relevant om te weten omdat bij volledige automatisering andere maatregelen horen ten aanzien van accountability dan wanneer er menselijk handelen bij komt kijken om de resultaten verder te interpreteren en verwerken.

Wat is de mogelijke impact van het algoritme?

Aan de hand van de vorige vragen, kan een eerste inschatting worden gemaakt van welk impactprofiel van toepassing is. Zie paragraaf 2 waarin de impactprofielen zijn beschreven. Het bepalen van het impactprofiel helpt om in de volgende fasen de juiste maatregelen te bepalen.

4.3 Ontwerpfase - documentatie

In de ontwerpfasen komen er vragen aan bod per component (zie de uitleg in paragraaf 3). Deels zijn die vragen generiek, dus voor elk component hetzelfde, deels zijn ze componentgebonden. In deze subparagraaf worden de vragen toegelicht op het component ‘documentatie’.

4.3.1 Wat? – Welke inhoudelijke informatie is van belang om te bewaren?

Het doel van deze vraag is om stil te staan bij welke type informatie belangrijk is om vast te leggen en te bewaren. Met dat inzicht kan vervolgens worden gekeken in hoeverre deze informatie wordt beschreven in de documentatie die toch al opgesteld zou worden en in hoeverre er wellicht nog aanvullende documentatie gemaakt moet worden om de verantwoordingsfunctie in te vullen.

Voorbeelden van informatie die mogelijk van belang is om vast te leggen en te bewaren, zijn:

  • Welke ethische vraagstukken zijn gedurende het project aan de orde geweest?
  • Wat is de inhoudelijke waarde van de data?
  • Wat is de kwaliteit van de data?
  • Welke betrokkenen zijn/kunnen potentieel getroffen worden door de inzet van het algoritme (zie bijsluiter)?
  • Welke risico’s zijn geïdentificeerd?
  • Welke risicomitigerende maatregelen zijn getroffen?
  • Welke business case is van toepassing?
4.3.2 Wat? – Welke documenten zijn/worden er vanuit het document opgesteld?

Bij de vorige vraag is in kaart gebracht welke informatie van belang is om vast te leggen. Het doel van deze vraag is om in kaart te brengen welke documentatie al is of wordt opgesteld. Vervolgens kan worden gekeken in welke mate daarmee de behoefte die uit de vorige vraag blijkt al wordt afgedekt.

Voorbeelden van veel voorkomende documentatie zijn:

  • business case
  • projectarchitectuur
  • privacy impactanalyse
  • risicoanalyse
  • functioneel/technisch ontwerp
  • beheerplan
4.3.3 Wat? – Zijn de ontwerpkeuzes voldoende expliciet uitgewerkt t.b.v. verantwoording?

Deze checkvraag dient om scherp te krijgen of de beschrijvingen in de documentatie voldoende compleet en duidelijk zijn. Ten behoeve van de verantwoording van het overheidshandelen is het bijvoorbeeld prettig als een tekst voor een buitenstaander begrijpelijk is en bijvoorbeeld niet vol staat met niet toegelichte afkortingen die alleen binnen de eigen organisatie gangbaar zijn. Ook is de vraag of de documentatie voldoende diepgang kent of alleen op abstract niveau een beschrijving geeft.

Een uitkomst kan zijn dat de ontwerpkeuzes voldoende uitlegbaar zijn vastgelegd, maar een uitkomst kan ook zijn dat dit onvoldoende het geval is. Dat kan leiden tot de maatregel om de bestaande documentatie hierop aan te passen ofwel om extra documentatie toe te voegen.

4.3.4 Hoe lang? – Hoe lang is het zinvol/nodig om de documentatie te bewaren?

De vraag hoe lang documentatie bewaard blijft, kan op verschillende manieren worden beantwoord. De keuze kan worden gemaakt om alle documentatie als een integraal geheel te zien en daar op basis van de selectielijst één bewaartermijn voor te hanteren. Een keuze kan ook zijn om dat per document te bekijken. Deze afweging hangt samen met de conclusies die zijn getrokken aan de hand van de vragen in de analysefase.

4.3.5 Waar? – Welke beschikbare opslaglocatie is het meest geschikt om de documentatie te bewaren?

In de ontwerpfase zal ook worden bepaald op welke locatie de bewaring van documenten plaatsvindt. De keuze voor een opslaglocatie is in sterke mate afhankelijk van interne richtlijnen over archivering en, indien van toepassing, publicatie. Als het beleid is om bepaalde informatie actief openbaar te maken dan zal deze informatie immers opgeslagen moeten worden op een plek van waaruit die publicatie mogelijk is. Een andere afweging is bijvoorbeeld of een organisatie een aangewezen archiefapplicatie heeft zoals een DMS of bijvoorbeeld een specialistische applicatie die aan een zoekmachine is gekoppeld waardoor de informatie vindbaar is voor interne belanghebbenden.

4.3.6 Vorm? – In welke vorm wordt de documentatie opgesteld?

Met oog op digitale duurzaamheid, is het nuttig om te inventariseren in welke vorm documentatie wordt opgesteld. Worden er documenten gecreëerd en, zo ja, welke bestandsformaten hebben die? Wordt er een centraal register bijgehouden in een gespecialiseerde applicatie? De volgende vragen die te maken hebben met vorm, zijn verdiepingsvragen waarvoor het nodig is om deze vraag eerst te beantwoorden.

4.3.7 Vorm? – Is de documentatie voor alle betrokkenen zonder specifieke tools/viewers raadpleegbaar?

Als informatie in een vorm wordt vastgelegd die niet goed toegankelijk is voor (potentiële) belanghebbenden, dan is dat een aandachtspunt.

4.3.8 Vorm? - Indien er een lange bewaartermijn is: zijn de gebruikte bestandsformaten geschikt voor langere bewaring?

Voor documenten die op enig moment moeten worden overgebracht naar een archiefbewaarplaats gelden mogelijk eisen ten aanzien van duurzame bestandsformaten. Waar mogelijk, is het handig om deze documenten direct vanaf creatie in een geschikt formaat op te slaan.

4.3.9 Beschikbaarstelling? - Wie zijn belanghebbenden van de documentatie (primaire en secundaire gebruikers, ook op de lange termijn)?

Voor de beschikbaarstelling is het van belang om te weten hoe belanghebbenden zoeken naar informatie en in welke vorm ze die tot zich willen nemen, zodat ze op geschikte wijze kunnen worden gepresenteerd. Er kunnen verschillende belanghebbenden zijn die op enig moment toegang tot de data nodig hebben. Dit kunnen interne medewerkers zijn die werken met het algoritme, maar ook bijvoorbeeld auditors. Daarnaast kan het gaan om externen, zoals rechtzoekende burgers.

4.3.10 Beschikbaarstelling? - Welk openbaarheidsregime is van toepassing?

Bij het beschikbaar stellen van documentatie is het van belang om relevante wet- en regelgeving (bv. WOO / WOB, AVG etc.)in acht te nemen en op basis daarvan autorisatie in te richten.

4.3.11 Beschikbaarstelling? - In welke vorm moet de documentatie beschikbaar gesteld worden aan belanghebbenden (bv. open data)?

Verschillende belanghebbenden willen informatie op verschillende wijzen gebruiken. Dat kan betekenen dat informatie op verschillende manieren ontsloten en gepresenteerd kan worden. Bijvoorbeeld een vorm voor interne kennisdeling die afwijkt van een vorm voor externe publicatie.

4.3.12 Beheer? - Hoe ziet het vernietigingsproces eruit?

Het ontwerpen van een vernietigingsproces gaat verder dan enkel het vaststellen van bewaartermijnen. Het gaat over het operationaliseren van de vernietiging door de processtappen te benoemen, daar actoren aan te koppelen en de verantwoordelijkheid in de organisatie te beleggen. Ook de controlemaatregelen (zoals beoordelen van een vernietigingslijst) en de mate van automatisering worden hierin meegenomen.

4.3.13 Beheer? - Hoe ziet het overbrengingsproces eruit?

Als documenten voor eeuwigdurende bewaring in aanmerking komen, dan is het zinvol om al in de ontwerpfase na te denken over overbrenging naar een archiefbewaarplaats. Richt je dit bijvoorbeeld traditioneel in: eerst verzamelen en na X jaar een gehele collectie overbrengen, via vervroegde overbrenging: bijvoorbeeld als doorlopend proces aan het eind van het kalenderjaar de relevante documenten overbrengen? De bijbehorende procesafspraken en verantwoordelijkheden kunnen aan de hand van deze keuze worden bepaald en belegd. Het is bij deze stap belangrijk om af te stemmen met de beheerder van de archiefbewaarplaats.

4.3.14 Beheer? - Hoe is in het wijzigingenproces geborgd dat de mogelijke impact van wijzigingen op het archiefregime wordt beoordeeld?

Als het gebruik van het algoritme significant wijzigt, dan kan dat betekenen dat de eerder bedachte maatregelen ten aanzien van archivering moeten worden herzien. Daarom is het van belang om in het wijzigingenproces op te nemen dat er een impactanalyse voor wijzigingen wordt uitgevoerd waarin ook naar dit aspect gekeken wordt.

4.3.15 Beheer? - Zijn er specifieke activiteiten te benoemen m.b.t. beschikbaarstelling aan derden (bv. bij Wob-verzoeken)?

Mogelijk is het nodig om specifieke activiteiten te benoemen en te beleggen ten aanzien van beschikbaarstelling van informatie aan derden. Bijvoorbeeld het anonimiseren van documenten voorafgaand aan publicatie. Ook het in de eigen organisatie kenbaar maken (bijvoorbeeld bij een Wob-functionaris) welke informatie er is en hoe die gevonden kan worden, draagt bij aan transparantie. Voorts kan gedacht worden aan het aanwijzen van een contactpersoon die door derden benaderd kan worden voor vragen.

4.4 Ontwerpfase - Trainingsdata

In de ontwerpfasen komen er vragen aan bod per component (zie de uitleg in paragraaf 3). Deels zijn die vragen generiek, dus voor elk component hetzelfde, deels zijn ze componentgebonden. In deze subparagraaf worden de vragen toegelicht op het component ‘trainingsdata’. In sommige gevallen is het wellicht niet eens nodig om trainingsdata te archiveren omdat bijvoorbeeld de documentatie voldoende informatie biedt om aan accountability-eisen te kunnen voldoen, in dergelijke gevallen is het uiteraard niet nodig om op detailniveau deze verdiepingsvragen te doorlopen.

4.4.1 Wat - Van welke bronnen maakt het algoritme gebruik (dataverzamelingen)?

Om de juiste maatregelen te kunnen bepalen, is het allereerst van belang om te weten uit welke informatiebronnen er wordt geput: waar komt de data vandaan, wie is de bronhouder, met welk doel is de data verzameld etcetera? Vervolgens kan, aan de hand van de volgende vragen, een nadere analyse worden gemaakt.

4.4.2 Wat - Wat is de aard van de data?

Deze vraag gaat over de vorm van de data. Is sprake van statische data (data die nooit meer wijzigt) of kan een dataset na verloop van tijd wijzigen? Dit is van belang om te weten of bijvoorbeeld versiebeheer een rol speelt bij de archivering. Verschillende vormen kunnen zijn:

  • Statische data (een definitieve dataset die nooit meer wordt aangevuld of gewijzigd - bijvoorbeeld een database met geografische locaties van bomaanslagen tijdens de Tweede Wereldoorlog);
  • Cumulatieve data (een dataset die wel wordt aangevuld, maar waarvan de data nooit meer wijzigen - bijvoorbeeld een database met de namen van alle presidenten van de Verenigde Staten);
  • Dynamische data (een ‘levende’ dataset waarvan gegevens kunnen wijzigen - bijvoorbeeld een database waarin de vigerende bestemmingen van panden zijn vastgelegd);
  • Realtime data (data die een situatie op een bepaald moment weergeven - bijvoorbeeld huidige sensordata).
4.4.3 Wat? - Zijn de data objectief of is er een mate van subjectiviteit?

In het kader van accountability, is één van de belangrijkste aspecten dat duidelijk wordt gemaakt dat en hoe vooringenomenheid (bias) in trainingsdata leidt tot geautomatiseerde willekeur, profilering en/of geautomatiseerde discriminatie. Daarom is het belangrijk om van trainingsdata vast te stellen of die objectief of subjectief is. Objectieve data wil zeggen: harde feiten die niet ter discussie staan, bijvoorbeeld het aantal huizen in een woonwijk op een bepaald moment in de tijd. Daar staan subjectieve data tegenover: data waarbij (bewust of onbewust) keuzes zijn gemaakt die invloed hebben op de content van een dataset. Bijvoorbeeld gegevens over fraudeplegers: hierbij is het belangrijk om te beseffen dat er enkel gegevens bestaan over gepakte fraudeplegers, waarbij beleidskeuzes ten aanzien van opsporing en detectie een rol kunnen hebben gespeeld. Dat brengt het risico van profilering met zich mee. Om volledig accountable te kunnen zijn, is het daarom gewenst om te weten hoe het proces heeft gefunctioneerd waarbinnen de data gecreëerd of verzameld zijn.

Voor de archivering geldt dat het logisch is om zwaardere maatregelen te treffen voor subjectieve data dan voor objectieve data. Voor objectieve data volstaat wellicht een beschrijving van een dataset, terwijl voor subjectieve data ook bekend zal moeten zijn welke risico’s het gebruik van deze data met zich meebrengt en welke mitigerende maatregelen zijn getroffen zodat hierover verantwoording kan worden afgelegd. Er kan natuurlijk ook voor worden gekozen om aan de hand van deze analyse bepaalde data niet aan het algoritme te voeden.

4.4.4 Wat? - Wat is de kwaliteit van de data?

Om rekenschap te kunnen geven over de betrouwbaarheid van informatie die met een algoritmische toepassing is gecreëerd, is het van belang om inzicht te hebben in de kwaliteit van de gebruikte trainingsdata. Simpel gezegd: slechte data vergroten de kans op het nemen van slechte besluiten. Andersom geldt hetzelfde: als de kwaliteit goed is, draagt dat bij aan het nemen van betere beslissingen.

Kwaliteit is een ruim begrip. Wat verstaan we daar onder? Een aantal aspecten waar je aan kunt denken, zijn:

  • Semantiek: Consistentie in semantiek kan worden gemeten door bijvoorbeeld te kijken of in de bron gebruik wordt gemaakt van basis- en kernregistraties, woordenboeken en gecontroleerde tabellen. Als data in de bron wordt gecreëerd met vrijetekstvelden, dan is de consistentie waarschijnlijk laag. Een algoritme kan bijvoorbeeld denken dat ‘PC Hooftstraat’ en ‘Pieter Cornelisz Hooftstraat’ twee verschillende straten zijn;
  • Periode: Hoe ver terug gaan de data? Zijn er alleen data beschikbaar van afgelopen week, of is er over een langdurige periode data verzameld? In algemene zin geldt dat een algoritme betrouwbaarder wordt naarmate er meer data wordt verwerkt zodat er meer patronen ontdekt kunnen worden;
  • Volledigheid: Zijn de data in de bron consequent bijgehouden of zijn er hiaten?
  • Aanwezigheid persoonsgegevens: Zijn de data geanonimiseerd of gepseundonimiseerd?
4.4.5 Wat? - Wordt in de beheerfase data toegevoegd, vervangen of blijven deze onveranderd?

Als de data uit de bron één op één wordt gebruikt en de archivering in de bron goed is geregeld, dan is het - mits de bewaartermijnen niet afwijken - niet direct nodig om deze trainingsdata apart te archiveren in het kader van de algoritmische toepassing. Als er een verdere bewerking of verrijking plaatsvindt, dan is de data die in de bron aanwezig is mogelijk niet meer genoeg om een beslissing die met een algoritme is genomen te kunnen reproduceren.

4.4.6 Hoe lang? - Welk impactprofiel is van toepassing?

In de ontwerpfase is deze vraag van belang om te bepalen wat de juiste te treffen maatregelen zijn n.a.v. het gebruik van de trainingsdata. Deze afweging kun je maken o.b.v. selectielijst(en). In paragraaf 2 zijn de impactprofielen afzonderlijk beschreven. Of het bewaren van trainingsdata zinvol is, of wellicht kan worden volstaan met het bewaren van documentatie, hangt mede af van welk impactprofiel van toepassing is.

4.4.7 Hoe lang? - Indien er regelmatig nieuwe versies worden gevoed aan het algoritme, is het dan zinvol om alle versies te bewaren of kan worden volstaan met een beperkt aantal?

Als er regelmatig nieuwe versies van trainingsdatasets worden geleverd, dan kan dat de werking van het algoritme beïnvloeden. Daarom is het zinvol om na te denken welke versies bewaard moeten blijven: bijvoorbeeld alle versies, alleen de meest recente versie of een representatieve steekproef. Dit is mede afhankelijk van hoe groot de verschillen zijn: gaat het bijvoorbeeld enkel om cumulatieve aanvullingen of wordt de data inhoudelijk gewijzigd (zie ook 4.4.2.)? 

4.4.8 Waar? - Is het archiefregime in de bron voldoende?

Trainingsdata komt uit een bron. Indien de archivering in die bron dusdanig is geregeld dat de trainingsdata daar beschikbaar is gedurende de bewaartermijn die voortvloeit uit de algoritmische toepassing, dan hoeft de trainingsdata niet apart gearchiveerd te worden. Immers: voor reconstructie kan dan te allen tijde terug worden gegrepen op de bron.

Indien dit niet het geval is, zijn er twee opties. Ofwel het aanpassen van het archiefregime in de bron ofwel het opzetten van een eigen archiefregime. 

4.4.9 Vorm? - In welke vorm wordt de data uit de bron aangeleverd?

De levering vanuit de bron kan op verschillende manieren plaatsvinden. Bijvoorbeeld:

  • Real-time (bv. via API);
  • Periodiek (bv. via datadumps op basis van een script);
  • Eenmalige extractie.

Als het algoritme rechtstreeks de bron bevraagt, vindt er geen lokale opslag plaats. Als data eerst worden verzameld op een specifieke locatie waar het algoritme toegang toe heeft, dan geldt dat niet. Als er ergens data wordt opgeslagen, dan zal er dus ook nagedacht moeten worden over bewaartermijnen, versiebeheer en opschoning.

4.4.10 Beschikbaarstelling? - Wie zijn belanghebbenden van de data (primaire en secundaire gebruikers, ook op de lange termijn)?

Voor de beschikbaarstelling is het van belang om te weten hoe belanghebbenden zoeken naar informatie en in welke vorm ze die tot zich willen nemen, zodat ze op geschikte wijze kunnen worden gepresenteerd. Er kunnen verschillende belanghebbenden zijn die op enig moment toegang tot de data nodig hebben. Dit kunnen interne medewerkers zijn die werken met het algoritme, maar ook bijvoorbeeld auditors. Daarnaast kan het gaan om externen, zoals rechtzoekende burgers.

4.4.11 Beschikbaarstelling - Welk openbaarheidsregime is van toepassing?

Bij het beschikbaar stellen van documentatie is het van belang om relevante wet- en regelgeving (bv. WOO / WOB, AVG) in acht te nemen en op basis daarvan autorisatie in te richten.

4.4.12 Beschikbaarstelling - In welke vorm moet de data beschikbaar gesteld worden voor belanghebbenden (bv. open data)?

Verschillende belanghebbenden willen informatie op verschillende wijzen gebruiken. Dat kan betekenen dat informatie op verschillende manieren ontsloten en gepresenteerd kan worden. Bijvoorbeeld door een dataset als geanonimiseerd .csv-bestand te publiceren, of door gegevens rechtstreeks vanuit de bron via een API beschikbaar te stellen.

4.4.13 Beheer - Hoe ziet het vernietigingsproces eruit?

Het ontwerpen van een vernietigingsproces gaat verder dan enkel het vaststellen van bewaartermijnen. Het gaat over het operationaliseren van de vernietiging door de processtappen te benoemen, daar actoren aan te koppelen en de verantwoordelijkheid in de organisatie te beleggen. Ook de controlemaatregelen (zoals beoordelen van een vernietigingslijst) en de mate van automatisering worden hierin meegenomen.

Het zou kunnen dat datasets eerst als ruwe data worden verzameld en daarna worden getransformeerd, samengevoegd, geaggregeerd en/of geanonimiseerd of gepseudonimiseerd voordat ze aan het algoritme worden gevoed. Bij elke bewerking ontstaat in technische zin een nieuw databestand. Je zou kunnen overwegen om voor de ‘halffabrikaten’ een kortere bewaartermijn te hanteren dan voor de ‘eindproducten’ en om de vernietiging daarvan op basis van een script te automatiseren, terwijl je voor de eindproducten wellicht meer controlestappen in wil bouwen.

4.4.14 Beheer - Hoe ziet het overbrengingsproces eruit?

Als datasets voor eeuwigdurende bewaring in aanmerking komen, dan is het zinvol om al in de ontwerpfase na te denken over overbrenging naar een archiefbewaarplaats. Richt je dit bijvoorbeeld traditioneel in: eerst verzamelen en na X jaar een gehele collectie overbrengen, via vervroegde overbrenging: bijvoorbeeld als doorlopend proces aan het eind van het kalenderjaar de relevante documenten overbrengen? De bijbehorende procesafspraken en verantwoordelijkheden kunnen aan de hand van deze keuze worden bepaald en belegd. Het is bij deze stap belangrijk om af te stemmen met de beheerder van de archiefbewaarplaats.

4.4.15 Beheer - Hoe is in het wijzigingenproces geborgd dat de mogelijke impact van wijzigingen op het archiefregime wordt beoordeeld?

Als het gebruik van het algoritme significant wijzigt en/of als er andere bronnen worden toegevoegd, dan kan dat betekenen dat de eerder bedachte maatregelen ten aanzien van archivering moeten worden herzien. Daarom is het van belang om in het wijzigingenproces op te nemen dat er een impactanalyse voor wijzigingen wordt uitgevoerd waarin ook naar dit aspect gekeken wordt.

4.4.16 Beheer - Zijn er specifieke activiteiten te benoemen m.b.t. beschikbaarstelling aan derden (bv. bij WOB-verzoeken)? 

Mogelijk is het nodig om specifieke activiteiten te benoemen en te beleggen ten aanzien van beschikbaarstelling van informatie aan derden. Bijvoorbeeld het anonimiseren van datasets voorafgaand aan publicatie. Ook het gebruik van een algoritmeregister waarin is vastgelegd uit welke bronnen trainingsdata afkomstig is, kan bijdragen aan transparantie. Voorts kan gedacht worden aan het aanwijzen van een contactpersoon die door derden benaderd kan worden voor vragen.

 

4.5 Ontwerpfase - Outputdata

In de ontwerpfase komen er vragen aan bod per component (zie paragraaf 3). Deels zijn die vragen generiek, dus voor elk component hetzelfde, deels zijn ze componentgebonden. In deze subparagraaf worden de vragen toegelicht op het component ‘outputdata’. In sommige gevallen is het wellicht niet eens nodig om outputdata te archiveren, omdat bv. de documentatie of logica voldoende informatie biedt om aan accountability-eisen te kunnen voldoen. In dergelijke gevallen is het uiteraard niet nodig om op detailniveau deze verdiepingsvragen te doorlopen.

4.5.1 Wat? - Wat is de kwaliteit van de outputdata?

Om verantwoording af te kunnen leggen over het resultaat (outputdata) van het algoritme en het gebruik ervan, is het van belang om de kwaliteit van de data inzichtelijk te krijgen. De kwaliteit van de outputdata is in sterke mate afhankelijk van de gebruikte trainingsdata. Denk bv. aan de toetsbaarheid van de data, maar ook of het om een gereed informatieproduct gaat of om een set gegevens die gebruikt kan worden voor verdere verwerking.

4.5.2 Wat? - Wordt de outputdata gebruikt voor verdere verwerking? Zo ja, welk informatieobject wordt hiermee gecreëerd?

Onder verdere verwerking verstaan we informatieproducten waar algoritmische berekeningen aan ten grondslag liggen (bv. beleidsdocumenten). Bij dergelijke informatieproducten kun je afwegen om bijvoorbeeld beleidsdocumenten op zichzelf als outputdata te archiveren, los van het algoritme of om deze integraal te archiveren.

4.5.3 Hoe lang? - Welk impactprofiel is van toepassing?

In de ontwerpfase is deze vraag van belang om te bepalen wat de juist te treffen maatregelen zijn n.a.v. het gebruik van de outputdata. Deze afweging kun je maken o.b.v. selectielijst(en). In paragraaf 2 zijn de impactprofielen afzonderlijk beschreven.

4.5.4 Waar? - Is de opslag van outputdata noodzakelijk of volstaat de reconstructie ervan o.b.v. overige componenten?

In de ontwerpfase is deze vraag van belang voor het bepalen van de opslaglocatie. Dit is sterk afhankelijke van het interne beleid van de organisatie. Is het intern beleid om outputdata actief openbaar te maken, dan zal deze opgeslagen moeten worden op een plek van waaruit publicatie mogelijk is. Een andere afweging is of een organisatie een aangewezen archiefapplicatie heeft zoals een DMS of bijvoorbeeld een specialistische applicatie die aan een zoekmachine gekoppeld is waardoor de informatie vindbaar is voor interne belanghebbenden.

4.5.5 Waar? - Kunnen informatieproducten voor afnemende processen aansluiten op oplossingen die reeds voor het proces gebruikt zijn?

In de ontwerpfase is het van belang inzichtelijk te krijgen hoe belanghebbenden outputdata kunnen benaderen voor (her)gebruik met reeds gebruikte applicaties en systemen binnen hun processen. Denk bijvoorbeeld aan het beschikbaar stellen van outputdata via rapportagetools.

4.5.6 Waar? - Welke systemen zijn beschikbaar als mogelijke beheeromgeving?

Om te bepalen waar gegevens worden opgeslagen, moet eerst bekend zijn welke mogelijke opslaglocaties beschikbaar zijn. Denk bijvoorbeeld aan een netwerklocatie, een DMS of een datawarehouse. De uiteindelijke keuze is mede afhankelijk van de eisen en wensen die gesteld worden aan de toegankelijkheid.

4.5.7 Vorm - In welke vorm wordt outputdata beschikbaar gesteld?

In het kader van archivering en beheer is het van belang inzichtelijk te krijgen in welke vorm belanghebbenden outputdata opstellen of verwerken. Denk hierbij aan beschikbaarstelling via rapportages, dashboards, als ruwe data, mondelinge terugkoppeling via AI (spraaktechnologie) etc. De output kan bestaan uit een gereed informatieproduct dat op zichzelf gearchiveerd kan worden, maar kan ook bestaan uit een set gegevens ter verdere verwerking. In dat laatste geval zal de archivering verderop in het proces ingericht moeten worden. Bij realtime weergave in een dashboard, is er slechts een view op data en in technische zin geen outputdata. De archivering dient dan te worden geborgd via de andere componenten.

4.5.8 Beschikbaarstelling - Wie zijn de belanghebbenden van de outputdata (primaire en secundaire gebruikers, ook op de lange termijn)?

Voor de beschikbaarstelling van outputdata is het van belang om te weten hoe belanghebbenden zoeken naar informatie en in welke vorm ze die tot zich willen nemen. Op die manier kan deze op een geschikte manier worden gepresenteerd.

4.5.9 Beschikbaarstelling - Welke openbaarheidsregime is van toepassing?

Bij het beschikbaar stellen van outputdata is het van belang om relevante wet- en regelgeving (bv. WOB / WOO, AVG etc.) in acht te nemen. Dit vormt tevens de basis voor het inrichten van autorisatie.

4.5.10 Beschikbaarstelling - In welke vorm moet de outputdata beschikbaar gesteld worden aan belanghebbenden (bv. open data)?

Belanghebbenden willen informatie op verschillende wijzen gebruiken. Dat kan betekenen dat informatie op verschillende manieren ontsloten en gepresenteerd wordt. Bijvoorbeeld een vorm voor interne kennisdeling die afwijkt van een vorm voor externe publicatie.

4.5.11 Beheer - Hoe ziet het vernietigingsproces eruit?

Het ontwerpen van een vernietigingsproces gaat verder dan enkel het vaststellen van bewaartermijnen. Het gaat over het operationaliseren van de vernietiging door de processtappen te benoemen, daar actoren aan te koppelen en de verantwoordelijkheid in de organisatie te beleggen. Ook de controlemaatregelen (zoals beoordelen van een vernietigingslijst) en de mate van automatisering worden hierin meegenomen.

4.5.12 Beheer - Hoe ziet het overbrengingsproces eruit?

Als outputdata voor bewaring in aanmerking komen, dan is het zinvol om al in de ontwerpfase na te denken over overbrenging naar een archiefbewaarplaats. Richt je dit bijvoorbeeld traditioneel in: eerst verzamelen en na X jaar een gehele collectie overbrengen, via vervroegde overbrenging: bijvoorbeeld als doorlopend proces aan het eind van het kalenderjaar de relevante documenten overbrengen? De bijbehorende procesafspraken en verantwoordelijkheden kunnen aan de hand van deze keuze worden bepaald en belegd. Het is bij deze stap belangrijk om af te stemmen met de beheerder van de archiefbewaarplaats.

4.5.13 Beheer - Zijn er specifieke activiteiten te benoemen m.b.t. beschikbaarstelling aan derden (bv. bij WOB-verzoeken)?

Mogelijk is het nodig om specifieke activiteiten te benoemen en te beleggen ten aanzien van beschikbaarstelling van informatie aan derden. Bijvoorbeeld het anonimiseren van documenten voorafgaand aan publicatie. Ook het in de eigen organisatie kenbaar maken (bijvoorbeeld bij een WOB-functionaris) welke informatie er is en hoe die gevonden kan worden, draagt bij aan transparantie. Voorts kan gedacht worden aan het aanwijzen van een contactpersoon die door derden benaderd kan worden voor vragen.

 

4.6 Ontwerpfase - Logica

In de ontwerpfase komen er vragen aan bod per component (zie paragraaf 3). Deels zijn die vragen generiek, dus voor elk component hetzelfde, deels zijn ze componentgebonden. In deze subparagraaf worden de vragen toegelicht op het component ‘Logica’.

4.6.1 Wat - Wie is de auteur van de broncode?

De broncode (het programma waar het algoritme draait) kan open source, shared source, privaat of zelf ontwikkeld zijn. Dit heeft invloed op de wijze waarop toegankelijkheid wordt geregeld.

4.6.2 Wat - Heeft de organisatie/afdeling toegang tot de broncode?

Het kan zijn dat de organisatie/afdeling zelf geen toegang heeft tot de broncode, dit kan het geval zijn wanneer het is ontwikkeld door een commerciële partij. Het is hierbij aangeraden om een escrow contract te regelen voor wanneer deze partij stopt met het leveren van de service. Deze overeenkomst wordt gearchiveerd als onderdeel van de documentatie.

4.6.3 Wat - Ontwikkelt de broncode zich of is deze statisch?

Worden nieuwe versies van de broncode ontwikkeld en ingezet? Bij extern ontwikkelde software is het een overweging om de release notes te archiveren, wanneer er geen toegang is tot de broncode. Bij intern ontwikkelde software is de broncode beschikbaar en kan eventuele archivering intern worden georganiseerd. Hierbij kunnen release notes ook worden meegenomen.

Release notes zijn overzichtelijker en sneller te scannen/begrijpen dan broncode. In het licht van uitlegbaarheid is het archiveren van release notes een goed idee. 

4.6.4 Wat - Is het datamodel statisch of dynamisch?

Wordt het datamodel verder ontwikkeld of is dit een eenmalig proces. Wanneer deze dynamisch is, met welke interval wordt deze gearchiveerd? (Elke versie, om de zoveel tijd of na zoveel veranderingen). 

4.6.5 Hoe lang - Welk impactprofiel is van toepassing?

Bij de logica is deze vraag van belang om te bepalen wat de juiste te treffen maatregelen zijn n.a.v. het gebruik van de trainingsdata. Deze afweging kun je maken o.b.v. selectielijst(en). In paragraaf 2 zijn de impactprofielen afzonderlijk beschreven. Het bewaren van de logica is een van de belangrijkste componenten van dit archief.

4.6.6 Hoe lang? Volstaat het om enkel het datamodel langere tijd te bewaren en niet de broncode?

Aan de hand van het datamodel kan herleid worden op basis van welke opgegeven categorieën gegevens (bijvoorbeeld locatiegegevens, persoonsgegevens, procesgegevens) tot een de output is gekomen. Voor verantwoording kan het in sommige gevallen al voldoende zijn om dit te bewaren, zonder de daarop toegepaste rekenregels.

4.6.7 Hoe lang - Als broncode en/of datamodel zich in de loop der tijd ontwikkelen, met welke frequentie wordt er dan een nieuwe versie bewaard?

Hierbij kan gekozen worden om elke versie op te slaan, of om de zoveel tijd/versies bij grote wijzigingen.

4.6.8 Waar - Wordt de logica bij een commerciële partij opgeslagen?

Aansluitend op vraag 4.6.1. wordt de logica op dezelfde plek opgeslagen.

4.6.9 Waar - Wordt de logica intern opgeslagen?

Wanneer deze extern wordt opgeslagen/gebruikt, is het aan te bevelen hier een interne backup van te maken.

4.6.10 Vorm - In welke vorm wordt de logica opgeslagen?

De logica wordt opgeslagen in de oorspronkelijke bestandsvorm, hoe deze kan worden ingelezen door het programma. Hierbij is de voorwaarde dat het bestand ook te openen/lezen is buiten het programma. In elk geval bij een lange bewaartermijn, is het van belang om de logica in een open standaard vast te leggen.

4.6.11 Vorm - In welke vorm wordt de logica beschikbaar gesteld?

De minimale vorm van beschikbaar stellen is de bestanden als download aanbieden. Bij een uitgebreidere vorm kan gedacht worden aan een dashboard. Het is hierbij aan te raden een functionaris aan te wijzen die kennis over dit onderwerp borgt en zo eventuele vragen kan beantwoorden en indien van toepassing ontwikkelpunten kan meenemen (wanneer het algoritme nog in gebruik is).

4.6.12 Beschikbaarstelling - Wie zijn belanghebbenden van de data (primaire en secundaire gebruikers, ook op lange termijn)?

Welke partijen moeten toegang hebben tot de logica, zijn dit alleen interne gebruikers of moet deze ook voor externe beschikbaar zijn.

4.6.13 Beschikbaarstelling - Welk openbaarheidsregime is van toepassing?

Het is van belang om te weten welke eventuele beperkingen op de openbaarheid of de toegang geldend zijn. 

4.6.14 Beheer - Als de broncode zich ontwikkeld: hoe wordt de gedragsmonitoring en het versiebeheer georganiseerd?

Wordt deze geautomatiseerd gearchiveerd of moet deze handmatig worden opgeslagen bij elke versie? In het eerste geval, waar wordt deze opgeslagen? In het tweede geval, wie is hiervoor verantwoordelijk?

4.6.15 Beheer - Als er een dynamisch datamodel wordt gehanteerd: hoe wordt het versiebeheer georganiseerd?

Het kan verstandig zijn een script in te stellen die bij wijziging of om de zoveel tijd een export maakt van het datamodel naar een interne (opslag)locatie.

4.6.16 Beheer - Hoe wordt nieuwe/actuele informatie toegevoegd aan de dataset?

Wie wordt hiervoor verantwoordelijk gesteld?