IMAR - Informatiemodel Algoritme register

Unofficial Draft

More details about this document
This version:
https://www.w3.org/TR/unofficial-imar-20240115/
Latest published version:
https://bp4mc2.github.io/algoritmes/
Latest editor's draft:
https://bp4mc2.github.io/algoritmes/
History:
Commit history
Editors:
Taco Paul Reijer
Arjen Santema
Feedback:
GitHub bp4mc2/algoritmes (pull requests, new issue, open issues)

Abstract

Status of This Document

This document is a draft of a potential specification. It has no official standing of any kind and does not represent the support or consensus of any standards organization.

1. Inleiding

Dit document beschrijft het informatiemodel voor de governance op algoritmische toepassingen. Het is een logisch model conform het Metamodel voor InformatieModellen (MIM niveau 3).

Alle relevante begrippen rond algoritmen zijn gedefinieerd in de begrippencatalogus voor algoritme begrippen. Deze begrippencatalogus is tevens de bron van alle definities die in dit informatiemodel worden gehanteerd.

De kern van het model is gebaseerd op de Nederlandse algoritmestandaard. Deze standaard is in eerste instantie ontwikkeld als een rechttoe rechtaan lijst met een aantal gegevens die relevant zijn om algoritmes in een algoritmeregister te beschrijven. Dat is een belangrijke stap binnen de overheid om de toepassing van algoritmes en de implicaties en risico’s voor de samenleving inzichtelijk te maken.

Voor governance op algoritmische toepassingen is een meer genuanceerde benadering nodig. Daarbij is het relevant om onderscheid te maken tussen een algoritmische toepassing, de algortimes zelf en gebruikte methoden en technieken. De algoritmische toepassing heeft al dan niet maatschappelijke impact. Binnen 1 toepassing kunnen meerdere algoritmes worden ingezet. En om hergebruik van in algoritmes gebruikte methoden en technieken mogelijk te maken is ook het expliciet onderscheiden hiervan relevant.

Daarnaast maakt het model gebruik van bestaande semantische standaarden zoals dcat (Data Catalog Vocabulary) voor het beschrijven van datasets en adms (Asset Description Metadata Schema) voor het beschrijven van semantic assets. Door een algortimeregister te beschrijven als asset repository en een algoritmische toepassing te beschrijven als ‘semantic asset’ worden algoritmeregisters en de daarin beschreven algoritmische toepassingen als zodanig vindbaar op het web. Ook kan daarmee een verbinding worden gemaakt met <https: data.overheid.nl="">. Data.overheid wordt gevuld op basis van beschrijvingen van datasets op basis van dcat.

1.1 Modeldocumentatie

In het informatiemodel voor algoritmes is opgebouwd uit verschillende bouwstenen (packages).

1.1.1 Algoritme

Het domein Algoritme bevat de kern van het model.

Centraal in dit domein staan de objecttypen Algoritmeregister en Algoritmische toepassing. De algoritmische toepassing is een semantische asset die een aantal kenmerken hergebruikt uit adms en daarmee indirect ook enkele kenmerken uit dcat (adms is een profiel op dcat). Het algoritmeregister is een asset repository en hergebruikt eveneens een aantal kenmerken uit adms en dcat. Deze algemene, door de W3C (World Wide Web Consortium) aanbevolen standaard kenmerken zijn direct interpreteerbaar voor bijvoorbeeld zoekmachines en worden ook gebruikt in data.overheid.

1 algoritmische toepassing kan meerdere algoritmes gebruiken, bijvoorbeeld een combinatie van regelgebaseerde en zelflerende algoritmes. Met zo’n combinatie kan de betrouwbaarheid van de uitkomst worden verhoogd of kunnen zelflerende algoritmes via de toegepaste regels uitleggen hoe ze tot een resultaat zijn gekomen. Ook is denkbaar dat bijvoorbeeld voor de herkenning van bepaalde feiten en namen in teksten verschillende algoritmes worden ingezet. Deze algoritmes zijn niet geheel onafhankelijk: als iets een feit is, is het geen naam en andersom.

1 algoritme kan vervolgens weer meerdere methoden of modellen gebruiken. In het voorbeeld van de herkenning van entiteiten in teksten kan eerst een methode worden gebruikt om teksten op te splitsen in woorden en vervolgens een beproefd open source algoritme om Nederlands te herkennen en tot slot een specifiek algoritme voor het herkennen van namen in Nederlandse teksten. Methoden en technieken zijn in de regel ergens beschreven en kunnen op basis van hun documentatie worden hergebruikt.

Voor het beschrijven van documentatie wordt een algemeen patroon gebruikt. In zijn meest eenvoudige vorm is er een eenvoudige beschrijving, maar idealiter is er een webpagina met meer informatie. Documentatie kan betrekking hebben op een bezwaarprocedure met een beschrijving ‘er kan bezwaar worden gemaakt via een bezwaarformulier’, waarbij een url naar de webpagina met dit formulier gebruikelijk is. Maar het is ook mogelijk dat aan de beschrijving wordt toegevoegd ‘… dat kan worden opgevraagd bij de klantenservice’ of dat alleen de url naar een webpagina met een beschrijving van de procedure en een bezwaarformulier voldoende wordt gevonden.

Op dezelfde wijze kan ook een eventuele publiekspagina van een algoritmische toepassing, de beschrijving van het algoritmeregister zelf of de code base van een algoritme in bijvoorbeeld GitHub worden beschreven. Dit geldt ook voor een methode of model en voor een assessment. Deze zijn gemodelleerd als subtype van documentatie.

Een algoritmische toepassing heeft een (wettelijke) grondslag die beschrijft waarom een organisatie dit soort dingen mag of juist moet doen. Zo’n bron kan beschreven met een zin als ‘dit algoritme wordt ingezet na goedkeuring van ...’ of met een citeertitel en url die zijn ontleend aan wetten.nl. In de meeste algoritmeregisters wordt voor iedere algoritmische toepassing een afbeelding opgenomen. Deze is gemodelleerd als een afbeelding conform het foaf vocabularie. Foaf (friend of a friend) is een veel gebruikt vocabulaire dat is gemaakt om webpagina’s machine leesbaar te maken.

Zowel afbeeldingen, documentatie als grondslag zijn gemodelleerd als foaf documenten.

Algoritmische toepassingen kennen risico’s. Risico’s komen altijd naar boven uit een assesment. Op dit moment worden 2 typen assesment aanbevolen, namelijk een IAMA (Impact Assesment Mensenrechten en Algoritmes) en een DPIA (Data Protection Impact Assessment). De beschrijving van risico’s is met de kenmerken kans, ernst en mitigerende maatregelen uitgebreider dan de huidige standaard voorschrijft. Hiermee sluit deze beschrijving aan bij gebruikelijke risicoanalyses.

Tot slot is zowel de bevoegde organisatie of afdeling van belang die mag besluiten over de algoritmische toepassing als de organisatie of afdeling die de algoritmische toepassing uitvoert. Het model laat open of dit op afdelingsniveau of op organisatieniveau wordt vastgelegd. Voor de beschrijving van een organisatie of afdeling wordt de org (organisation) ontolgy van de W3C hergebruikt. Dit maakt het mogelijk aan te sluiten op het register van overheidsorganisaties.

1.1.2 Views op W3C vocabulaiies

Adms, dcat, foaf, org en vcard zijn beschreven door de W3C. In het voorliggende informatiemodel hebben we deze vocabulaires uitgedrukt in UML met een overzicht van de in het kader van algoritmes relevante kenmerken. De namen voor deze kenmerken zijn vertaald naar Nederlandse termen in de context van algoritmes. Dit is puur voor de leesbaarheid gedaan. Het is niet de bedoeling dat door eventuele andere associaties bij deze Nederlandse termen de betekenis van de oorspronkelijke kenmerken verandert. Voor alle kenmerken is een link naar het oorspronkelijke Engelstalige begrip en de definitie daarvan opgenomen.

1.1.3 Datatypes

De datatypes bevatten in de eerste plaats referentielijsten naar bestaande waardelijsten voor: * thema (<https: standaarden.overheid.nl="" owms="" 4.0="" doc="" waardelijsten="" thema-indeling-voor-officiele-publicaties="">) * taal (https://www.loc.gov/standards/iso639-2/php/English_list.php)

Daarnaast bevatten datatypes de binnen het domein van algoritmes nog te definiëren waardelijsten: * risico categorie (onaanvaardbaar, hoog, midden laag) * type assesment (IAMA, DPIA, …) * type methode of model (…) * risico of ernst (hoog, middel, laag) * kans (groot, gemiddeld, klein) * mitigerende maatregel (bewaken, berusten, …) * type algoritme ((deels)zelflerend, niet-zelflerend) Hieronder is een overzicht van alle packages in de huidige versie van het model.

In het volgende hoofdstuk wordt het informatiemodel algoritme register in detail beschreven.