Anonimiseren van documenten
Documenten worden geupload naar de applicatie. Op dat moment wordt een kopie gemaakt in de vorm van een PDF met tekstlaag en wordt de metadata van het oorspronkelijke document uit de kopie verwijderd. Deze kopie komt op de (Nederlandse) server van de leverancier terecht en blijft daar maximaal 30 dagen staan. De tekstlaag van de PDF wordt door een API aangeboden aan het machine learning algoritme. Het gaat om een Natural Language Processing algoritme (named entity recognition) van Microsoft Azure. De API levert terug op welke locatie in de geanalyseerde teksten waarschijnlijk een persoonsgegeven voorkomt, samen met de waarschijnlijkheidsscore (een percentage). De leverancier gebruikt de waarschijnlijkheidsscore samen met eigen AI-modellen om de herkenning van persoonsgegevens zo accuraat mogelijk te kunnen doen. Tot slot controleert een medewerker het document en wanneer deze het document afrondt, worden de te anonimiseren gegevens definitief uit de tekstlaag verwijderd en wordt een zwart balkje geplaatst.
Anonimiseren is belangrijk omdat het helpt om de privacy van individuen te beschermen en ervoor zorgt dat gevoelige informatie niet onbedoeld openbaar wordt gemaakt. De wettelijke basis voor het anonimiseren van gegevens in Nederland is voornamelijk vastgelegd in de Algemene Verordening Gegevensbescherming (AVG).
De uitkomst van het algoritme wordt gecontroleerd door een medewerker. De medewerker wordt door de software verplicht om alle pagina's te controleren. De medewerker bepaalt of het document correct is geanonimiseerd.
De medewerker van de gemeente doet altijd de laatste toets of een document juist is geanonimiseerd. Het risico bestaat dat medewerkers niet goed controleren, dit ondervangen we door aandacht te geven aan het belang van een zorgvuldige controle van de door het algoritme gevonden persoonsgegevens. Datamask is een SaaS-oplossing (Software As A Service). Een kopie van het document wordt zonder metadata geupload naar de omgeving van de leverancier om te verwerken. Onmiddelijk na de verwerking wordt de data en de dataverwerking verwijderd. Wordt de kopie niet direct verwerkt, dan blijft deze maximaal 30 dagen op de (Nederlandse) server van de leverancier bewaard. De leverancier is ISO 27001 gecertificeerd.
De gemeente wil informatie openbaar maken. Daarbij moet privacy- of bedrijfsgevoelige informatie worden beschermd. Het voordeel van de anonimiseringssoftware is dat er sneller geanonimiseerd wordt. Een nadeel kan zijn dat er teveel vertrouwd wordt op de uitkomst van het algoritme, door minder goed te controleren.
Alle informatie die te vinden is in de geuploade documenten (behalve de metadata), wordt verwerkt door het algoritme. Het kan daarbij gaan om gewone persoonsgegevens, bijzondere persoonsgegevens en strafrechtelijke gegevens. Het kan ook gaan om bedrijfsgevoelige informatie.
- Start
- januari 2023
- Leverancier
- Xxllnc Anonimiseren, was eerder bekend als DataMask
- Contact
- info@peelenmaas.nl
- Register-standaard
- v1.0