Deze website maakt gebruik van cookies. Met functionele- en analytische cookies zorgen we er voor dat website goed werkt en verbeteren wij onze websites. Ook plaatsen we marketing cookies om je van persoonlijke content te voorzien. Wil je dit niet? Kies dan voor weigeren, we plaatsen dan alleen functionele en analytische cookies. Meer informatie.

Eerste versie van aanleveringsspecificaties voor datasets zo goed als gereed

16-05-2018

​In het belang van de gewenste harmonisatie, maar ook om allerlei praktische redenen, dienen deelnemers aan het PCB hun eisensets voor de databank - het Data Platform van CROW (DP) - op een zo uniform mogelijke wijze aan te leveren.

Daoud Urdu Data

De gewenste uniformiteit heeft betrekking op zowel de ‘organisatie’ van de aanlevering als de digitale structuur (het format) van de gegevensbestanden. Om de aanlevering zo soepel en efficiënt mogelijk te laten verlopen, én om de aangeleverde informatie zo vlot en foutloos mogelijk te kunnen verwerken, heeft CROW, als beheerder en publicist van het DP, aanleveringsspecificaties ontwikkeld. Dat wil zeggen, een eerste versie hiervan. In samenwerking met gebruikers zullen de specificaties nog worden verfijnd.

Een belangrijk doel van het PCB is dat gebruikers (op termijn) snel en gemakkelijk eisensets kunnen selecteren om voor uiteenlopende werken een vraagspecificatie op te stellen. Bestaande eisensets worden hiertoe ondergebracht in het Data Platform. Daarbij wordt de informatie digitaal gelabeld. Een belangrijk voordeel hiervan is dat sterk overeenkomende bepalingen gemakkelijk uit de gegevensverzameling kunnen worden gefilterd. Vaak is het mogelijk dergelijke bepalingen te ‘promoveren’ tot uniforme eisen voor het deelcollectief bestaande uit de, aan het PCB deelnemende, provincies. Daarna kunnen bepalingen nogmaals worden gepromoveerd, en wel tot GWW-brede collectieve basisspecificatie, al is dat in veel gevallen nog wel een lange weg.

De aanleveringsspecificaties hebben zoals vermeld betrekking op zowel de ‘organisatie’ van de aanlevering als het format van de bestanden. “Beide aspecten hangen nauw samen met de taken en verantwoordelijkheden van de partijen die bij het publicatieproces betrokken zijn”, licht Daoud Urdu toe. “Het gaat hier om de processtap waarin de verantwoordelijke producent, in dit geval een provincie of een ingehuurd adviesbureau, informatie aanlevert aan de publicist, in dit geval CROW. De producent is verantwoordelijk voor de juistheid van de aangeleverde data, in de zin van kwaliteit, volledigheid en betrouwbaarheid. De publicist is verantwoordelijk voor het publicatieproces en voor de beschikbaarheid van de data voor wie daar aanspraak op kunnen maken.”

Tot nu toe leveren producenten hun datasets aan als bijlage(n) bij een mail. In de mail moet een aantal bijbehorende gegevens worden vermeld, waaronder de aanspreekpunten (personen) voor diverse soorten vragen, of het een eerste of volgende versie van een dataset betreft, en een aantal technische zaken zoals een beschrijving van de boomstructuur van de dataset. “In de aanleveringsspecificatie wordt nauwkeurig beschreven welke gegevens precies worden verlangd en eventueel ook in welke vorm”, geeft Daoud Urdu aan. “Op dit moment voldoet deze werkwijze, maar op termijn willen we naar een nog beter gestructureerde en meer gebruiksvriendelijke manier om de gewenste informatie over te dragen. Dat zal waarschijnlijk een webpagina worden, waarop de producent de noodzakelijke gegevens gemakkelijk kan invullen.”

De datasets zelf kunnen in twee formaten worden aangeleverd: als Excelbestand, met de extensie xslx, en als turtlefile, met de extensie ttl. Voor het opbouwen van een Excelbestand kan bij CROW een template worden opgevraagd. Verder gelden er twee hoofdeisen met betrekking tot het model waarmee de dataset wordt opgebouwd. De eerste eis luidt dat het door CROW gepubliceerde model (CSPEC) als basis wordt gebruikt voor het definiëren van classes en relaties. “Dit betreft met name het op een consequente manier aanhouden van de syntax van enkele wereldwijde standaarden, zoals OWL”, geeft Daoud Urdu aan. De tweede eis betreft de semantische modellering die minimaal in de dataset aanwezig dient te zijn. “Hierbij moet je vooral denken aan een eenduidige benaming van bepaalde belangrijke elementen in een set, bijvoorbeeld een specificatie.”

Het document waarin de aanleveringsspecificaties worden beschreven en toegelicht, komt binnenkort beschikbaar voor de producenten van eisensets. Daarnaast zal CROW instructiebijeenkomsten organiseren om gebruikers verder vertrouwd te maken met deze specialistische materie.

Lees meer over PCB

Scroll naar boven