,

Datafelter skal ikke indeholde transskriptioner

Big data

Datafelter skal ikke indeholde transskriptioner

Store mængder slægtsdata kræver disciplin. Hvis datafelter og transskriptioner flyder sammen, mister man både overblik og dokumentation. Her får du en forklaring på, hvorfor datafelterne skal være rene og kilderne ordrette – og hvordan du undgår, at din database vokser sig uendeligt stor på grund af stavevarianter og kreative løsninger.

Når man har slægtsforsket i mange år, har man samlet uendelige mængder af data sammen. Og det kan være svært at holde styr på dem. Denne artikel prøver at hjælpe lidt på vej.

Der er stor forskel på det, man på den ene side kan kalde “datafelter” og på den anden side det, der står i kilderne og som rummer transskriptionerne.

Datafelterne skal være “rene”, mens transskriptionerne skal være en ordret gengivelse af kilderne.

De første eksempler stammer fra mit stedregister fra nogle af “mine store steder”, hvor jeg har utallige både aner og familiemedlemmer: Disse steder staves i kilderne på mange sindrige måder: Thyregod er Tyrgoed eller Thyrgoed, Snejbjerg i Hammerum Herred er i kilderne fx Sneiberg, Askær i Brande Sogn er måske Askier, og Hindskov i Thyregod Sogn er ofte Hindskou.

I mine transskriptioner bevarer jeg selvfølgelig de ordrette angivelser. Man skal aldrig rette i kilderne. De skal stå rene, så man altid nemt kan finde tilbage til det, der egentlig stod. Det har man behov for, når/hvis man senere vil fortolke teksten.

I stedregisteret skriver jeg det samme som krabsen.dk skriver: fx Snejbjerg, Askær, Hindskov og Thyregod. Og når jeg nu ser på dette billede, kan jeg se, at Store Toustrup selvfølgelig skal rettes til Store Tovstrup. Ellers ville stedregisteret vokse til det uendelige, når de forskellige angivelser reelt dækker over det samme. Både Tyrgoed og Tyregoed er jo Thyregod i Nørvang Herred i det gamle Vejle Amt.

Og bare helt enkelt: Kirkegaard er selvfølgelig Kirkegård.

Andre eksempler stammer fra beskæftigelserne: I kilderne står ofte Huusmand, og det skriver jeg ordret af i transskriptionen. Men i datafeltet skriver jeg Husmand. Og fx Cancellieraad i kilden bliver til Kancelliråd i datafeltet. Og så videre.

Kilder og transskriptioner skal holdes skarpt adskilte

De to typer skal holdes skarpt adskilte, så man altid ved, hvad der er hvad. Man skal aldrig tolke i selve transskriptionen.

Hvis den direkte dokumentation mangler, må man konstruere argumenter på grundlag af indicier og sandsynlighedsvurderinger. Det skal bare ske adskilt af selve kilden. Man må altså placere det et andet sted. Jeg placerer det selv typisk i feltet, Legacy kalder for “Forskning”, og som egentlig er et meget dækkende ord:

Eller dette eksempel, hvor flere MyHeritage-sider angiver et dødsfald uden at angive hverken sted eller kilde:

Brug felterne til deres formål

Når jeg hjælper andre slægtsforskere med at få en TNG-side op at køre, ser jeg mange interessante eksempler på datafelternes anvendelse.

Et eksempel fra det seneste er, at beskæftigelsen er placeret i navnefeltet. Så kunne min biologiske tipoldefar fx blive til “Peter Waldemar Eliasen Korsanger ved Det Kongelige Teater”. Han hed Peter Waldemar ELIASEN, og han var (på et tidspunkt) korsanger ved det kongelige teater.

Men der er jo en grund til, at udviklerne af fx Legacy har opfundet de mange felter i programmet til os. Der er fx et særskilt felt til beskæftigelserne, og beskæftigelser må angives i flertal, eftersom folk ikke har den samme beskæftigelse livet igennem. Et banalt eksempel er Gårdmænd der – på grund af social deroute – blev husmænd og endnu senere indsiddere.

Min omtalte tipoldefar var livet igennem cigarfabrikant, cigarmager, sanger, korsanger, tobaksfabrikant og fabrikant. Hver gang en mand bliver far, og når han dør, ved man som regel også, hvad hans beskæftigelse var. Jeg noterer altid alle beskæftigelserne, for de er geniale til at fylde hullerne mellem folketællingerne ud. Han blev far mange gange mellem fx folketællingen 1855 (han var fra København) og folketællingen 1870. Alle disse beskæftigelser søger jeg at holde styr på.

Hvis jeg nu brugte navnefeltet imod dets formål, hvilken af beskæftigelserne skulle jeg så vælge at skrive? den “fineste”, som jeg ofte ser? Hvis en mand ved flere fødsler er fængselsfunktionær men på et tidspunkt stiger i graderne og bliver fængselsinspektør, ser jeg, at det er fængselsinspektøren, der angives – men hvad med alle de andre beskæftigelser, der jo skal med for at beskrive hans liv og sociale opstigning?

Andre sindrige anvendelser af felterne

I forbindelse med, at jeg prøvede at hjælpe en ny TNG-bruger, var jeg nødt til at spørge, hvorfor nogle af fornavnene var skrevet med versaler (store bogstaver). Det viste sig, at det var hendes måde at angive, at det var hendes ægtefælles aner og familiemedlemmer. Nu kan man jo selvfølgelig gøre fuldkommen, som man vil, og måske kan man selv huske de “regler”, man har opfundet. Men når man præsenterer sine data på nettet, er det svært for de besøgende at forstå disse regler. De vil bare blive forvirrede over, hvorfor nogle fornavne er med versaler og andre ikke.

Der er mange andre måder at angive, hvorfor de forskellige personer findes i TNG. Et eksempel er Legacys system med “Mærker”, der kan eksporteres som en del af GEDCOM-filerne.

Har du kommentarer til artiklen?

Så er jeg glad for at modtage dem i relation til artiklen, dvs. i artiklens kommentarfelt herunder, ikke på Facebook og ikke via Messenger. Det skyldes, at kommentarer og artiklen jo ellers dekobles, og så er din kommentar ikke noget værd i fremtiden. Det er ærgerligt for os begge. Jeg svarer dig også relation til artiklen til morgenkaffen, kl. 13:00, kl. 18:00 og ved sengetid.

Hvis du ikke tidligere har kommenteret en af mine artikler her på siden, skal din kommentar først godkendes (spamhensyn). Min responstid er under normale omstændigheder kort. Jeg svarer til morgenkaffen, kl. 13:00, kl. 18:00 og ved sengetid. Herefter vil du stryge lige igennem.

0 Svar

Skriv en kommentar

Vil du deltage i debatten?

Du er mere end velkommen!

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *