Tanker om datakvalitet i slægtsforskning (er toldfrie)
Af en strukturfascists bekendelser
Indholdsfortegnelse
Tanker om datakvalitet i slægtsforskning (er toldfrie)
Nu findes der (heldigvis) intet “slægtsforskningspoliti”, men hvis der gjorde, ville jeg elske at være politimester og/eller anklager 🙂
Dagens artikel drejer sig om, hvordan jeg kan lide at organisere mine data, så jeg får en god struktur både i mit slægtsforskningsprogram – Legacy – og i visningen på min hjemmeside, hvor jeg bruger The Next Generation of Genealogy Sitebuilding (TNG). Men navnene på programmerne er i virkeligheden fuldkommen ligegyldige. Det drejer sig om strukturen, der er bestemmende for kvaliteten af mine data. Med årene vokser vores data til næsten uanede mængder, og derfor er det vigtigt at holde en god orden i snart sagt hvad som helst.
Hvis du finder inspiration her, vil det glæde mig!
Jeg sondrer mellem på den ene side indholdet af felterne, hvor de forskellige informationer skal placeres og på den anden side det, man kunne kalde “friteksten”, dvs. der hvor transskriptionerne anbringes.
Datafelterne skal ikke være kildetro – men det skal friteksterne naturligvis. Herunder kommer en række eksempler, hvor jeg prøver at forklare baggrunden for, at jeg gør, som jeg gør.
Det hastigt voksende stedregister er det vigtigste
Stedregisteret har det med at vokse i turbofart, og det er svært at undgå, og det bliver endnu værre, hvis man er kildetro i de felter, hvor stederne skal skrives ind.
Et eksempel er Christian Olsen (af og til Olufsen), der ved vielsen i januar 1759 tjener på “Vindekilde Kro, Vallekilde Sogn, Ods Herred, Holbæk Amt, Denmark”. I datafeltet skriver jeg netop dette som stedet.
I kilden står: “For Christian Olufsen af Kongens Gods tienende paa Windekilde Kroe …”. I datafeltet er jeg ikke kildetro; jeg skriver ikke: “Windekilde Kroe, Vallekilde Sogn, Ods Herred, Holbæk Amt, Denmark”. Det ville give helt uoverskueligt mange steder for hvad så, hvis samme kro optrådte i nyere tid og var stavet “Vindekilde kro” osv.?
Ikke alene ville samme sted blive repræsenteret et utal af gange, men diverse programmer kan nu til dags selv finde ud af at geokode, hvilket vil sige at knytte længde- og breddegrader til det enkelte sted, men programmerne kender formentlig ikke de gamle stavemåder. Når jeg skriver formentlig, skyldes det, at jeg ikke selv har erfaring med at være kildetro i datafelterne om steder.
TNG kan selv geokode mange af stederne, hvis hvert sted rummer sogn, herred og amt. Og det er en kæmpe fordel, eftersom det er en meget tidskrævende og kedelig opgave at gøre det manuelt (hvilket jeg gjorde). En hjemmeside ses forhåbentlig af mange, og mange tilgår måske siden fra udlandet, hvorfor jeg også knytter land til stedet, og jeg staver landet på engelsk.
Når stederne er geokodet, kan fx TNG vise de nydeligste kort som eksempelvis dette, der stammer fra den samme Christian Olsen/Olufsen:
Beskæftigelserne
Knap så vigtige er beskæftigelserne. Her drejer det sig om læsbarheden og brugernes mulighed for at forstå, hvad der faktisk menes. Det centrale i dette afsnit er, at jeg naturligvis ikke ændrer på kilden. Den bevares, som den er.
Ofte får vi informationerne om beskæftigelserne fra folketællingerne, og de kan være noget formørket sludder både indholdsmæssigt og det, der står skrevet.
Om samme Christian Olsen/Olufsen står der i folketællingen den 1. juli 1787 “Christian Olsen, 54, Gift, Hosbonde, Huusmand og Dagleier meget fattig”. Det er ikke det grelleste eksempel, for man kan jo sagtens forstå, hvad der står, men jeg har jo kilden (folketællingen), som jeg naturligvis ikke ændrer på. Da jeg synes, det er lidt interessant, at han er meget fattig, laver jeg en begivenhed (en beskæftigelse), hvor jeg ændrer det til nogenlunde korrekt nudansk: “Husmand og meget fattig daglejer”.
Et andet eksempel er min 4 * tipoldefar Hans Pedersen og hans kone Anne Larsdatter. De går og bætler med æ i 1787. Jeg laver en begivenhed (beskæftigelse) og skriver på nogenlunde korrekt nudansk om ham: “Husmand og daglejer men går mest om og betler med sin kone” (jeg håber ikke, han solgte min 4* tipoldemor).
Data i folketællingen ser sådan ud (der er flere personer end vist her):
1) Hans Pedersen, 54, Gift, Hosbonde, Huusmand og Dagleier, men gaaer mest om og bætler med sin Kone
2) Anne Larsdatter, 50, Gift, hans Kone, bætler
Andre eksempler er fx læge Kongsted, der vaccinerede Ellen Sophie i Ods Herred. Kilderne kalder ham ofte “Districts-læge” el.lign., men jeg skriver “Distriktslæge” i datafeltet om vaccinationen, eller det kunne være en person, der “tiener”, hvor jeg skriver “tjener”.
Her er den fulde kilde om Ellen Sophies vaccination i 1839, som den fremgår på hjemmesiden:
“AO Salldata – KB, 11 mar. 2025, Holbæk Amt, Ods, Nørre Asmindrup, 1850-1876, KM, Konfirmerede piger – opslag: 2 af 19 opslag (Troværdighed: 4).
1854 nr. 2. Ellen Sophie Larsdatter. Skaverup. Gmd. Lars Jensen og Hstr. Kirsten Madsdatter, Skaverup. født den 18de Junij 1839. Gode Kundskaber og sædelig Opførsel. Vaccineret: d. 13de Septbr 1839 af Districtslæge Kongsted.”
Jeg afholder mig fra at fortolke
Helt generelt tolker jeg ikke i datafelterne. Hvis der er behov for fortolkninger, fx fordi det, der fremgår af kilden, påviseligt er noget sludder, så kommenterer jeg det i en note.
Bortset fra det ovenfor beskrevne om steder og beskæftigelser, mener jeg, at man skal passe meget på med at fortolke i datafelterne. Det skyldes, at det ellers kan blive noget værre rod, hvor man måske flere år efter sidder og kommer i tvivl om, hvad der er hvad. Hvad stammer fra kilden, og hvad beror på en fortolkning?
For et par år siden tog jeg mig sammen og omdøbte alle billedfilerne, så de alle har den samme struktur.
Jeg indrømmer blankt, at det var temmelig kedeligt, men nu er jeg glad for det.
Før jeg begyndte, kunne et billede eksempelvis hedde “Far i barnevogn 1922”. Efter omdøbningen hedder det “Stegemüller, Jørgen-1” el-lign.
En af de fordele, jeg har fået ud af det, er, at det er blevet så utrolig nemt at finde billederne igen. Før i tiden skulle jeg søge og måske finde det billede, jeg ledte efter. For det var jo ikke sikkert, jeg kunne huske, hvad jeg havde kaldt billedet.
Prøv at se billedet til højre og tænk over, hvor mange fx “Christensen” du selv har.
- En person: Efternavn komma fornavn
- Flere personer (med mindre det er et stort gruppebillede): Alle personer fra venstre mod højre navngives med efternavn komma fornavn komma (dette komma adskiller inden den næste person) efternavn komma fornavn osv.
De programmer, jeg bruger, kan nemt vise billederne på hjemmesiden, selvom der er mellemrum i billedfilernes navne. Jeg er klar over, at Mette Fløjborg tilråder underscores (_), da det er hendes erfaring, at visse browsere ellers ikke kan vise billederne.
Hvis jeg brugte Mettes regel, skulle mine billeder eksempelvis hedde “Stegemüller_Jørgen-1” el-lign.
Tilføjelse den 9. april 2025
Jeg er nu blevet klar over, hvad der skal til, for at man kan bruge mellemrum, kommaer, fx “ü” osv. i filnavne: Alt skal sættes til UTF-8, som Roger fra TNG-forum forklarer herunder:
“If things are set up correctly using accented characters, spaces etc in file names is no problem at all.
Things include
Server set to use UTF-8
FTP software set to use UTF-8 to upload files with accented characters in the file name
Website (in our case usually TNG) set to use UTF-8
Database set to use UTF-8
Then it all works as expected. If any of these “things” are not using UTF-8, then problems can arise.
Roger”
Har du kommentarer til artiklen?
Så er jeg glad for at modtage dem i relation til artiklen, dvs. i artiklens kommentarfelt herunder, ikke på facebook og ikke via Messenger. Det skyldes, at kommentarer og artiklen jo ellers dekobles, og så er din kommentar ikke noget værd i fremtiden. Det er ærgerligt for os begge. Jeg svarer dig også relation til artiklen til morgenkaffen, kl. 13:00, kl. 18:00 og ved sengetid.
Hvis du ikke tidligere har kommenteret en af mine artikler her på siden, skal din kommentar først godkendes (spamhensyn). Min responstid er under normale omstændigheder kort. Jeg svarer til morgenkaffen, kl. 13:00, kl. 18:00 og ved sengetid. Herefter vil du stryge lige igennem.
Skriv en kommentar
Vil du deltage i debatten?Du er mere end velkommen!
Det glæder mig altid at blive klogere.
Det sker så sandelig i dette indlæg.
Det, der kommer til at stå lysende klart, er, at det er nødvendigt at sondre mellem de informationer, kilderne giver anledning til og kilderne. Informationerne, kilder giver anledning til, bør således formidles på et nudansk, der kan forstås af nutidsdanskere, der måtte læse med. Kilderne derimod angiver, hvad der blev skrevet, da kilderne blev skrevet.
Det er klar tale – og det må så vise sig, om jeg gider gøre det nødvendige ved det, idet jeg jo ganske klart ikke har opereret på denne måde.
Tak for øjenåbneren.
@ Kære Jørgen
Tak for din altid søde kommentar!
Jeg er glad for, at du kan bruge artiklen, og at den giver mening for dig. Af din kommentar kan jeg se, at du har forstået, hvad jeg mener. Faktisk beskriver du, det, jeg mener, bedre end jeg selv gør.
Hvis du ikke gider, så er det fuldt forståeligt. Det er også et fandens arbejde, og kun nemt for mig fordi jeg har viet mit liv til mine data. Min hjerne bliver så glad over samstemmende data. Og her er jeg klar over, at jeg adskiller mig fra de fleste …