Erfaringer med brugen af maskinlæring i Næstved

NæstvedArkivernes frivillige har siden december 2019 digitaliseret og transskriberet by- og sognerådsprotokollerne for Næstved 1841-1945. I alt er 15 frivillige fra NæstvedArkiverne tilknyttet RETRO-projektet. De frivillige arbejder hjemmefra eller møder ind på læsesalen én gang om ugen, hvor de både transskriberer og digitaliserer sognerådsprotokoller.

For at gøre transskriberingen mere overskuelig for de frivillige er protokollerne delt i mindre bidder. Disse gør vi løbende tilgængelige én ad gangen på arkivets hjemmeside – også selvom hele protokollen ikke er transskriberet færdig. På den måde behøver man ikke at vente på en færdig protokol, men kan søge direkte i de allerede transskriberede sider og få lyst til mere.

De små bidder fungerer som appetitvækker og løfter sløret for, hvad der gemmer sig i den fulde protokol. Når transskriberingen af hele protokollen så er afsluttet, samler vi de små dele i ét sammenhængende og søgbart dokument.

Hvert transskriberede ord og bogstav bliver efter korrekturlæsningen delt i en fælles pulje af dokumenter, der består af sognerådsprotokoller fra Faxe, Næstved og Aarhus i perioden 1842-1949. Her tjener de som supplement til en generel og fælles model til håndskriftsgenkendelse for dansk håndskrift 1870-1950, den såkaldte ”Danish 1870-1950 v3.5”, som er den nyeste model.

Denne model er NæstvedArkivernes frivillige begyndt at bruge og få erfaringer med, siden det frivillige engagement startede op igen efter corona-nedlukningen af arkivet. Selvom der er store fordele ved automatisk genkendelse, er vores erfaring, at modellens brugbarhed varierer fra protokol til protokol og fra individ til individ.

Hvis håndskriften er særlig snørklet eller utydelig, har modellen selvsagt større vanskeligheder end ved snorlige sætninger. Derudover oplever vi, at maskinen af og til næsten er for intelligent. Lad os tage et eksempel.

I Næstved Byråd 1932-1943 oversætter maskinen konsekvent Chr. Lorenzen til Chr. Sørensen – på trods af et tydeligt z og selvom der ikke er ø i navnet. En forklaring til dette kunne være, at maskinen er trænet på baggrund af protokoller, hvor Sørensen hyppigt optræder sammen med Chr.

I samme protokol har maskinen også haft svært med oversættelsen af tal. 2 og 3 samt 2 og 7 forveksles. Af og til er 3 endda blevet til et nul.

3 bliver til 1 i oversættelsen, Næstved Byråd 1932-1943

Maskinen kommer også med korrekte forslag til stavelser – også selvom der står en forkert stavning i den oprindelige tekst. Et eksempel er Karrebæk Sogneråd 1923-1937, hvor skribenten flere steder staver Karrebæk med ét r.  Dette retter maskinen til Karrebæk, selvom der står Karebæk i den oprindelige tekst.

Enkelte frivillige foretrækker på grund af disse småfejl derfor fortsat at transskribere på egen hånd og uden maskinel hjælp, da det for deres tildelte protokol eller foretrukne arbejdsgang ikke letter arbejdsbyrden. De fleste frivillige foretrækker trods disse småfejl dog at læse korrektur på den maskinelle oversættelse frem for selv at transskribere.

Generelt oplever de frivillige, der har siddet med korrekturlæsning af maskinskrevet tekst, at den har svært ved at lave en korrekt rækkefølge for både text regions og baselines. Linjer er ikke altid i den rigtige rækkefølge hvilket betyder en forvirrende læserækkefølge i sidste ende, når protokollen eksporteres til pdf og skal præsenteres på nettet.

Desuden er der ofte fejl ved segmenteringen i forbindelse med korrekt placering og overlap af text regions.

Text region overlapper, Næstved Byråd 1932-1943

Når det er sagt, har både de frivillige og NæstvedArkiverne haft stor gavn af fællesmodellen. Flere frivillige udtrykker således stor begejstring over modellens evner og mulighederne for fremtidens tilgængeliggørelse.

I vores daglige arbejde med forespørgsler m.m. er arkivet også begyndt at bruge modellen til andre formål end RETRO-projektet. I juni blev arkivet f.eks. kontaktet af en forsker ved SDU, der ønskede indblik i Næstved Byråds håndtering af Den Spanske Syge 1918-1920.

Den tilsvarende forhandlingsprotokol var digitaliseret, men ikke transskriberet endnu. Med fællesmodellen var det dog ingen sag og på mindre end én time havde robotten genkendt de ca. 120 sider. Der var fejl her og der, men ikke værre end at sammenhængen var til at forstå. Forskeren fik udleveret den digitaliserede protokol og den automatisk genkendte tekst, så han frit og nemt kunne søge de nødvendige oplysninger frem.

P.t. er 16 dele af protokoller fra 7 forskellige by- og sogneråd i Næstved transskriberet, hvilket svarer til 988 sider i alt. I skrivende stund er 69 protokoller fra 19 forskellige by- og sogneråd digitaliseret, hvilket svarer til 19.867 sider i alt.

Hver uge kommer vi i fællesskab lidt nærmere målet om at gøre historien søgbar og tilgængelig for alle. Det ville ikke være muligt uden RETRO!

Artiklen blev oprindelig bragt som blogindlæg d. 18/9-2020 på RETRO-Projektets hjemmeside