WIP SFI AJS37

Har nyligen påbörjat ett större projekt med att OCR-skanna dokumenten för SFI AJS37 (del 1, 2 och 3). Det kommer bli mycket jobb, men väldigt givande i slutändan.

Syfte och mål

Det huvudsakliga syftet med detta projekt är att göra SFI AJS37 tillgängligt i moderna digitala format med bred kompatibilitet. Ursprungsdokumenten är PDF-filer innehållande fotokopior tagna av originaldokumenten. Detta i sig lär ha varit ett stort åtagande och gav oss entusiaster något riktigt unikt att läsa och studera. Nackdelen är att texten inte går att kopiera eller ändra, detta eftersom sidorna består av bilder, inte text.

Därför påbörjade jag resan med att konvertera dokumenten till olika digitala dokumentformat såsom Word .docx, .pdf och .odt. Dessa dokument går att kopiera, editera, spara i andra format och kan anpassas efter önskan och behov.

Målbilden är att dokumentformaten ska vara kompatibla med flera olika vanligt förekommande ordbehandlare såsom Microsoft Word, LibreOffice, Google Docs osv, se komplett lista nedan. Formaten bör även så långt som möjligt vara operativsystem-agnostiska, d vs de ska gå att öppna i Windows, Mac och Linux. Vi gillar Open Source och dokumenten bör ha hög kompatibilitet med dessa program.

För att åstakomma bästa kompatibilitet är dokumenten standardiserade, d vs de utgår från en “baseline” med minsta gemensamma nämnare. Exempelvis bör så långt som möjligt standardiserade fonter och typsnitt som t ex Arial, Times New Roman och Verdana användas. Detta ger bäst förutsättningar för att dokumenten ska se identiska ut i flera olika program. Såklart behöver rimliga kompromisser göras i vissa fall. Det viktigaste ör förstås att innehållet går att läsa som tänkt.

Dokumentformat och kompatibilitet

Grundformatet är .docx (Microsoft Word 365). Dokumenten bygger på struktur och formatering från en Word-dokumentmall (.dotx). T ex så är typsnitt, rubriker, sidhuvud/fotnot och allmän layout definierad i dokumentmallen.

Dokumenten ska i slutändan vara tillgängliga i, och kompatibla med, dessa ordbehandlare och format:

(*Dessa textfiler innehåller minimalt med formatering eller layout och kan därför vara lämpade för strukturerade dokumentationsverktyg såsom t ex LaTeX).

Upplagor

Dokumenten ska framställas i olika upplagor, beroende på syfte. Typ av upplagor kan t ex vara:

  • Replika – Dokumenten är skapade så lika originalen som möjligt med tanke på utformning, layout, typsnitt osv. Funktionaliten är inte viktig, det är utseendet och likheten till originalet som är prioriterat. T ex så finns det kanske ingen fungerande klickbar innehållsförteckning, klickbara rubriker, eller automatiserad sidnumrering. Denna upplaga är den mest tidskrävande att skapa eftersom modifieringar görs manuellt och visuellt.
  • Modern – Dokumenten är skapade för funktionalitet och bör fungera i flera olika format och mjukvaror. Skillnad i utseende och funktionalitet ska vara minimalt mellan t ex Word och Google Drive. Grunden är en Word-template. Dokumenten kan ha funktioner såsom automatisk innehållsförteckning, klickbara rubriker som b la i Word går att kollapsa, stilmallar i Word för formatering osv. Fokus på funktionalitet, men dokumenten bör följa originalutseende så långt som möjligt.
  • Text – Minimalistisk och enkel rå-text utan formatering eller särskild layout. Skapade i Notepad eller Notepad++ och av typ UTF-8. Formatet kan användas för separata processer som kräver enkel text för vidare behandling.

OCR-textkonvertering

OCR-skanningen görs med gratisprogrammet ShareX i Windows. Se artikeln <OCR-skanning med ShareX> för mer info.

Mjukvara som använts

Länkar