WIP SFI AJS37

Översikt

Har påbörjat ett större projekt med att OCR-skanna dokumenten för SFI AJS37 (del 1, 2 och 3).

Syfte och mål

Det huvudsakliga syftet med detta projekt är att göra SFI AJS37 tillgängligt i moderna digitala format med bred kompatibilitet. Ursprungsdokumenten är PDF-filer innehållande fotokopior tagna av originaldokumenten. Detta i sig var ett stort åtagande och gav oss entusiaster något riktigt unikt att läsa och studera. Nackdelen är att texten inte går att kopiera eller ändra, detta eftersom sidorna består av bilder, inte text.

Därför påbörjade jag resan med att konvertera dokumenten till olika digitala dokumentformat såsom Word .docx, .pdf och .odt. Dessa dokument går att kopiera, editera, spara i andra format och kan anpassas efter önskan och behov.

Målbilden är att dokumentformaten ska vara kompatibla med flera olika vanligt förekommande ordbehandlare såsom Microsoft Word, LibreOffice, Google Docs osv, se komplett lista nedan. Formaten bör även så långt som möjligt vara operativsystem-agnostiska, d vs de ska gå att öppna i Windows, Mac och Linux.

För att åstakomma bästa kompatibilitet är dokumenten standardiserade, d vs de utgår från en “baseline” med minsta gemensamma nämnare. Exempelvis bör standardiserade fonter och typsnitt som t ex Arial, Times New Roman och Verdana användas. Detta ger bäst förutsättningar för att dokumenten ska se identiska ut och med likvärdig funktionalitet oavsett hur de öppnas. Såklart behöver rimliga kompromisser göras i vissa fall. Det viktigaste ör förstås att innehållet går att läsa som tänkt.

Dokumentformat och kompatibilitet

Grundformatet är .docx (Word 365). Dokumenten bygger på struktur och formatering från en Word-dokumentmall (.dotx). T ex så är typsnitt, rubriker, sidhuvud/fotnot och allmän layout definierad i dokumentmallen.

Dokumenten ska i slutändan vara tillgängliga i, och kompatibla med, dessa ordbehandlare och format:

Upplagor

Dokumenten ska framställas i olika upplagor, beroende på syfte. Typ av upplagor kan t ex vara:

  • Replika – Dokumenten är skapade så lika originalen som möjligt med tanke på utformning, layout, typsnitt osv. Funktionaliten är inte viktig, det är utseendet och likheten till originalet som är prioriterat. T ex så finns det ingen fungerande klickbar innehållsförteckning, klickbara rubriker, eller automatiserad sidnumrering. Denna upplaga är den mest tidskrävande att skapa eftersom modifieringar görs manuellt.
  • Modern – Dokumenten är skapade för funktionalitet och bör fungera i flera olika format och mjukvaror. Skillnad i utseende och funktionalitet ska vara minimalt mellan t ex Word och Google Drive. Grunden är en Word-template. Dokumenten har funktioner såsom automatisk innehållsförteckning, klickbara rubriker som b la i Word går att kollapsa, stilmallar i Word för formatering osv. Fokus på funktionalitet, men dokumenten bör följa originalutseende så långt som möjligt.
  • Text – Enkel rå-text i Notepad eller Notepad++

OCR-textkonvertering

OCR-skanningen görs med gratisprogrammet ShareX i Windows. Se artikeln <OCR-skanning med ShareX> för mer info.

Mjukvara som använts

Länkar