Der digitale Umgang mit Akten des Bundesarchivs

A. Der Weg zum Digitalisat

I. Fall 1: Durch das Bundesarchiv digitalisierte Akten

1. Übermittlung der Akten

Wer mit Akten arbeitet, die das Bundesarchiv bereits digitalisiert hat, kann sich glücklich schätzen: Die Scans werden in hoher Auflösung angefertigt und bereitgestellt. Ein Download erfolgt – unter Umständen nach Identifikation mit dem elektronischen Personalausweis – über die Rechercheplattform invenio. Bei Problemen kann man sich per E-Mail an das Archiv wenden; die Akten werden dann über eine Cloud-Lösung des Archivs bereitgestellt und können als ZIP-Datei heruntergeladen werden.

2. Umwandlung in PDF

Die einzelnen JPG-Dateien sind im Mittel etwas kleiner als 2 MB pro Datei und sehr hoch aufgelöst. Die Arbeit mit so großen Dateien kann den Rechner schnell an seine Grenzen bringen. Gut funktioniert es daher, die einzelnen JPG-Dateien zunächst zu einer PDF zusammenzufügen. Dafür empfehlen sich kostenlose Lösungen wie PDF24 auf Windows oder Vorschau auf dem Mac. Etwas schneller arbeitet Adobe Acrobat Pro, für das allerdings regelmäßig ein Abonnement erforderlich ist.

3. Reduzieren der Dateigröße

Im Anschluss ist es sinnvoll, die Dateigröße zu reduzieren, indem die Auflösung verringert wird. Bewährt hat sich dazu die Verwendung eines PDF-Druckers, in dem das Ausgabeformat auf A2 eingestellt wird. Dazu kann auf Windows PDF24 oder Adobe Acrobat Pro verwendet werden. Auf dem Mac lässt sich ein ähnliches Ergebnis mit PDF Writer erzielen.

II. Fall 2: Anfertigung eines eigenen Digitalisats im Bundesarchiv

1. Die richtige Hard- und Software

Wer im Bundesarchiv vor Ort ein Digitalisat anfertigen möchte, braucht eigentlich nur ein Smartphone mit einer einigermaßen brauchbaren Kamera und eine entsprechende Scanner-App.

Nach dem Test einiger Scan-Anwendungen sticht vFlat-Scan besonders hervor: Die App ist in einer kostenlosen Version verfügbar, die allerdings in den letzten Versionen stark eingeschränkt wurde. Wer ein Android-Handy nutzt, kann über das Internet allerdings noch eine alte Version der App beziehen. Alle Versionen vor 0.20 funktionieren ohne Einschränkungen. Wichtig ist es aber, die automatischen Updates im Playstore zu untersagen sowie mit Hilfe einer App wie Netguard sicherzustellen, dass die App keinen Zugang zum Internet herstellen kann. Der Vorteil von vFlat-Scan ist, dass die App erkennt, wenn eine Seite umgeblättert wird und im Anschluss automatisch wieder auslöst.

Wer eine Schwanenhals-Handyhalterung (ca. 15€ auf Amazon) besitzt, kann das Smartphone darin einspannen und über den Akten positionieren. Man muss dann nur noch umblättern und die App macht den Rest.

Als Alternativen eignen sich CamScanner und GeniusScan, die inzwischen ebenfalls automatisch auslösen können. Bislang fehlt allerdings eine Funktion für das Einscannen von Doppelseiten und Büchern.

2. Übertragung auf den Rechner

Aus vFlat-Scan kann man mittels der Teilen-Funktion die generierte PDF-Datei direkt in eine Cloud-Lösung hineinteilen. Wer häufig Scans anfertigt, kann auch eine App wie FolderSync installieren, die automatisch jede generierte PDF in eine vorher definierte Cloud lädt und im Anschluss automatisch auf dem Smartphone löscht.

B. Texterkennung der Akten

I. Warum eine Texterkennung sinnvoll ist

Eine Texterkennung ersetzt natürlich nicht das Lesen der Akten. Eine Texterkennung hilft aber, die Akten schneller zu erschließen und erleichtert das Wiederfinden von bereits gelesenen Dokumenten. Mittels der Suche in der PDF-Software kann auch die Häufigkeit von Begriffen überprüft werden. Nach einer Indexierung der Dateien kann man sich alle Akten anzeigen lassen, die einen bestimmten Begriff oder Namen enthalten.

II. Welche Lösungen es gibt

OCR-Lösungen gibt es viele, von denen ich einige ausprobiert habe. Das quelloffen von Google entwickelte Tesseract dürfte die beste freie Lösung sein. Einen Client gibt es mit gImageReader zumindest für Windows und Linux. Wer in seinem Google Drive eingestellt hat, dass alle PDF-Dateien durchsuchbar gemacht werden sollen, kann die Erkennung auch dort nutzen. Sie funktioniert ordentlich, aber nicht perfekt.

Die Texterkennung in Adobe Acrobat Pro ist auf ähnlichem Niveau wie Tesseract und für Windows und Mac verfügbar.

Wer einen Mac mit einem Apple Silicon-Chip (alles ab M1) besitzt, kann auf die beste Lösung zugreifen: Apple liefert inzwischen standardmäßig eine KI-basierte Erkennungssoftware mit, die alle anderen Lösungen in den Schatten stellt. Wer sie für PDF-Dateien nutzen möchte, braucht nur eine kleine kostenlose App, die auf den Namen OwlOCR hört. Nach der Installation wird im Kontext-Menü jeder PDF-Datei die Option „Create Searchable PDF“ angezeigt, die den Prozess startet. Erfahrungsgemäß dauert die Erkennung von 1000 Seiten etwa 20 Minuten.

Als Cloud-Lösung ist auch Transkribus (kostenpflichtig) empfehlenswert, das zusätzlich alte Handschriften erkennen kann.

III. Die richtige Datei finden

Auf dem Mac indexiert die Spotlight-Suche automatisch die Dateien. Wer mit cmd+Leertaste die Suche startet, kann dort also nach einem Begriff suchen und bekommt alle Dateien angezeigt, die ihn enthalten. Auf Windows ist mir bislang keine ähnlich gut funktionierende Alternative bekannt.

C. Linkliste


Beitrag veröffentlicht

in

von