„Die Presse“: Ein Teil von Österreichs kulturellem Erbe

(c) Die Presse (Michaela Bruckberger)
  • Drucken

Alle „Presse“-Ausgaben bis zum Jahr 1937 können ab sofort online im Internet abgerufen werden.

Wie sich die Zeiten ändern. „Die parlamentarische Krise ist wieder beseitigt“, vermeldete die „Neue Freie Presse“ am 9. Juli 1908, also vor exakt 100 Jahren. Was sich sonst noch an diesem Tag in Wien, in Mitteleuropa und in der Welt getan hat, kann man seit einigen Tagen ganz einfach nachlesen: in ANNO („Austrian Newspapers Online“) auf der Homepage der Österreichischen Nationalbibliothek (ÖNB).

Die „Neue Freie Presse“ (ab 1864) sowie „Die Presse“ (1848 bis 1896) – Teil von „Österreichs kulturellem Erbe“, so Christa Müller, Leiterin der „Digital Services“ der ÖNB – sind der jüngste Zugang in ANNO. In diesem System werden seit dem Jahr 2003 sukzessive historische Tageszeitungen und Magazine digitalisiert. Mehr als vier Millionen Zeitungsseiten aus 80 Publikationen sind derzeit enthalten, jährlich kommen eine Million Seiten neu hinzu. Da die Wiener Nationalbibliothek auch schon zu Zeiten der Monarchie die Pflichtablieferungs-Bibliothek für alle Kronländer war, finden sich nicht nur Gazetten aus dem jetzigen Österreich, sondern unter anderem auch das Prager Tagblatt oder die Pester Lloyd.

Der Tag, an dem die historischen Ausgaben der „Presse“ bis zum Jahr 1937 online gegangen sind, brachte dem Server der ÖNB gleich rekordverdächtig viel Arbeit ein: 1700 Zugriffe waren fast doppelt so viele wie gewöhnlich. Aber auch die im Schnitt 900 Zugriffe, die die Zeitungsdatenbank täglich verzeichnet, ist eine imposante Zahl: „Im digitalen Lesesaal sitzen genau so viele Leute wie im wirklichen Lesesaal“, sagt Müller.

Spiegelbild der Zeitgeschichte

Dass auch alte „Presse“-Ausgaben nun digital abrufbar sind, so berichtet Müller, sei ein Wunsch von vielen Forschern und Interessierten gewesen. Vor allem aus Israel und den USA – was auch der Leiter des Archivs der „Presse“, Günther Haller, bestätigt. Aus Israel gingen stets viele Anfragen wegen des früheren „Presse“-Mitarbeiters Theodor Herzl ein, in den USA ist die Habsburger-Monarchie-Forschung sehr aktiv. Die „Presse“, die seit dem Jahr 1848 erscheint – in der Vorwoche feierten wir unser 160-jähriges Jubiläum –, ist so etwas wie das Spiegelbild der Donaumonarchie, der Ersten und der Zweiten Republik. Online sind alle Ausgaben, die älter als 70 Jahr sind – die also nicht mehr durch das Copyright geschützt sind.

Die Digitalisierung erfolgte durch zwei Verfahren: Bei gebundenen Archiv-Exemplaren wurde die schonende Methode des Auflicht-Scannens angewandt. Der Großteil der Bestände wurde hingegen mit schnelleren und billigeren Durchlauf-Scannern abgelichtet – bis zu 30.000 Seiten pro Woche. Die ÖNB musste ihre Archivbände dazu nicht zerschneiden, denn die gescannten Seiten stammten aus der British Library, die ihre Sammlung aufgelöst hatte.

Volltextsuche in den „Digitalisaten“

Das Erstellen der „Digitalisate“ ist freilich nicht der ultimative Schlusspunkt der Digitalisierung. Fernziel ist vielmehr echter digitaler Volltext, auf den alle modernen Methoden der Textverarbeitung angewandt werden können – von der Volltextsuche bis zur Verlinkung. Mit Abtippen geht freilich angesichts der Abermillionen Seiten von Tausenden Zeitungen und Zeitschriften gar nichts. Leisten soll das eine Methode namens OCR („optical character recognition“), die die Scans zu elektronischem Text macht. Diese Methode ist für moderne Bücher oder Computerausdrucke weitgehend ausgereift. Bei historischen Druckwerken funktioniert OCR aber noch nicht, erläutert Müller. „Zeitungsseiten sind eine Herausforderung.“

Die Probleme sind zahlreich. Das beginnt bei der Schrift. „Es gibt noch keine gute Fraktur-OCR“, so die Expertin. Nicht nur deshalb, weil die Schriftzeichen oft nicht gut unterscheidbar sind, sondern auch, weil in Zeitungen viele verschiedene Schriftarten verwendet wurden. Schwierigkeiten macht auch der mehrspaltige Druck: Vielfach sind die Spalten nicht durch Linien getrennt, die Software tut sich daher schwer, einen Spaltenwechsel von einem Leerzeichen im Lauftext zu unterscheiden. „Bei schmalen Spalten kann ein Viertel des Textes fehlen“, sagt Müller. Eine Herausforderung sind zudem die Qualität des Papiers – Zeitungspapier verbräunt rasch – und des Druckes. „Zeitungen sind Gebrauchsgegenstände, bei Büchern ist die Druckerschwärze viel gleichmäßiger aufgetragen“ , so die Expertin.

Die ÖNB ist an einem EU-Forschungsprojekt namens „Impact“ beteiligt, das die Digitalisierung deutlich verbessern will. Partner in dem mit 11,5 Millionen Euro geförderten Projekt sind unter anderem die British Library, die Deutsche Bibliothek, die Bibliothèque nationale de France oder IBM. Ziel ist es, das europäische Kulturerbe in digitaler Form zugänglich zu machen.

Die ÖNB hat in „Impact“ mehrere Aufgaben übernommen: Geleitet wird das Sub-Projekt „Enhancement and Enrichment“. Dahinter verbirgt sich unter anderem der Aufbau von Personen- und Ortslexika aller Kronländer der Monarchie. Ein Problem sind etwa die vielen (auch fehlerhaften) Schreibweisen: Die OCR-Software vergleicht seine Ergebnisse mit Lexika-Einträgen, und nur wenn ein Eintrag gefunden wird, gilt das von Computer Gelesene als richtig erkannt. „Wir extrahieren Nachnamen und Ortsnamen aus alten Verzeichnissen der Habsburger-Monarchie“, berichtet Müller.

Pilot-Projekte laufen

Die Wiener Experten koordinieren weiters die Implementierung von OCR-Pilotsystemen an den beteiligten Bibliotheken, in denen neue Verfahren ausprobiert werden. Die Industrie arbeitet derzeit etwa an selbstlernenden „Lese“-Algorithmen. Die Entwicklung dauert aber seine Zeit: „Wir haben Pilot-Projekte laufen, die ersten Teilergebnisse werden wir in eineinhalb bis zwei Jahren bekommen“, so Müller.

SCANNEN STATT MIKROFILM

http://anno.onb.ac.atMikrofilme waren in den letzten Jahrzehnten das beliebteste Medium, um empfindliche Bibliotheksbestände zugänglich zu machen. Sie halten theoretisch bis zu 500 Jahre, in der Praxis haben sie aber Probleme: Sie sind unhandlich, für die Augen ermüdend, das Durchsuchen ist mühsam – und sie gehen beim Gebrauch kaputt.

Das Zeitalter der Mikrofilme geht nun zu Ende. Immer mehr Bibliotheken setzten auf das Einscannen der Originale – auch bei historischen Zeitungen wie der „Presse“, deren Ausgaben von 1848 bis 1937 in der Vorwoche online gegangen sind.

Die Nationalbibliothek kann die Originale künftig noch besser schützen: Nach der Digitalisierung landen sie bei optimalen Bedingungen im Depot. Wer trotzdem nicht auf das Erlebnis verzichten will, historische Zeitungen im Original zu studieren, kann das im „Presse“-Archiv machen.

("Die Presse", Print-Ausgabe, 09.07.2008)

Lesen Sie mehr zu diesen Themen:


Dieser Browser wird nicht mehr unterstützt
Bitte wechseln Sie zu einem unterstützten Browser wie Chrome, Firefox, Safari oder Edge.