Archive im DB-Modus (I)

VON Dr. Wolf SiegertZUM Montag Letzte Bearbeitung: 15. Januar 2015 um 20 Uhr 35 Minuten

 

Heute ist der erste Tag der Frühjahrstagung 2008 der Fachgruppe 7 Medoc, der Medienarchivarinnen und -archivare im Verband deutscher Archivarinnen und Archivare e.V., die sich mit dem Titel "Grenzüberschreitungen. Medien und Archiv auf neuen Wegen" gleich eine ganze Reihe von Herausforderungen gestellt hat.

Mit dem hier gesetzten Arbeitstitel: "Archive im Digital Broadcast Modus" soll das schon mehrfach dokumentierte Interesse von "DaybyDay" an der Frage signalisiert werden, wie in den Zeiten der Digitalisierung und digitalen Ausstrahlung und Verwertung von Inhalten das inhaltlich Relevante eines Archives über die paradigmatisch hohe Mauer zwischen analogen und digitaler Welt hinweggehoben werden kann, ob dieses überhaupt geht und - wenn ja - wie?

Nach einem vorabendlichen Treffen am Sonntag, den 20. April 2008 im Restaurant »Zur Gerichtslaube« in der Ratsherrenstube, Poststraße 28,
im Nikolaiviertel, beginnt die eigentliche Tagung im Foyer des Europasaals des Auswärtigen Amtes am Werderscher Markt 1, Eingang Oberwasserstraße in 10117 Berlin.

Nachfolgend eine Übersicht über den Programmablauf (kursiv) sowie, darin eingefügt, einige direkt vor Ort eingetragene Beobachtungen, Notizen und Anmerkungen.

11:00 Begrüßung
 Hans-Gerhard Stülb (Vorsitzender der fg7)

11:10 Grußwort
 Dr. Ludwig Biewer (Auswärtiges Amt Berlin)

11:20 Grußwort des VdA
 Dr. Robert Kretzschmar (Landesarchiv Baden-Württemberg, Stuttgart)
Eröffnungsvortrag

11:30 Grenzüberschreitungen – Digitalisierung und Archivpolitik
 Prof. Dr. Thomas Macho (Humboldt-Universität zu Berlin)

Da am Vormittag eine Teilnahme nicht möglich war, wurden nach dem Eintreffen in der Mittagspause eine Reihe von Teilnehmern nach ihrem Eindruck über den Einführungsvortrag gefragt. Die Antworten, von denen hier drei Beispiele im Wortlaut zitiert werden, waren – einmal die Schüchternheit und / oder Zurückhaltung überwunden – fast alle von dem gleichen Tenor [1]:

"Wenn ich gewusst hätte, was mir da heute Vormittag angeboten werden würde, wäre ich noch ins Archiv gegangen und erst am Mittag gekommen."

"Der Mann hat echt geglänzt – aber für mich war das, was er da gesagt hat auf dem Hintergrund der eigenen Erfahrungen alles andere als glänzend."

"Ein sehr interessanter historischer Diskurs. Aber das Thema – und was uns hier daran interessieren könnte – war leider total verfehlt."

Auch zum Mittag gibt es tagungstechnisch eine Reihe von Kritikpunkten aus Teilnehmerkreisen. Es wurde kein Mittagstisch angeboten, so dass man ins "Umland" ausschwärmen musste und dann nach der Rückkehr erneut durch die Sicherheitsschleuse, was schlussendlich zu einer deutlichen Verzögerung des eigentlichen Tagungsbeginns führte. [2]

12:45 Begrüßung und Informationen für neue Mitglieder und Nicht-Mitglieder der Fachgruppe 7 im VdA
Newcomer-Treff Foyer Europasaal
Moderation: Frank Dürr, Uta Rosenfeld, Ralph Schmidt

Diese Begegnung war von einer ebenso erfrischenden wie professionellen Art. Gerade die vielen jungen Leute, die oft als Volontäre oder Studenten dabei sind, sich in dieses Geschäft einzuarbeiten, sind an dieser Stelle zahlreich vertreten und erhalten sogar kurz die Möglichkeit, sich alle persönlich untereinander vorzustellen. Prima!

Es gelten die Regeln des Urheberrechts all rights reserved

Block 1: Neue Werkzeuge für Indexierung und Recherche
Moderation: Günter Peters (Gruner + Jahr, Hamburg) Europasaal

Wir haben ja in den letzten Jahre immer über Google gesprochen aber bislang nicht darüber nachgedacht, was wir im Schatten dieses Giganten selber zu leisten - und anzubieten haben.

Es ist also Zeit, dass wir uns mit den eigenen Mitteln und Möglichkeiten beschäftigen.

14:00 Neue Entwicklungen im Bereich der Suchmaschinen(technologie)
 Prof. Dr. Dirk Lewandowski (HAW Hamburg)
 [3]

"Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kongnitive udn zeitliche Energie aufzuwenden".
Diese Aussage von Machill und anderen aus dem Jahr 2003 ist heute immer noch gültig: Es werden nach wie vor kaum mehr als 1,7 Worte eingegeben werden, 50% der Anfragen sind Einwort-Anfragen und bei den Suchergebnissen zumeist kaum mehr als die ersten 10 Treffer ausgesucht werden. Mehr noch: der erste Treffer wird auch am häufigtsten angeklickt. Und die Entscheidung für diesen Treffer ist 0.9 Sekunden!

Das spannendste [sic!] ist aber, dass die Nutzer dennoch mit den Ergebnissen ihrer Recherchen durchaus zufrieden sind.

Was bedeutet das?
 Man muss neu über die Treffermengen nachdenken. Nicht die Vielzahl der Dokumente ist von Bedeutung, sondern ihre Relevanz.
 Die Nutzer wollen nur, dass die Suche "funktioniert"
 Der Trend zu kostenlosen Informationen im Netz bleibt erhalten.
 Die Dominanz von Google und Yahoo ist nicht allein durch die Qualität der Suche begründet
 Es gibt keine Suchmaschine, die in allen Fällen für alle Fragen die jeweils besten Ergebnisse liefert.
 Allgemeine Anfragen werden immer mehr mit Übersichtsdarstellungen beantwortet, Spezialanfragen mit auf dieses Thema spezialisierten Treffern
 Die Frage nach der Verlässlichkeit der Dokumente bleibt nach wie vor ungeklärt, entschieden wird nach der vom Be-Sucher empfundenen Qualität
 Die Nutzer übersehen allerdings oft die Tabs und lesen lieber die Kurztextzeilen, die die Inhalte signalisieren.

Im Web 2.0 gibt es neue Möglichkeiten, hier besser zu werden, und zwar durch
 Social Bookmarking wie Mr. Wong in Deutschland und del.icio.us
 Frage-Antwort-Dienste wie Yahoo Clever und Lycos.IQ
In beiden Fällen ist es erstaunlich, wie viel Bereitschaft es gibt auf solche Bookmarks und Anfragen zu antworten. Aber eine wirkliche Qualitätssteigerung ist auf diesem Wege nicht festzustellen. Allenfalls durch "Mashups", also einer Verknüpfung der beiden Welten.

Die professionellen Anbieter beginnen daher mit einer zunehmenden Durchmischung der Datenquellen. In Zukunft werden nicht nur Texte untereinander gemischt werden, sondern diese sogar mit aller Art von multimedialen Daten wie Bilder und Videos.

Bei Google nennt sich das "Universal Search". Yahoo hat ein ähnliches Angebot. Das ist das eine Modell.
Bei ASK kann man - allerdings bisher nur in der US-Version - auf folgendem Wege finden. Die Textdokumente bleiben untereinander erhalten. Und auf der rechten Seite finden sich weitere Einträge zu den Bereichen "Images", "Encylopedia" und "Video". Das ist das andere Modell.

Man muss sich also:
 an das Nutzungsverhalten der "user" anpassen
 das Rankingverfahren optimieren
 die Ergebnisdarstellung soll den Nutzerwünschen angepasst werden.

14:30 Suchtechnologien jenseits von Google bzw. die Möglichkeiten semantischer
Suche
 Frau Silke Grossmann (IMAC, Berlin)
 [4]

15:00 Online meets Indexing – die F.A.Z-Verschlagwortung als Basis des neuen GENIOSMedienarchivs
 Dr. Jochen Ganzmann (F.A.Z., Frankfurt am Main)
 Markus Rohjans (Genios, München)

Das Ziel sei "die Entwicklung eines attraktiven Angebots zur elektronischen Informationsversorgung in Medienhäusern."

Grundlage sind das F.A.Z.-Archiv als Medienarchiv sowie "Medienrelevante Fremdpresse" und die Medienfachpresse sowie ausgewählte Fachzeitschriften:
 heute sind nicht nur Redaktion und Verlag die Nutzer, sondern die Endnutzer
 es muss alles in möglichst kurzer Zeit geschehen
 die thematische Breite bestimmt die Darstellung der Inhalte mit

Die Aufgabe des Lektorates ist es vor allem: Redundanzen zu verringern und die Informationen zu "verdichten". Im Kern geht es darin, Dossiers zu erstellen, die frei sind von Wiederholungen. Die Indexierung geschieht dabei sozusagen "halbautomatisch" - und das mit einer hohen Indextiefe. Im angeschlossenen GENIOS - Medienarchiv werden die Themen in 5.800 Klassen und 40 Sachgebieten erfasst. Es wird sowohl themenspezifisch indexiert als auch nach Namen, nach Firmen, nach Ländern, nach Rezensionen, sowie nach Werktiteln und Rezensionen.

Vorteile:

 ein einheitliches Indexierungsvokabular
 über eine Indexierung wird auch eine Relevanzbewertung vorgenommen
 eine skalierbare Suchmöglichkeit, die je nach Bedarf eingesetzt werden kann
 hohe Variabilität
 hohe Aktualität

Wie aber glingt diese "Quadratur des Kreises", also eine Schnellsuche für den Endnutzer bis hin zur Profisuchmaske für den eigenen Mitarbeiter?
Man orientiert sich dabei weitgehend an das Retrieval von www.genios.de und bietet für den ca. 1 Million Volltext-Quellen zwei besondere Dienste an, die man im Medienumfeld für wichtig hält:

 Eine Taxonomie mit über sechtausend Begriffen soll über ein Ajax-Interface über einen Suchbaum erfasst und dargestellt werden

 Mit der assoziativen Suche ist man in der Lage, auch bei unscharfen Begriffen zu "indutitiv" gefundenen Ergebnissen zu gelangen.

Allerdings sind die Genios-Daten nicht (bzw. nicht so intensiv) verschlagwortet, wie das im F.A.Z. Archiv der Fall ist.

"Für Medienarchivare und Dokumentare ist das sensationell für das, was sie machen", sagt ein TV-Kollege aus der Schweiz und fragt, wie es denn mit einem solchen Angebot weitergeht. Das Textarchiv hat 19 Dokumentare die daran mit-arbeiten.

"Das Produkt ist soweit fertig, dass wir uns trauen, es zu vermarkten".

Die Nutzung soll in den Verlagen flächendeckend eingeführt werden.

Es gelten die Regeln des Urheberrechts all rights reserved

Block 2: Strukturen der Retrodigitalisierung Europasaal
Moderation: Ulrike Mackenroth (F.A.Z., Frankfurt am Main)

16:00 Das Archiv der ZEIT – Digitalisierung und Erschließung
 Peter M. Buhr (ZEIT online, Hamburg)

Die erste Digitalisierungsphase ist das Scannen in ein TIFF-Format.
Die zweite Phase ist die der Umwandlung bzw. Neuerfassung im PDF-Format.
Die dritte Phase ist der immer noch währende Kampf mit der OCR. Erschwerend kommt hinzu, dass man mit der Zeit zwar viele Design-Preise gewinnt, aber von den Computern nur schwer gelesen werden kann. Ein weiteres Problem ist die Tatsache, dass diese über mehr als eine Seite gehen, die Text aber nur seitenweise erfasst werden (konnten).

170.000 Seiten konnten ab 2003 digital abgelegt werden. Der Zugang ist öffentlich. Die Finanzierung geht über die Werbung.

2004 entstand dann das erste in einem Zeit-Lexikon in 20 Bänden - und das war ein erster grosser kommerzieller Erfolg. Und diese Idee wurde in viele weiter Publikationsreihen fortgesetzt. Diese neuen Bände sind Ergebnis der Digitalisierung. Aber verkauft werden können sie nur - nach wie vor - als Bücher.

Ein PDF ins Interent stellen? Die Rechte an den meisten Texten waren zwar geklärt, aber nicht an den Bildern. Also wurden die Inhalte als echte Texte rekonstruiert und als XML-Datei abgelegt.

"Wer - wann - wo"? Nach diesen Verzeichnis-Fragen werden alle Texte durchsucht und unter den drei bezeichnenden Elementen abgelegt.

Die Frage: "was" steckt im Text wird auf der lexikalischen Ebene abgelegt. Zur Zeit in Zusammenarbeit mit Meyers. Weiterhin wird nach Texten mit einer hohen Ähnlichkeit gesucht.

Die Frage: "Warum" dagegen lässt sich nach wie vor nicht von dem Computer beantworten.

16:30 Retrodigitalisierung in Schweizer TV-Archiven – videotechnische und
dokumentarische Herausforderungen
 Felix Rauh (Memoriav, Wetzikon)

Mit Retro-Digitalisierung ist der Versuch gemeint, wirklich das gesamte Datenkonvolut in ein File-Format zurückzuführen. Dazu gehören also auch Daten, die bislang in digitalem Format auf Bändern abgelegt worden sind.

Dieses ist von besonderer Herausforderung, da es in der Schweiz keine besondere Archivierungspflicht gibt. Und es gibt in vielen Fällen dafür auch kein eigenes Archiv.

Es gibt inzwischen drei Arten für die Digitalisierung:
 beim Privatfernsehen geht das so gut nicht wie nicht, mangels Geld udn Perspektive [5]
 bei einem Regional-TV-Anbieter gibt es einen solchen Versuch
 das Schweizer Fernsehen versucht dieses erstmals und vollständig.

Die Frage nach dem Archivformat geht noch weiter, da mit HDTV noch neue Anforderungen dazukommen.

 Jürg Hut (Schweizer Fernsehen, Zürich)

Er stellt sich vor als Leiter der Archivüberspiegelungen, und nicht als Videotechniker oder Systemingenieur.

Medienbrüche hat es schon vielen gegeben. Und der von den Bandträgern zu den filebasierten Trägern ist der Grösste. Dafür bedarf es einer Überspielstrategie.

200.000 Stunden sollen bis 2014 digitalisiert sein.

Zunächst die neuen Materialen und alsdann nicht zu lange warten mit den alten U-Matic bzw. Beta-Bestände. Bei den Entscheidungen nach der Selektion wird heute eher "en bloc" digitalisiert.

Die Formatfrage wird im digitalen Bereich sehr viel schwieriger. Ein SFX-File ist leider heute nicht mehr so einfach auszulesen wie früher ein Beta-SP-Band. Ebenfalls gibt es die Frage nach dem Format der Player. Und die Entscheidung fiel für einen Multiformat-Player.

Nach der Digitalisierung geht es vor allem um die ebenfalls sehr aufwendige Erfassung in einem Content-Management-System. Dabei wird klar, dass ein File ohne seine Metadaten keinen Wert haben wird. Weiterhin muss der Timecode durch einen Frame-Count-System ergänzt werden. Und es muss ein "End-of-Recording"-Befehl angewandt werden, damit die Ausspielung zwei Minuten nach dem Ende der Sendung abschaltet wird, auch wenn der Timecode in den vorkodierten Bändern noch bis zu derem jeweiligen Ende weiterläuft.

17:00 Audio-Masseneinspielung und die dokumentarische Umsetzung beim WDR
 Dirk Bodmann (WDR, Köln)
 [6]

Was folgt ist ein echter Werkstattbericht, der mit allen Stufen der Digitalisierung und der nachfolgenden Verarbeitung der so gewonnenen Daten vertaut macht.

Hier nur einige Infos über das digitale Archiv, dem ein vorgeschaltetes Sendesystem abgelegt ist:
 2 x 125 Terrabyte in Stufe 1 auf der Basis der Archimedes Datenbank
 Fast alle Dateien werden im WAV - Format eingeführt
 im Audio-Format dominiert RF 64 mit 64 kbit/s sind Standard.
 Beim Ein- als auch beim Ausspielen wird ohne Wasserzeichen gearbeitet.
 Die Datenbank ist Oracle und die Verwaltungssoftware ist SAP.
 Ziel ist die Digitalisierung von 250.000 CDs und ca. 2.7. Mio Aufnahmen
 Ist-Zustand sind 83.532 eingespielte CDs und 1 Mio Aufnahmen.

19:00 Rathausempfang im großen Saal der Berliner Senatskanzlei Rathausstraße 15, Grußwort:
 Staatssekretärin Barbara Kisseler (Chefin der Senatskanzlei)

Anmerkungen

[1Da die Ausführungen zu einem späteren Zeitpunkt als Audio-Mitschnitt zur Verfügung gestellt werden, sollen sich die LeserInnen an dieser Stelle dann selber eine Meinung bilden.

[2Zitat des ersten Moderators: "Wir müssen uns wohl für die nächsten Tage merken, dass man eine zeitlang braucht, bevor man wieder in den Saal zurückkommen kann."

[4kann wegen der Krankheit ihres Kindes nicht teilnehmen.

[5Wenn ein Sender nur 100 Stunden pro Jahr digitalisieren möchte sind das 13 Terrabyte, ungespiegelt.

[6Mails für Nachfragen können geschickt werden an: dirk.bodemann@wdr.de, werner.obermann@wdr.de,
sandra.wolf@wdr.de


 An dieser Stelle wird der Text von 15421 Zeichen mit folgender VG Wort Zählmarke erfasst:
37a54d3efe9b6422af9b29353dfd24