"DaybyDay 1860-2967" auf "Archive.org"

VON Dr. Wolf SiegertZUM Mittwoch Letzte Bearbeitung: 5. Mai 2021 um 15 Uhr 36 Minutenzum Post-Scriptum

 

0.

Dieses hier ist die Fortsetzung einer wahrlich fast ’unendlichen’ Geschichte.

Diese beginnt mit der Zuweisung einer ISSN-Nummer im Jahre 2005, die seitdem fester Bestandteil des Titels dieser Online-Publikation ist. Und sie endet bis dato nicht in der Umsetzung des Versprechens, dass diese seitdem Tag für Tag erstellten Seiten auch auf den Servern der DNB abgelegt und damit zumindest in den Lesesälen dieser Einrichtung aufgerufen und nachgelesen werden können.

2.

Das bis zuletzt vorgetragene technische ’Argument’ lautete, dass man auch nichts anderes mache als Archive.org mit seiner Wayback-Machine. Und wir haben das bislang immer einfach so hingenommen, bis jetzt.

Und, siehe da: Archive.org hat sich die Seite daybyday.org in der Zeit vom 20. Januar 2016 bis zum 3. Mai 2021 über fünfzigmal angesehen:
PNG

Wer nicht beim Öffnen dieses Links: https://web.archive.org/save/https://www.daybyday.press/spip.php?page=plan solange warten will, bis ein Screenshot dieses Archivierungsvorganges der DaybyDay-Sitemap auf archive.org angezeigt wird, mag mit diesem state-of-the-art-picture vorliebnehmen: JPEG

3.

Dieses ist ein Riesenfortschritt, auch wenn damit die Archivierung noch nicht vollständig ist, da, so Klaus Meier, "das Internetarchiv über Mechanismen verfügt, welche seine eigene Serverlast und die der archivierten Websites begrenzen."

Dazu hier als pars pro toto dieser Screenshot, der eine Zeitleiste und eine Fehlermeldung zeigt:
PNG
"Damit", so Meier weiter, "beim Öffnen der DaybDay-Startseite die weiteren Seiten zugänglich werden, wurden die bisher auskommentierten Links zur DaybyDay-Sitemap wieder veröffentlicht. Beim nächsten Durchlauf des Crawlers, so das Ziel, sollen auch diese Änderungen in das Archiv aufgenommen, und die Artikel per Sitemap für Besucher der archivierten Startseite zugänglich gemacht werden.
[..]

Wenn nun in der Wayback Machine auf archive.org die DaybDay-Sitemap geöffnet wird, hier nochmals der Link: https://web.archive.org/save/https://www.daybyday.press/spip.php?page=plan, sind alle Links zu Artikeln sichtbar, die Artikel selber sind aber zum großen Teil noch nicht archiviert.

Wenn einer dieser Links angeklickt wird, fragt die Wayback Machine, ob die Seite archiviert und in den Index aufgenommen werden soll. Das sollte man bejahen ;-)

Eine coole Angelegenheit ist die manuelle Archivierung deshalb, weil nicht nur die jeweilige Seite erfasst wird, sondern per Checkbox auch festgelegt werden kann, dass alle externen Links archiviert werden sollen. Das bekämpft tote Links und automatisiert die Erfassung von DaybyDay, denn es werden immer zusätzlich mindestens der "vorige" und "folgende" Artikel archiviert.

4.

Nachdem der Sitecache von daybyday.press gelöscht wurde, wird nun jeder Artikel mit seinem Link zur Sitemap archiviert. Ab jetzt können nach und nach alle Artikel einmal im Kontext von archive.org angeklickt werden, damit sie auf diesem Wege Eingang in das Archiv finden:
PNG
Damit "gehen wir auf Nummer sicher" und beschleunigen die Archivierung. Nach Überprüfung der HTTP-Antworten und Anpassung des Überlast-Schutz unseres Servers wird die Wayback Machine von archive.org auch ohne weiteres Zutun DaybyDay.press nach und nach vollständig archivieren.

5.

Hier nochmals das "How to": step by step:

5.0. sich anmelden [1]:
JPEG

5.1. Sitemap öffnen
https://web.archive.org/web/20210503102423/https://www.daybyday.press/spip.php?page=plan&lang=de

5.2. beliebigen Artikel öffnen und ggf. Archivierung bestätigen "Save the URL in the Wayback Machine " PNG

5.3. Parameter der Archivierung einstellen
PNG

6.

The nitty-gritty

Dass es immer wieder Probleme geben kann beim Zusammenspiels der Webserver mit dem Überlast-Schutz von der hier eingesetzten Software SPIP, die zu dem "HTTP-Fehler 302" führen kann, ist bekannt. Das mag auch dazu geführt haben, dass die Archivierung bei archive.org nicht vollständige erfolgte. Und das mag auch einer der Gründe dafür sein, warum die DNB-Dienstleister zu der irreführenden Erklärung gekommen sind, dass sich diese Seite überhaupt nicht in deren Systemwelt integrieren lassen würde.

Dieser Aussage wurde bisher immer schon mit Skepsis begegnet, aber wie soll man als Nutzer und ’nur’ durch Anwendererfahrung geprägter Laie hier wirklich eine Gegenposition aufbauen. Also jetzt erneut den Spip-Master an die Seite geholt und zum Testen und sodann zum Einrichten einer ersten kompletten Archivfassung den Überlastschutz von SPIP komplett deaktiviert.

Dass die als Kalender-Startseite auf Javascript-Basis nicht sinnvoll archiviert werden kann, war immer selbstredend, weil in der archivierten Fassung die Verbindung zwischen dem jQuery-Javascript-Plugin, welches den Kalender produziert, und seiner Datenquelle in Form einer JSON-Datei auf dem Server nicht gegeben ist.

Der Umstand, dass es solche dynamisch generierten Inhalte gibt, hat bei archive.org aber nicht zur Folge, dass die dahinter vorgehaltenen Inhalte nicht von dessen crawler bzw. spider erfasst und abgelegt werden könnten!

7.

Hier nochmals die Interdependenz von Webseite und Server als hard-core Text:

Sites spip qui disparaissent de Google
https://forum.spip.net/fr_272012.html?debut_forums=%40274600#forum274600

Erreur 503 google bot
https://forum.spip.net/fr_250920.html

Problème de couverture avec SPIP
https://www.ruebejo.fr/Probleme-de-couverture-avec-SPIP.html Screenshot

Die Fehlercodes, über die uns der DNB-Admin hätte informieren sollen, um uns eine Chance zu geben, die Archivierung zum Funktionieren zu bekommen, sind die beiden folgenden [2]:

302 Found (Previously "Moved temporarily")

"Tells the client to look at (browse to) another URL. 302 has been superseded by 303 and 307. This is an example of industry practice contradicting the standard. The HTTP/1.0 specification (RFC 1945) required the client to perform a temporary redirect (the original describing phrase was "Moved Temporarily"),[21] but popular browsers implemented 302 with the functionality of a 303 See Other. Therefore, HTTP/1.1 added status codes 303 and 307 to distinguish between the two behaviours.[22] However, some Web applications and frameworks use the
302 status code as if it were the 303."

503 Service Unavailable

"The server cannot handle the request (because it is overloaded or down for maintenance). Generally, this is a temporary state."

Wie schon oben gesagt, gibt SPIP, so abschliessend nochmals Klaus Meier, "bei überhöhter Serverlast diese Codes zurück. Sie haben den Zweck, die Serverlast nicht weiter ansteigen zu lassen. ’302’ empfiehlt ausdrücklich, es später erneut zu versuchen, während ’503’ darauf setzt, dass der Crawler ’leidensfähig’ genug ist und sowieso später wieder vorbeischaut."

P.S.

Im Zusammenhang mit all diesen Prüf-Funktionen wurde ein plugin aktiviert, das in der Lage ist, Auskunft über den Status aller seit 2004 gesetzten bzw. zitierten Links zu geben. Das Ergebnis ist, wie zu erwarten war, erschreckend:
JPEG
Ohne all diese Daten jetzt im Detail nochmals auskommentieren zu wollen, ist damit erneut unter Beweis gestellt worden, warum es - nach wie vor - wichtig ist, Passagen und Aussagen, die einem wirklich wichtig sind, zu ’cachen’ und sodann auch, oder alternativ, vom eigenen Server einzuspielen, um so deren Zugänglichkeit auf Dauer zu gewährleisten (wobei man natürlich an dieser Stelle zurecht nochmals darüber ins Grübeln verfallen mag, wenn es um eine Antwort auf die Fragen geht, was denn hier mit "auf Dauer" überhaupt gemeint sein kann ;-).

Anmerkungen

[1Welcome to the Internet Archive!
With your new Virtual Library Card, you can:
• Upload items to archive.org(video, audio, text, images) Want to learn how? Click here!
Borrow a book on Open Library, a project of the Internet Archive
• Write reviews of items on the Archive
• Post questions and messages to Internet Archive forums
• Create a list of favorites
• Manage your newsletter preferences
We hope you’ll explore all that the Internet Archive has to offer. To get you started, check out the article 10 Ways To Explore the Internet Archive for Free .


7473 Zeichen