Seite 1 von 2

Archivierung von Netzinhalten

Verfasst: 29.05.2007, 15:30
von BENDET
Dazu bitte erst einmal hier lesen.

Klick!

Und jetzt:

Wie versteht ihr das und was haltet ihr davon. Zumutbar? Übertriebener Aufwand? Was ist eurer Meinung nach alles betroffen?

Etc....

Verfasst: 29.05.2007, 17:28
von TentakelTommy
1) Sinnvoll und
2) für einen Privatmenschen erstmal kein Grund zu Panik ;)

Verfasst: 29.05.2007, 17:34
von DasJan
1) Nicht sinnvoll und
2) viel zu schwammig formuliert und
3) zu jeder Menge unnötiger Arbeit führend und
4) wieder mal ein Anzeichen dafür, dass die Gesetzgeber ab und zu mal einen IT-Experten befragen sollten.

Warum machen die's nicht einfach wie web.archive.org?

Das Jan

Verfasst: 29.05.2007, 17:52
von TentakelTommy
Weil archve.org genau da nicht funktioniert wo man es braucht? ;)

Aber da du es schon ansprichts: Scheinbar scheint bereits jetzt der Bedarf an einem Archiv vorhanden zu sein - warum dann in 100 Jahren kein komplettes Backup haben?

Verfasst: 29.05.2007, 18:03
von DasJan
Archive.org mag nicht vollständig sein, aber das soll die Bundesregierung ja nicht davon abhalten, es besser zu machen. Ich zweifle nur daran, dass es überhaupt möglich ist, so viel Speicherkapazität anzuhäufen, um regelmäßige Dumps des gesamten Internet zu speichern. 99%+ dürften auch überhaupt nicht erhaltenswert sein.

Wieso verpflichtet der Bund Website-Betreiber, ihre Seiten aufwändig aufzubereiten, zu komprimieren und da einzureichen, anstatt sich die Sachen einfach selbst aus dem Netz zu saugen?

Das Jan

Verfasst: 29.05.2007, 18:04
von max_power
Die Idee, die Informationen aus dem Web zu archivieren finde ich ja ganz schön, aber was da wieder draus gemacht wird...

Allerdings einer der kleineren Punkte der aktuellen Deutschen Gesetztes- und Innenpolitik über die ich hier nur den Kopf schütteln kann...

Verfasst: 29.05.2007, 18:48
von TentakelTommy
DasJan hat geschrieben:Wieso verpflichtet der Bund Website-Betreiber, ihre Seiten aufwändig aufzubereiten, zu komprimieren und da einzureichen, anstatt sich die Sachen einfach selbst aus dem Netz zu saugen?
Das dürfte daran liegen, daß man die Bücher auch alle zugeschickt bekommt und nicht kauft. Warum also eine bestehende (& funktionierende) Vorgehensweise ändern?...
Im übrigen meine ich gelesen zu haben, daß man auch irgendwo (s)eine URL angeben kann und der Sachbarbeiter bemüht dann "Seite speichern unter".
Ne, ein Spider soll ja in Arbeit sein, wird sicherlich auch bald fertig ;)

Fazit: Idee gut, Gesetz schwammig - und wie es umgesetz werden soll/kann weiß auch keiner.

Verfasst: 29.05.2007, 19:15
von DasJan
Grundsätzlich finde ich die Idee eines Archivs ja auch gut, nur die Umsetzung ist erbärmlich. Wenn man einfach jede Menge Festplatten kauft und einen Spider einsetzt, ist alles wunderbar und die können sich sogar selber aussuchen, welche Seiten sie archivieren wollen. Dann braucht es keine schwammigen Gesetzestexte, bei denen wieder keiner weiß, ob er angesprochen ist, und es werden auch nicht 20 verschiedene Formate in 40 verschiedenen Komprimierungen angeliefert, von denen in 20 Jahren niemand mehr weiß, wie man sie liest.
TentakelTommy hat geschrieben:Warum also eine bestehende (& funktionierende) Vorgehensweise ändern?
Die Vorgehensweise besteht und funktioniert ja noch nicht. Druckwerke sind was völlig anderes als, äh, nichtkörperliche Werke, oder wie das hieß. Die bestehende Vorgehensweise wäre die von Archive.org oder dem Google-Cache. Von so einem System, wie es jetzt eingeführt wird, habe ich jedenfalls noch nicht gehört.

Das Jan

Verfasst: 30.05.2007, 08:23
von Persisteus
Wieso verpflichtet der Bund Website-Betreiber, ihre Seiten aufwändig aufzubereiten, zu komprimieren und da einzureichen, anstatt sich die Sachen einfach selbst aus dem Netz zu saugen?
Das wäre wohl noch aufwändiger, weil Internetseiten oft viele Daten enthalten, die mit der eigentlichen Publikation nichts zu tun haben (z.B. Werbung, Menüstruktur, Designgrafiken). Auch sind viele Daten nur schwer zugänglich (z.B. Flash-Seiten).

Ich denke, es wird nicht allzu viel Aufwand sein, alle Artikel mit einem PHP-Script als HTML-Datei auszuspucken und als ZIP-Datei zu packen. Ich denke, was anderes wollen die auch gar nicht...

Verfasst: 30.05.2007, 17:13
von DasJan
Persisteus hat geschrieben:(z.B. Werbung, Menüstruktur, Designgrafiken). Auch sind viele Daten nur schwer zugänglich (z.B. Flash-Seiten).
Werbung könnte man in großen Teilen so ausschließen, wie das auch jeder Werbeblocker für den Browser das macht. Menüstruktur wird auch bei der aktuellen Regelung mitarchiviert, zumindest werden viele die nicht extra rausnehmen. Auch Werbebanner werden in vielen Fällen sicher mit abgegeben.
Persisteus hat geschrieben:Ich denke, es wird nicht allzu viel Aufwand sein, alle Artikel mit einem PHP-Script als HTML-Datei auszuspucken und als ZIP-Datei zu packen.
Mag sein. Das wird aber jeder unterschiedlich machen. Einer benutzt ein PHP-Skript, ein anderer komprimiert die Daten auf dem Server, einer dumpt die Datenbank, ein anderer nicht, einer gibt Werbebanner oder Bilder allgemein mit ab, ein anderer wiederum nicht, einer komprimiert mit zip, einer mit tar.gz, einer mit arj, einer mit 7zip und einer gibt eine unkomprimierte CD ab, einer lässt URLs wie sie sind, ein anderer lokalisiert sie... Das gibt doch einen unüberblickbaren Datenwust, mit dem keiner richtig was anfangen kann.

Verfasst: 30.05.2007, 19:48
von zeebee
Ich finde, es wird immer lukrativer eine Webpräsenz rechtlich ins Ausland zu legen. DasJan hat m.M. nach völlig recht: der meiste Inhalt ist es nicht Wert archiviert zu werden und im elektronischen Zeitalter hat die "Bring-Schuld" keine Existenzberechtigung. Es gibt doch so viele Freeware-Programme die komplette Webseiten abspeichern können, da können die Damen und Herren der Regierung sowas wohl in einem größeren Rahmen selbst realisieren.
Hauptsache die beauftragen kein Konsortium wie bei der ALGII-Software :D

Verfasst: 30.05.2007, 22:01
von neon
Die neue Bibliothek von Alexandria macht das sogar. Das ist zwar kein vollständiges Archiv, sondern eher zufällig ausgewähltes und grob gefiltertes Material, aber es soll ja auch nicht der Überwachung oder Vollständigkeit dienen, sondern der Nachwelt ein gewisses Maß an Informationen erhalten, die ohne solche Aktionen im Zeitalter der digitalen Datenspeicherung mit Sicherheit innerhalb kürzester Zeit verloren gehen würden.

Wir leben heute in dem Zeitalter, von dem die Nachwelt am wenigsten wissen wird. Gedruckte Schrift wird es immer weniger geben und keiner der heute üblichen Datenträger hat eine durchschnittliche Lebensdauer von mehr als 10 Jahren. Eigentlich ist das schon fast peinlich.

Verfasst: 31.05.2007, 11:46
von Persisteus
Das gibt doch einen unüberblickbaren Datenwust, mit dem keiner richtig was anfangen kann.
So ist das Internet nun mal! ;) Die paar Archivformate wird man wohl in den Griff bekommen, und Datenbankdumps zählen zumindest meiner Meinung nach nicht als Publikation.
Um es mal etwas prägnanter zu formulieren: Die Bibliothek will nicht deine Schreibmaschine, sondern das damit geschriebene Dokument.

Das, was es hierzulande als Buch zu kaufen gibt, ist ja auch alles andere als konform. Es gibt Bücher in unzähligen Formen und Farben, aber sie haben alle eines gemeinsam: Man kann sie lesen. Und dieselbe Anforderung wird man auch an die Netzpublikationen stellen. Man muss das ganze also entpacken und dann lesen können (mit einem Browser). Wie das Dokument nun gestaltet ist, liegt im Ermessen des Schreibers... so wie dieser auch bestimmt, wie sein Buch auszusehen hat.

Verfasst: 31.05.2007, 16:36
von DasJan
Persisteus hat geschrieben:und Datenbankdumps zählen zumindest meiner Meinung nach nicht als Publikation.
Unsere Artikel befinden sich alle in einer Datenbank, und das ist nicht nur bei uns so. Ich bin sicher, dass viele lieber ihre Datenbank dumpen, als ihre eigene Seite zu spidern.
Persisteus hat geschrieben:Das, was es hierzulande als Buch zu kaufen gibt, ist ja auch alles andere als konform. Es gibt Bücher in unzähligen Formen und Farben, aber sie haben alle eines gemeinsam: Man kann sie lesen.
Ganz genau. Schau mal in eine komprimierte Datei, dann wirst du den Unterschied merken. Es ist ja nicht so, dass da nur ein paar tausend Publikationen auflaufen werden, die man trotz verschiedener Formate in den Griff bekommt. Da werden Millionen Seiten auflaufen (wenn sich denn jeder an das Gesetz hält), und die kann man nur automatisiert verarbeiten.

Das Jan

Verfasst: 31.05.2007, 18:05
von TentakelTommy
Ich verstehe dein Archiv-Problem nicht so ganz. Die schreiben doch recht klar
Zulässige Dateinamenserweiterung sind zip, tar, tgz oder tar.gz.
Für alles gibts frei verfügbare Packer auf diversen Plattformen.

Wenn man jetzt nichts böses will benennt man auch kein gpg-File einfach nach tgz um ;)

Bezüglich datenbank-Dumps wurdest du ja schon aufgeklärt (btw: wenn du statt dem Buch dort einen Sack mit Buchstaben abgibst hast du ganz schnell ne Strafe am Hals 8) )
Und ja, die wissen auch noch nix genaues.
Der gesetzliche Sammelauftrag umfasst auch die so genannten webspezifischen Publikationen, die sich durch ihre dynamische Entwicklung [...] in diesem Bereich sind derzeit viele Fragen hinsichtlich Sammlungsumfang, Sammlungstechnik und Verfügbarmachung noch unbeantwortet.
Wie ich oben schonmal schrieb: don't panic