Paperless-ngx im Praxistest: Wie viel Speicher braucht effiziente Dokumentenarchivierung wirklich?
Sie kennen das Dilemma: Je digitaler die Aktenführung, desto unerbittlicher wächst der Speicherbedarf. Bei der Entscheidung für Paperless-ngx als Dokumentenmanagementsystem (DMS) stellt sich weniger die Frage nach der Funktionalität – die Open-Source-Lösung überzeugt hier – als vielmehr nach den praktischen Infrastrukturkosten. Speicherplatz ist nie unendlich verfügbar und häufig teuer erkauft, besonders im Unternehmensumfeld.
Vom Papierberg zum Datenberg: Die Speicherfalle
Ein typischer Fehler: Unternehmen ersetzen Aktenschränke 1:1 durch digitale Ordner, ohne sich Gedanken über Dateigrößen oder Archivierungsstrategien zu machen. Das Resultat? Ein DMS verwandelt sich vom Entlastungswerkzeug zur Datengrube. Bei Paperless-ngx potenziert sich das Problem durch drei Kernfunktionen:
- OCR-Erkennung: Texterkennung erzeugt durchsuchbare PDFs – aber der Prozess verdoppelt oder verdreifacht oft die Dateigröße.
- Thumbnail-Generierung: Vorschaubilder für schnelle Navigation fressen unerwartet Platz.
- Versionierung: Jede Änderung erzeugt neue Dokumentenstände – ein Segen für Compliance, ein Fluch für Speicherkontingente.
Dazu kommt die Basislast: Ein mittelständisches Unternehmen mit 50.000 Dokumenten startet schnell mit 300-500 GB Rohdaten. Nicht gigantisch, aber das ist erst der Ausgangspunkt.
Speichertreiber unter der Lupe: Was bläht Ihr Archiv auf?
1. Der Dokumententyp macht den Unterschied
Ein gescannter Rechnungsbeleg im PDF/A-Format: 50-200 KB. Eine hochaufgelöste technische Zeichnung: schnell 20 MB. Paperless-ngx behandelt beides gleich – der Speicherverbrauch nicht. Besonders tückisch: Unkomprimierte TIFF-Scans aus Multifunktionsgeräten, die vor dem Import nicht konvertiert werden. Ein Praxisbeispiel: Ein Handwerksbetrieb reduzierte seinen Speicherbedarf um 60%, allein durch die Umstellung von TIFF auf PDF mit JPEG2000-Kompression vor dem Import.
2. OCR: Der notwendige Speicherfresser
Die integrierte OCR-Engine (meist Tesseract) erzeugt durchsuchbare PDFs durch Einbettung einer unsichtbaren Textebene. Das Problem: Aus einem 100 KB-Bild-PDF wird leicht eine 250 KB-Datei. Bei 100.000 Dokumenten summiert sich der OCR-Aufschlag auf 15 GB zusätzlich – nur für Textlayer! Hier lohnt sich die Abwägung: Brauche ich jedes Dokument volltextdurchsuchbar? Bei reinen Bildern (Fotos, Skizzen) kann man OCR deaktivieren.
3. Metadaten und Indizes: Die unsichtbaren Gigabyte
Paperless-ngx‘ Stärke liegt in der präzisen Verschlagwortung. Doch jeder Tag, jede Korrespondenzregel, jeder Dokumententyp erzeugt Metadaten in der PostgreSQL-Datenbank. Bei Millionen Einträgen wächst diese leicht auf 20-30% der eigentlichen Dokumentengröße an. Noch kritischer: Der Suchindex von Apache Tika. Er ermöglicht Blitzsuchen, benötigt aber oft so viel Platz wie die Originaldokumente selbst.
4. Der Thumbnail-Effekt
Klein, aber oho: Die Miniaturansichten für die Dokumentenvorschau scheinen vernachlässigbar – bis man rechnet. Bei 500.000 Dokumenten mit je 5 KB Thumbnail sind das 2.5 GB. Nicht existenzbedrohend, aber signifikant in virtualisierten Umgebungen mit knappem SAN-Speicher.
Speicherbedarf berechnen: Realistische Szenarien
Pauschale „pro Dokument“-Angaben helfen wenig. Entscheidend ist das Profil:
Dokumententyp | Durchschnittsgröße | Speicherfaktor mit Paperless-ngx |
---|---|---|
Rechnungen (Textlastig) | 150 KB | x 2.5 (OCR + Metadaten) |
Verträge (Gemischter Inhalt) | 500 KB | x 2.0 |
Technische Dokumente (Grafiklastig) | 5 MB | x 1.3 |
Ein Rechenbeispiel für 100.000 Dokumente mit gemischtem Profil:
- Durchschnitt 500 KB/Dokument → 50 GB Rohdaten
- OCR-Aufschlag → +25 GB
- Datenbank + Indizes → +15 GB
- Thumbnails → +0.5 GB
- Gesamt: ca. 90 GB
Das ist der reine Live-Speicher. Backups und Versionierung kommen obendrauf.
Optimierungsstrategien: Vom Datenhamster zum Speicherökonom
Vor dem Import: Die Weichen stellen
Die größten Hebel liegen außerhalb von Paperless-ngx:
- Scan-Policies: 300 dpi statt 600 dpi reduziert Dateigrößen um 60-70%. Schwarz-Weiß statt Farbe bei Textdokumenten spart weitere 50%.
- Dateiformat-Konvertierung: Tools wie
ocrmypdf
komprimieren und OCR-en in einem Schritt – oft effizienter als Paperless-interne Verarbeitung. - Dokumentenhygiene: Braucht jede E-Mail-Anlage im Archiv? Muss die leere Rückseite eines Belegs gescannt werden?
In Paperless-ngx: Feinjustierung
Die config.yml
bietet Schlüsselparameter:
PAPERLESS_OCR_MODE: "skip" # Bei bereits durchsuchbaren PDFs PAPERLESS_THUMBNAIL_QUALITY: 20 # Reduziert Thumbnail-Größe PAPERLESS_DB_ENGINE: postgresql # MariaDB ist speicherhungriger
Weniger offensichtlich: Die Aufbewahrungsrichtlinien. Automatisches Löschen veralteter Dokumente nach GoBD schafft nicht nur Compliance, sondern auch Speicher.
Storage-Architektur: Zonen einrichten
Nicht alle Daten brauchen SSD-Geschwindigkeit:
- Hot Storage: Aktuelle Jahrgänge auf schnellen SSDs
- Warm Storage: Ältere Bestände auf günstigen SATA-Laufwerken
- Cold Storage: Langzeitarchiv auf Tape oder Cloud (z.B. AWS Glacier)
Mit Symbolischen Links kann Paperless-ngx nahtlos über mehrere Mountpoints verteilt werden. Ein Praxis-Tipp: Thumbnails und Indizes immer auf SSD halten – sie beeinflussen die Performance am stärksten.
Backup-Betrachtung: Die vergessene Speicherdimension
Ein 500 GB-Archiv mit täglichen Backups über 30 Tage? Das sind 15 TB. Hier helfen:
- Inkrementelle Backups: Nur Änderungen sichern
- Deduplizierung: Moderne Backup-Tools erkennen Redundanzen
- Schichtung: Tägliche Backups für 7 Tage, wöchentliche für 4 Wochen, monatliche darüber hinaus
Vergessen Sie nicht: Paperless-ngx besteht aus zwei Komponenten – Dokumentenspeicher und Datenbank. Beide müssen konsistent gesichert werden. Ein DB-Dump ohne Dokumente ist wertlos.
Cloud vs. On-Premise: Die Speicherkostenfrage
AWS S3 wirbt mit 0,023 $/GB – klingt minimal. Doch:
- API-Requests (pro 1000 Anfragen: 0,005 $)
- Datenabruf (0,09 $/GB für Glacier-Objekte)
- Transferkosten bei Downloads
In der Praxis kostet ein 500 GB-Archiv in der Cloud schnell 150-200 $/Monat – ohne Berücksichtigung von Paperless-ngx-Instanzen. Bei On-Premise-Lösungen dominieren dagegen Kapitalkosten für Hardware und Wartung. Die Break-Even-Point-Rechnung lohnt sich: Ab ca. 10 TB wird Eigenbetrieb oft wirtschaftlicher.
Zukunftssicher planen: Wachstum einkalkulieren
Dokumentenbestände wachsen selten linear. Ein Krankenhaus berichtete von 120% Zuwachs nach Einführung der E-Akte. Planen Sie daher:
- Jährlicher Zuwachs: Mindestens 20-30% Puffer einrechnen
- Skalierbarkeit: Lässt sich Ihr Storage mit wachsenden Anforderungen erweitern?
- Exit-Strategie: Wie migrieren Sie bei Bedarf zu einer anderen Lösung? Vermeiden Sie proprietäre Lock-in-Effekte.
Fazit: Speicher als strategischer Faktor
Paperless-ngx ist kein Speichermonster per se – aber es deckt schonungslos ineffiziente Dokumentenprozesse auf. Der Schlüssel liegt im Dreiklang:
- Prävention: Dokumente vor dem Import optimieren
- Konfiguration: Paperless-ngx‘ Features speicherbewusst einsetzen
- Infrastruktur: Storage-Architektur an Nutzungsprofile anpassen
Wer hier investiert, spart nicht nur Terabytes, sondern auch Betriebskosten und Nerven. Denn am Ende zählt nicht, wie viele Dokumente Sie archivieren können – sondern wie effizient Sie es tun.