Paperless-ngx: So viel Speicher frisst Ihr Dokumentenberg wirklich

Paperless-ngx im Praxistest: Wie viel Speicher braucht effiziente Dokumentenarchivierung wirklich?

Sie kennen das Dilemma: Je digitaler die Aktenführung, desto unerbittlicher wächst der Speicherbedarf. Bei der Entscheidung für Paperless-ngx als Dokumentenmanagementsystem (DMS) stellt sich weniger die Frage nach der Funktionalität – die Open-Source-Lösung überzeugt hier – als vielmehr nach den praktischen Infrastrukturkosten. Speicherplatz ist nie unendlich verfügbar und häufig teuer erkauft, besonders im Unternehmensumfeld.

Vom Papierberg zum Datenberg: Die Speicherfalle

Ein typischer Fehler: Unternehmen ersetzen Aktenschränke 1:1 durch digitale Ordner, ohne sich Gedanken über Dateigrößen oder Archivierungsstrategien zu machen. Das Resultat? Ein DMS verwandelt sich vom Entlastungswerkzeug zur Datengrube. Bei Paperless-ngx potenziert sich das Problem durch drei Kernfunktionen:

  • OCR-Erkennung: Texterkennung erzeugt durchsuchbare PDFs – aber der Prozess verdoppelt oder verdreifacht oft die Dateigröße.
  • Thumbnail-Generierung: Vorschaubilder für schnelle Navigation fressen unerwartet Platz.
  • Versionierung: Jede Änderung erzeugt neue Dokumentenstände – ein Segen für Compliance, ein Fluch für Speicherkontingente.

Dazu kommt die Basislast: Ein mittelständisches Unternehmen mit 50.000 Dokumenten startet schnell mit 300-500 GB Rohdaten. Nicht gigantisch, aber das ist erst der Ausgangspunkt.

Speichertreiber unter der Lupe: Was bläht Ihr Archiv auf?

1. Der Dokumententyp macht den Unterschied

Ein gescannter Rechnungsbeleg im PDF/A-Format: 50-200 KB. Eine hochaufgelöste technische Zeichnung: schnell 20 MB. Paperless-ngx behandelt beides gleich – der Speicherverbrauch nicht. Besonders tückisch: Unkomprimierte TIFF-Scans aus Multifunktionsgeräten, die vor dem Import nicht konvertiert werden. Ein Praxisbeispiel: Ein Handwerksbetrieb reduzierte seinen Speicherbedarf um 60%, allein durch die Umstellung von TIFF auf PDF mit JPEG2000-Kompression vor dem Import.

2. OCR: Der notwendige Speicherfresser

Die integrierte OCR-Engine (meist Tesseract) erzeugt durchsuchbare PDFs durch Einbettung einer unsichtbaren Textebene. Das Problem: Aus einem 100 KB-Bild-PDF wird leicht eine 250 KB-Datei. Bei 100.000 Dokumenten summiert sich der OCR-Aufschlag auf 15 GB zusätzlich – nur für Textlayer! Hier lohnt sich die Abwägung: Brauche ich jedes Dokument volltextdurchsuchbar? Bei reinen Bildern (Fotos, Skizzen) kann man OCR deaktivieren.

3. Metadaten und Indizes: Die unsichtbaren Gigabyte

Paperless-ngx‘ Stärke liegt in der präzisen Verschlagwortung. Doch jeder Tag, jede Korrespondenzregel, jeder Dokumententyp erzeugt Metadaten in der PostgreSQL-Datenbank. Bei Millionen Einträgen wächst diese leicht auf 20-30% der eigentlichen Dokumentengröße an. Noch kritischer: Der Suchindex von Apache Tika. Er ermöglicht Blitzsuchen, benötigt aber oft so viel Platz wie die Originaldokumente selbst.

4. Der Thumbnail-Effekt

Klein, aber oho: Die Miniaturansichten für die Dokumentenvorschau scheinen vernachlässigbar – bis man rechnet. Bei 500.000 Dokumenten mit je 5 KB Thumbnail sind das 2.5 GB. Nicht existenzbedrohend, aber signifikant in virtualisierten Umgebungen mit knappem SAN-Speicher.

Speicherbedarf berechnen: Realistische Szenarien

Pauschale „pro Dokument“-Angaben helfen wenig. Entscheidend ist das Profil:

Dokumententyp Durchschnittsgröße Speicherfaktor mit Paperless-ngx
Rechnungen (Textlastig) 150 KB x 2.5 (OCR + Metadaten)
Verträge (Gemischter Inhalt) 500 KB x 2.0
Technische Dokumente (Grafiklastig) 5 MB x 1.3

Ein Rechenbeispiel für 100.000 Dokumente mit gemischtem Profil:

  • Durchschnitt 500 KB/Dokument → 50 GB Rohdaten
  • OCR-Aufschlag → +25 GB
  • Datenbank + Indizes → +15 GB
  • Thumbnails → +0.5 GB
  • Gesamt: ca. 90 GB

Das ist der reine Live-Speicher. Backups und Versionierung kommen obendrauf.

Optimierungsstrategien: Vom Datenhamster zum Speicherökonom

Vor dem Import: Die Weichen stellen

Die größten Hebel liegen außerhalb von Paperless-ngx:

  • Scan-Policies: 300 dpi statt 600 dpi reduziert Dateigrößen um 60-70%. Schwarz-Weiß statt Farbe bei Textdokumenten spart weitere 50%.
  • Dateiformat-Konvertierung: Tools wie ocrmypdf komprimieren und OCR-en in einem Schritt – oft effizienter als Paperless-interne Verarbeitung.
  • Dokumentenhygiene: Braucht jede E-Mail-Anlage im Archiv? Muss die leere Rückseite eines Belegs gescannt werden?

In Paperless-ngx: Feinjustierung

Die config.yml bietet Schlüsselparameter:

PAPERLESS_OCR_MODE: "skip" # Bei bereits durchsuchbaren PDFs
PAPERLESS_THUMBNAIL_QUALITY: 20 # Reduziert Thumbnail-Größe
PAPERLESS_DB_ENGINE: postgresql # MariaDB ist speicherhungriger

Weniger offensichtlich: Die Aufbewahrungsrichtlinien. Automatisches Löschen veralteter Dokumente nach GoBD schafft nicht nur Compliance, sondern auch Speicher.

Storage-Architektur: Zonen einrichten

Nicht alle Daten brauchen SSD-Geschwindigkeit:

  • Hot Storage: Aktuelle Jahrgänge auf schnellen SSDs
  • Warm Storage: Ältere Bestände auf günstigen SATA-Laufwerken
  • Cold Storage: Langzeitarchiv auf Tape oder Cloud (z.B. AWS Glacier)

Mit Symbolischen Links kann Paperless-ngx nahtlos über mehrere Mountpoints verteilt werden. Ein Praxis-Tipp: Thumbnails und Indizes immer auf SSD halten – sie beeinflussen die Performance am stärksten.

Backup-Betrachtung: Die vergessene Speicherdimension

Ein 500 GB-Archiv mit täglichen Backups über 30 Tage? Das sind 15 TB. Hier helfen:

  • Inkrementelle Backups: Nur Änderungen sichern
  • Deduplizierung: Moderne Backup-Tools erkennen Redundanzen
  • Schichtung: Tägliche Backups für 7 Tage, wöchentliche für 4 Wochen, monatliche darüber hinaus

Vergessen Sie nicht: Paperless-ngx besteht aus zwei Komponenten – Dokumentenspeicher und Datenbank. Beide müssen konsistent gesichert werden. Ein DB-Dump ohne Dokumente ist wertlos.

Cloud vs. On-Premise: Die Speicherkostenfrage

AWS S3 wirbt mit 0,023 $/GB – klingt minimal. Doch:

  • API-Requests (pro 1000 Anfragen: 0,005 $)
  • Datenabruf (0,09 $/GB für Glacier-Objekte)
  • Transferkosten bei Downloads

In der Praxis kostet ein 500 GB-Archiv in der Cloud schnell 150-200 $/Monat – ohne Berücksichtigung von Paperless-ngx-Instanzen. Bei On-Premise-Lösungen dominieren dagegen Kapitalkosten für Hardware und Wartung. Die Break-Even-Point-Rechnung lohnt sich: Ab ca. 10 TB wird Eigenbetrieb oft wirtschaftlicher.

Zukunftssicher planen: Wachstum einkalkulieren

Dokumentenbestände wachsen selten linear. Ein Krankenhaus berichtete von 120% Zuwachs nach Einführung der E-Akte. Planen Sie daher:

  • Jährlicher Zuwachs: Mindestens 20-30% Puffer einrechnen
  • Skalierbarkeit: Lässt sich Ihr Storage mit wachsenden Anforderungen erweitern?
  • Exit-Strategie: Wie migrieren Sie bei Bedarf zu einer anderen Lösung? Vermeiden Sie proprietäre Lock-in-Effekte.

Fazit: Speicher als strategischer Faktor

Paperless-ngx ist kein Speichermonster per se – aber es deckt schonungslos ineffiziente Dokumentenprozesse auf. Der Schlüssel liegt im Dreiklang:

  1. Prävention: Dokumente vor dem Import optimieren
  2. Konfiguration: Paperless-ngx‘ Features speicherbewusst einsetzen
  3. Infrastruktur: Storage-Architektur an Nutzungsprofile anpassen

Wer hier investiert, spart nicht nur Terabytes, sondern auch Betriebskosten und Nerven. Denn am Ende zählt nicht, wie viele Dokumente Sie archivieren können – sondern wie effizient Sie es tun.