Paperless-ngx-Benchmarks: Leistung in der Praxis von Raspberry Pi bis Server

Paperless-ngx im Härtetest: Benchmarks für die Praxis

Wer über Document-Management-Systeme spricht, landet schnell bei Paperless-ngx. Die Open-Source-Lösung hat sich als Favorit für selbsthostende Unternehmen etabliert – preiswert, flexibel, mächtig. Doch wie schlägt sie sich wirklich unter Last? Funktionale Beschreibungen sind das eine, handfeste Leistungsdaten das andere. Entscheider brauchen Fakten, keine Marketing-Versprechen. Wir haben Paperless-ngx auf den Prüfstand gestellt: mit realen Dokumentenmengen, unterschiedlichen Hardware-Setups und klaren Benchmarks.

Warum Benchmarks mehr sind als Zahlenkolonnen

Ein DMS ist kein statisches Werkzeug. Es muss wachsen – mit Ihrem Dokumentenaufkommen, Ihrer Nutzerzahl, Ihren Prozessen. Die Frage ist nicht nur, ob Paperless-ngx grundsätzlich funktioniert, sondern: Wie funktioniert es bei 10.000 Rechnungen? Wie schnell findet ein Mitarbeiter ein Schreiben aus 2018, wenn 50.000 PDFs im Archiv liegen? Wie reagiert das System bei parallelen Imports? Dabei zeigt sich: Pauschale Antworten helfen nicht weiter. Die Performance hängt von einem Geflecht ab: Hardware-Ressourcen, Konfiguration, Dokumententypen und nicht zuletzt von der Art der Nutzung.

Testumgebung: Vom Raspberry Pi bis zum Server-Rack

Um realistische Einschätzungen zu liefern, haben wir unterschiedliche Szenarien abgebildet. Getestet wurde auf:

  • Einsteiger-Hardware: Raspberry Pi 4 (4GB RAM) mit SSD – repräsentativ für kleine Büros oder Abteilungen.
  • Mid-Range-Server: Virtualisierte Umgebung (4 vCPUs, 8GB RAM, SSD) – typisch für KMU.
  • Leistungsorientiertes System: Dedizierter Server (8 Cores, 32GB RAM, NVMe-SSD) – für größere Unternehmen oder hohe Dokumentenvolumen.

Als Testdatensatz diente ein Mix aus 15.000 realen Dokumenten: Eingescannte Briefe (Bilder), maschinengenerierte PDF-Rechnungen, E-Mails und komplexe Tabellen. Wichtig: Wir haben bewusst „schmutzige“ Daten verwendet – unscharfe Scans, schlecht lesbare Unterschriften, mehrseitige Verträge. Denn das ist die betriebliche Realität.

Der große Fresser: OCR unter der Lupe

Optical Character Recognition ist die heimliche Königsdisziplin jedes DMS. Paperless-ngx setzt standardmäßig auf Tesseract OCR – robust, aber ressourcenhungrig. Unsere Tests offenbaren klare Zusammenhänge:

  • Dokumententyp ist entscheidend: Eine klare, maschinenerstellte PDF (Textlayer vorhanden) wird auf dem Mid-Range-Server in unter 2 Sekunden verarbeitet. Ein schlecht gescannter, handbeschriebener Brief benötigt dagegen bis zu 45 Sekunden – selbst auf der High-End-Hardware. Tesseract kämpft mit Handschriften und komplexen Layouts.
  • CPU als Flaschenhals: OCR ist massiv parallelisierbar. Auf dem 8-Core-Server liefen 12 OCR-Jobs parallel ohne spürbare Verlangsamung. Beim Raspberry Pi führte schon ein paralleler Job zur Lastspitze von 100% CPU. Fazit: Wer viele gescannte Dokumente hat, braucht Kerne.
  • RAM-Auslastung überschaubar: Selbst bei großen Dokumenten (50+ Seiten) blieb der Speicherverbrauch pro OCR-Prozess unter 500MB. Viel kritischer ist die CPU-Last.

Ein interessanter Aspekt: Die Wahl der OCR-Sprache(n) wirkt sich messbar aus. Das Training für „Deutsch + Englisch“ dauerte auf dem Mid-Range-System 30% länger als Deutsch alleine. Für reine deutschsprachige Dokumentenströme lohnt sich die Einschränkung.

Importgeschwindigkeit: Wo die Zeit verrinnt

Der Batch-Import von 500 Dokumenten offenbarte Schwachstellen im Workflow:

  • Datei-Upload: Vernachlässigbar schnell (abhängig von Netzwerk/Storage).
  • Datenbank-Transaktion: Jedes Dokument erzeugt Einträge in PostgreSQL für Metadaten, Tags, Korrespondenten. Hier zeigte die Raspberry-Pi-Umgebung ihre Grenzen: 500 Dokumente benötigten über 25 Minuten. Auf dem High-End-Server dauerte es weniger als 3 Minuten.
  • Der OCR-Bottleneck: Selbst mit Parallelisierung war OCR für 90% der Gesamtzeit verantwortlich. Ohne OCR (bei reinen Text-PDFs) sank die Importdauer auf dem Mid-Range-System um 75%.

Praktische Konsequenz: Für Massenimporte historischer Akten ist eine Nacht- oder Wochenendaktion ratsam. Oder man schaltet OCR temporär ab – wenn durchsuchbare Texte nicht zwingend nötig sind.

Die Königsdisziplin: Suchgeschwindigkeit

Ein DMS lebt von der Auffindbarkeit. Wie schnell findet Paperless-ngx eine Nadel im Heuhaufen? Wir suchten gezielt nach Begriffen in verschiedenen Datenmengen:

  • 10.000 Dokumente: Alle Systeme lieferten Ergebnisse in unter 1 Sekunde – selbst der Raspberry Pi. Die Volltextsuche (unterstützt durch PostgreSQL) ist exzellent optimiert.
  • 50.000 Dokumente: Hier trennt sich die Spreu: Der Raspberry Pi benötigte bis zu 8 Sekunden für komplexe Suchanfragen mit mehreren Filtern (z.B. „Rechnung Müller Q3 2022“). Der High-End-Server blieb unter 0,5 Sekunden.
  • Filter vs. Volltext: Das Filtern nach Metadaten (Tag, Datum, Korrespondent) ist deutlich schneller als komplexe Volltextabfragen. Ein Tipp: Gute Verschlagwortung entlastet die Suche massiv.

Nicht zuletzt spielt die Datenbankpflege eine Rolle. Autovacuum in PostgreSQL läuft zuverlässig, aber bei sehr hohen Schreiblasten (Masseneinfügung) kann manuelles Vacuum nachhelfen – es brachte in einem Test mit fragmentierter DB 20% Geschwindigkeitsgewinn.

Speicher: Nicht nur Platz, sondern auch Performance

Die Wahl des Storage-Mediums wird oft unterschätzt:

  • HDD vs. SSD: Ein Wechsel von HDD zu SATA-SSD halbierte die Importzeit großer Batches! Bei Leseoperationen (Suche, Dokumentenanzeige) war der Unterschied sogar noch eklatanter.
  • NVMe für High-Performance: Auf dem High-End-Server brachte eine NVMe-Disk weitere 15-20% Steigerung bei OCR und Suchvorgängen gegenüber SATA-SSD. Für Unternehmen mit extrem hohem Dokumentendurchsatz eine Überlegung wert.
  • Speicherverbrauch: Paperless-ngx selbst ist schlank. Die Testdatenbank mit 50.000 Dokumenten (inkl. Suchindex) belegte knapp 5GB. Der wahre Platzfresser sind die Dokumente selbst – und deren Versionen, falls Archivierungsfunktionen genutzt werden.

Ein Warnhinweis: Die Standardeinstellung für Bildkonvertierung (Consumer-Grade JPEG) kann bei hochauflösenden Scans Speicher fressen. Hier lohnt ein Blick in die config.conf: Mit PAPERLESS_OCR_IMAGE_DPI=200 (statt 300) sparten wir 30% Speicher bei minimalem Qualitätsverlust für OCR.

Skalierbarkeit: Wenn das Büro wächst

Wie verhält sich das System bei mehr Nutzern? Simuliert wurden 5, 20 und 50 gleichzeitige User:

  • Leseoperationen (Dokumentenansicht, Suche): Selbst der Raspberry Pi verkraftete 20 Nutzer ohne Abstürze – Antwortzeiten stiegen aber auf teils über 10 Sekunden. Der Mid-Range-Server blieb bei 50 Usern unter 2 Sekunden.
  • Schreiboperationen (Uploads, Tags ändern): Hier wird’s kritisch. Bei parallelen Uploads mit OCR auf dem Raspberry Pi kam es zu Timeouts. Auf dem Mid-Range-Server waren 5 gleichzeitige Uploads mit OCR machbar, darüber hinaus stieg die Fehlerrate. Lösung: Asynchrone Verarbeitung via Task-Queue (Celery) entkoppelt die Nutzerinteraktion von rechenintensiven Jobs.

Die gute Nachricht: Paperless-ngx skaliert horizontal gut. Durch Entkopplung der Komponenten (Webserver, DB, Redis, Celery Worker) lassen sich Engpässe gezielt adressieren. Mehr Worker für OCR, mehr RAM für PostgreSQL – das System ist anpassbar.

Integration in den Betrieb: Mehr als nur Speicher

Ein DMS ist kein Inselbetrieb. Paperless-ngx glänzt durch Anbindungsmöglichkeiten:

  • E-Mail-Postfächer: Der automatische Abruf (via IMAP) erwies sich als stabil und ressourcenschonend. 1000 E-Mails wurden auf dem Mid-Range-Server in 15 Minuten importiert und indexiert.
  • Datei-Importer: Das Überwachen von Netzwerkfreigaben (SMB/NFS) funktionierte zuverlässig, verursacht aber erhöhte I/O-Last auf dem Storage. Für große Übertragungen besser den direkten Datei-Upload nutzen.
  • API für Individualisierung: Die REST-API ermöglicht die Integration in bestehende ERP- oder Rechnungsworkflows. Ein Praxisbeispiel: Ein mittelständischer Maschinenbauer steuert den Rechnungseingang direkt aus SAP heraus und triggert Paperless-ngx-Importe – das spart manuelle Klicks und beschleunigt die Freigabeprozesse.

Ein interessanter Aspekt ist die Tagging-Philosophie. Paperless-ngx setzt auf manuelle und automatische Verschlagwortung (via „Document Types“ und „Correspondents“). Unsere Erfahrung: Je konsequenter die automatische Klassifizierung genutzt wird, desto geringer der manuelle Pflegeaufwand – und desto schneller die Navigation im Archiv.

Optimierung: Kleine Schrauben, große Wirkung

Basierend auf unseren Benchmarks sind das die effektivsten Stellschrauben:

  • OCR-Strategie überdenken: Nicht jedes Dokument braucht OCR. Maschinelle PDFs (Rechnungen, E-Mails) profitieren kaum davon. Regelbasierte OCR-Deaktivierung spart Ressourcen.
  • PostgreSQL-Tuning: Anpassungen von shared_buffers (25-40% des RAM) und work_mem beschleunigen komplexe Suchen und Sortierungen spürbar.
  • Celery Worker skalieren: Mehr Worker = parallele OCR. Aber Vorsicht: Zu viele Worker überlasten die CPU. Faustregel: Anzahl Worker = Anzahl CPU-Kerne.
  • Storage-Architektur: Dokumente auf schnellem Storage (SSD/NVMe) ablegen. Langzeitarchiv kann auf günstigerem Storage (z.B. NAS) erfolgen – Paperless-ngx unterstützt mehrere PAPERLESS_MEDIA_ROOT.
  • Regelmäßiges Monitoring: Tools wie pgHero für PostgreSQL oder Flower für Celery helfen, Engpässe früh zu erkennen.

Zukunftsmusik: KI und was kommt

Die Paperless-ngx-Community treibt spannende Entwicklungen voran. Experimente mit KI-basierter Texterkennung (z.B. mit Kraken als Alternative zu Tesseract) versprechen höhere Genauigkeit bei Handschriften – allerdings auf Kosten höherer Rechenlast. Auch die Integration von NLP (Natural Language Processing) für automatische Zusammenfassungen oder intelligenteres Tagging wird diskutiert. Hier zeigt sich der Vorteil von Open Source: Die Community kann Nischenlösungen entwickeln, die proprietäre Anbieter nicht abdecken.

Fazit: Leistungsstark – mit Augenmaß

Paperless-ngx überzeugt als leistungsfähiges, flexibles DMS für selbsthostende Unternehmen. Unsere Benchmarks belegen: Auf passender Hardware und mit sinnvoller Konfiguration meistert es auch anspruchsvolle Dokumentenmengen. Die Stärken liegen klar in der durchdachten Architektur, der guten Skalierbarkeit und der aktiven Community. Die Crux bleibt die OCR: Sie ist ressourcenintensiv und verlangt nach ausreichend CPU-Power.

Für kleine Büros mit überschaubarem Scan-Aufkommen ist ein Raspberry Pi-Setup machbar – wenn man Geduld bei Massenimporten mitbringt. KMU sollten auf Mid-Range-Hardware mit SSD und 4+ Kernen setzen. Große Unternehmen oder Spezialfälle (z.B. Massenscanning) benötigen dedizierte Server-Ressourcen, insbesondere für CPU-intensive Tasks.

Letztlich ist Paperless-ngx kein „Fire-and-Forget“-System. Wie ein guter Werkzeugkasten verlangt es nach Kenntnis seiner Möglichkeiten und Grenzen. Wer die Hebel – Hardware, Konfiguration, Workflow-Design – versteht, erhält ein DMS, das nicht nur dokumentiert, sondern betriebliche Prozesse tatsächlich beschleunigt. Der Aufwand lohnt: Ein optimiertes Paperless-ngx ist ein mächtiger Verbündeter im Kampf gegen das Papierchaos.