Beiträge

Paperless-ngx v3.0.0 Beta im Test: Einzug von lokalen LLMs und intelligenter Vektor-Suche

Paperless-ngx gehört für die meisten Server-Besitzer zur absoluten Standard-Ausstattung, wenn es um das papierlose Büro geht. Mit dem im GitHub-Pull-Request #12713 vorgestellten v3.0.0 Beta-Release macht das Community-Projekt nun den größten technologischen Sprung seiner Geschichte. Das System wandelt sich von einer reinen, OCR-basierten Archivierungssoftware hin zu einem intelligenten, KI-gestützten Wissensmanagement.

RAG und lokale LLMs: Die Dokumentenbox lernt sprechen

Die bahnbrechendste Neuerung in Version 3.0.0 ist das native AI-Feature-Set, das auf der RAG-Technologie (Retrieval-Augmented Generation) basiert. Über einen im Hintergrund aufgebauten Vektor-Index (unter Nutzung einer FAISS/ChromaDB-Struktur) liest das System die Dokumenteninhalte semantisch ein.

Über eine integrierte Chat-Oberfläche können Anwender fortan direkte, natürliche Fragen an ihr gesamtes Archiv richten. Die KI filtert die relevanten Dokumente heraus, generiert eine präzise Zusammenfassung und liefert die exakten Quellenverweise als anklickbare Links direkt mit. Als Backend dienen wahlweise lokale KI-Server wie Ollama (z. B. mit schlanken Modellen wie llama3.2:1b oder qwen2.5) oder externe API-Schnittstellen.

Die v3.0.0 Beta-Features in der Praxis:

  1. Intelligenter Metadaten-Assistent: Beim Bearbeiten eines Dokuments lässt sich über ein „Zauberstab“-Symbol eine KI-Analyse triggern. Das Modell liest den Kontext und schlägt auf Knopfdruck passende Korrespondenten, Kategorien und Tags vor.

  2. Erweiterte OCR-Pipelines: Neben Tesseract fließen Optimierungen für alternative Texterkennungs-Lösungen ein, darunter modernisierte Dokumenten-Parser und Schnittstellen zu spezialisierten Tools wie Mistral-OCR.

  3. Optimierte UI & Backend-Bereinigung: Das auf Django und Angular basierende Framework wurde weitreichend überarbeitet, um Datenbank-Migrationen für den finalen v3-Release vorzubereiten und Ladezeiten bei riesigen Archiven drastisch zu senken.

Wichtige Stolpersteine in der aktuellen Beta

Wie für eine Beta üblich, gibt es ein paar technische Aspekte, die Administratoren beachten müssen:

  • CPU-Timeouts bei NAS-Systemen: Wer Ollama rein auf einer CPU (ohne dedizierte Grafikkarte) betreibt, läuft bei komplexen Prompts Gefahr, in das harte 60-Sekunden-Limit von Paperless zu laufen. Hier empfiehlt sich der Einsatz von extrem kleinen, ressourcenschonenden KI-Modellen.

  • Datenbank-Konflikte (Error 500): Beim häufigen Wechsel der zugrundeliegenden Embedding-Modelle kann es zu Dimensionskonflikten im Vektor-Index kommen. Die Lösung hierfür ist das Stoppen des Containers und das Löschen des Ordners llm_index im Datenverzeichnis, woraufhin sich der Index beim Neustart sauber neu generiert.

Fazit: Die Zukunft des DMS ist smart

Mit der Version 3.0.0 hebt das Entwicklerteam Paperless-ngx auf eine völlig neue Stufe. Die nahtlose Verschmelzung von lokaler künstlicher Intelligenz und privater Dokumentenablage zeigt eindrucksvoll, was moderne Open-Source-Software im Jahr 2026 zu leisten imstande ist.

Zum offiziellen Pull Request und Diskussionsfaden: GitHub Pull Request #12713