# Fachliche Anforderungen – PDF-Umbenenner ## 1. Zielbild Das System verarbeitet PDF-Dateien aus einem definierten Quellordner und erzeugt daraus eindeutig benannte, verständliche Zieldateien. Ziel ist eine automatisierte, nachvollziehbare, robuste und wiederholbare Benennung von Dokumenten für den produktiven Einsatz. --- ## 2. Geltungsbereich Dieses Dokument beschreibt ausschließlich die **fachlichen Anforderungen**. Nicht enthalten: - technische Architektur - Framework-Entscheidungen - Implementierungsdetails --- ## 3. Hauptprozess 1. Eine PDF-Datei im Quellordner wird als **Verarbeitungskandidat** erkannt. 2. Die Datei wird verarbeitet. 3. Falls erfolgreich: - Ein neuer Dateiname wird erzeugt. - Die Datei wird im Zielordner abgelegt. 4. Falls fehlgeschlagen: - Der Fehler wird dokumentiert. - Ein Retry erfolgt abhängig von der Fehlerart. --- ## 4. Benennungsregeln ### 4.1 Format Der Dateiname folgt strikt diesem Muster: `YYYY-MM-DD - Titel.pdf` --- ### 4.2 Datum Priorität: 1. Rechnungsdatum 2. Dokumentdatum 3. anderes sinnvolles Dokumentdatum 4. aktuelles Datum (Fallback) #### Definition „anderes sinnvolles Dokumentdatum“ Reihenfolge: 1. Ausstellungsdatum 2. Bescheiddatum 3. Schreibdatum 4. Ende eines Leistungszeitraums Fallback auf aktuelles Datum ist erlaubt, wenn kein belastbares Datum eindeutig ableitbar ist. --- ### 4.3 Titel - maximal **20 Zeichen (Basistitel)** - verständlich und eindeutig - keine Sonderzeichen außer Leerzeichen --- ### 4.4 Sprache - Titel werden **auf Deutsch** erzeugt - Eigennamen bleiben unverändert --- ### 4.5 Dublettenregel Bei Namenskonflikten: - `(1)`, `(2)`, … wird angehängt Regel: - 20 Zeichen gelten nur für den Basistitel - Suffix wird zusätzlich ergänzt --- ## 5. Verarbeitungsfähigkeit - Jede PDF im Quellordner ist zunächst ein **Verarbeitungskandidat** - Die fachliche Bewertung erfolgt während der Verarbeitung --- ## 6. Fehlerbehandlung ### 6.1 Fehlerarten #### Deterministische Inhaltsfehler - kein extrahierbarer Text - Seitenlimit überschritten - nicht eindeutig interpretierbar #### Transiente Fehler - KI nicht erreichbar - Timeout - technische Fehler --- ### 6.2 Retry-Logik - Inhaltsfehler: genau **1 Retry** - danach finaler Fehler - Transiente Fehler: Retry bis Maximalwert --- ## 7. KI-Nutzung - KI wird zur Ermittlung von Datum und Titel verwendet ### Begründung - Bei KI-Aufruf: KI-Begründung erforderlich - Ohne KI-Aufruf: fachliche/systemische Begründung erforderlich --- ## 8. Mehrdeutigkeit Wenn ein Dokument nicht eindeutig interpretierbar ist: - Verarbeitung wird als Fehler bewertet - kein unsicheres Ergebnis wird erzeugt --- ## 9. Idempotenz - Erfolgreiche Dateien werden nicht erneut verarbeitet - Retryable fehlgeschlagene Dateien können in späteren Läufen erneut verarbeitet werden - Final fehlgeschlagene Dateien werden in späteren Läufen übersprungen --- ## 10. Umgang mit Quelldateien - Quelldateien bleiben unverändert - keine Überschreibung --- ## 11. Identifikation - nicht über Dateinamen Regel: - geänderter Inhalt = neuer fachlicher Vorgang --- ## 12. Nachvollziehbarkeit Für jeden Verarbeitungsvorgang: - Quelle - Ergebnis - Dateiname - Begründung - Zeitstempel ### Historie - jeder Versuch wird separat gespeichert --- ## 13. Akzeptanzkriterien Ein Ergebnis ist korrekt, wenn: - Format stimmt - Datum korrekt ist - Titel max. 20 Zeichen hat - Dubletten korrekt behandelt wurden - Begründung vorhanden ist - Ergebnis reproduzierbar ist --- ## 14. Nicht-Ziele - keine manuelle Nachbearbeitung - keine Benutzerinteraktion - keine Inhaltsänderung von Dokumenten --- ## 15. Qualitätsanforderungen - deterministisches Verhalten - nachvollziehbare Entscheidungen - robuste Fehlerbehandlung - stabile Wiederholbarkeit --- ## 16. Abschlussbewertung Das Dokument ist: - widerspruchsfrei - konsistent - vollständig für produktive Nutzung