Feature: Zieldatei-Kollision bei leerer DB intelligent behandeln #14

Closed
opened 2026-04-23 15:58:03 +02:00 by marcus · 0 comments
Owner

Problem

Bei frischer/leerer DB werden bereits früher verarbeitete PDFs erneut verarbeitet. Wenn die KI denselben Zieldateinamen vorschlägt und die Zieldatei bereits existiert, entsteht unnötig ein Dubletten-Suffix (1) – obwohl die Datei bereits korrekt verarbeitet ist.

Korrekte Kollisionslogik

Situation Verhalten
Zieldatei vorhanden, identischer Inhalt (SHA-256 gleich) Überspringen – gilt als erfolgreich verarbeitet, keine neue Kopie
Zieldatei vorhanden, anderer Inhalt Dubletten-Suffix (1), (2) – neue Datei anlegen
Zieldatei nicht vorhanden Normale Verarbeitung

Beispiel

  1. Quelldatei: ABCD.pdf
  2. KI schlägt vor: 2022-01-01 - Steuerbescheid 2022.pdf
  3. Diese Datei liegt bereits im Zielordner
  4. SHA-256 der Zieldatei == SHA-256 der Quelldatei → überspringen, gilt als erfolgreich
  5. SHA-256 der Zieldatei != SHA-256 der Quelldatei → Dubletten-Suffix, neue Datei anlegen

Status

Offen – Implementierung ausstehend.

## Problem Bei frischer/leerer DB werden bereits früher verarbeitete PDFs erneut verarbeitet. Wenn die KI denselben Zieldateinamen vorschlägt und die Zieldatei bereits existiert, entsteht unnötig ein Dubletten-Suffix `(1)` – obwohl die Datei bereits korrekt verarbeitet ist. ## Korrekte Kollisionslogik | Situation | Verhalten | |---|---| | Zieldatei vorhanden, **identischer Inhalt** (SHA-256 gleich) | Überspringen – gilt als erfolgreich verarbeitet, keine neue Kopie | | Zieldatei vorhanden, **anderer Inhalt** | Dubletten-Suffix `(1)`, `(2)` – neue Datei anlegen | | Zieldatei nicht vorhanden | Normale Verarbeitung | ## Beispiel 1. Quelldatei: `ABCD.pdf` 2. KI schlägt vor: `2022-01-01 - Steuerbescheid 2022.pdf` 3. Diese Datei liegt bereits im Zielordner 4. SHA-256 der Zieldatei == SHA-256 der Quelldatei → überspringen, gilt als erfolgreich 5. SHA-256 der Zieldatei != SHA-256 der Quelldatei → Dubletten-Suffix, neue Datei anlegen ## Status Offen – Implementierung ausstehend.
Sign in to join this conversation.
No Label
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: marcus/pdf-umbenenner#14