Deutsche Sprachdatei nicht gefunden

24.06.2024

kurzefragen programmierung technik

Adrachin:

Extrahiere den Text aus dem angehängten PDF Dokument und gibt ihn als Text aus.

Hinweis:

Es handelt sich um eingescannte Buchseiten.

Ziel d.r Aktion, eine einfach zu lesende Version des Textes.

LiquidGPT:

Der extrahierte Text aus dem PDF ist leer. Dies könnte daran liegen, dass das Dokument eingescannte Buchseiten enthält, die als Bilder gespeichert sind und daher eine optische Zeichenerkennung (OCR) erfordern, um den Text zu extrahieren.

Ich werde jetzt OCR auf das Dokument anwenden, um den Text zu extrahieren.

LiquidGPT:

Es sieht so aus, als ob das OCR-Paket die deutsche Sprachdatei nicht finden konnte. Da ich die benötigten Dateien nicht direkt bereitstellen kann, schlage ich eine alternative Vorgehensweise vor:

Verwenden Sie eine lokale OCR-Anwendung wie Tesseract auf Ihrem Rechner.
Installieren Sie die notwendigen Sprachdateien und führen Sie OCR auf Ihrem Rechner durch.
Alternativ können Sie Online-OCR-Tools verwenden.

Hier ist ein Beispiel, wie Sie Tesseract auf Ihrem Rechner verwenden können:

Installation

Installieren Sie Tesseract:
- Windows: Laden Sie das Installationsprogramm von Tesseract at UB Mannheim herunter und installieren Sie es.
- macOS: Verwenden Sie Homebrew: brew install tesseract.
- Linux: Installieren Sie es über Ihr Paketverwaltungssystem, z.B. sudo apt-get install tesseract-ocr.

Laden Sie die deutschen Sprachdateien herunter:

 wget https://github.com/tesseract-ocr/tessdata/raw/master/deu.traineddata -P /usr/share/tesseract-ocr/4.00/tessdata/

Verwendung

Führen Sie dann den folgenden Befehl aus, um Text aus Ihrem PDF zu extrahieren:

tesseract /path/to/your/pdf/or/image output -l deu

Falls Sie weiterhin Hilfe benötigen, lassen Sie es mich wissen!