Sprache auswählen
  1. Produkte
  2. Aspose.OCR
  3. Recognize PDF
clearbit icon

Gescanntes PDF in Text für .NET

.NET OCR-Plug-in, das Text aus gescannten PDFs extrahiert oder in durchsuchbare Dokumente umwandelt, aus denen Sie Text auswählen und kopieren können. Fortschrittliche Algorithmen für maschinelles Lernen identifizieren die Struktur von Texten und Tabellen genau. Die Originalbilder werden im Hintergrund platziert, damit der Inhalt nicht verloren geht.

Funktionen und Vorteile

  • Unterstützt europäische, kyrillische und asiatische Sprachen, einschließlich Chinesisch und Hindi.
  • Überlegene Erkennungsgeschwindigkeit und -genauigkeit.
  • Kann zum Erstellen von Desktop-, Cloud- und Webanwendungen für eine Reihe von Plattformen verwendet werden.
  • Erkennt und erkennt alle gängigen Schriftarten und Schriftstile.
  • Verarbeitet gedrehte, verzerrte und verrauschte Bilder.
  • Liest alle Bildformate, die Sie von einem Scanner oder einer Kamera erhalten können.
  • Massenerkennung mehrerer Bilder in einem Ordner oder Archiv.
  • Erkennt das gesamte Bild oder nur ausgewählte Bereiche.
  • Erkennt und korrigiert automatisch Rechtschreibfehler.

So verwenden Sie das Plug-in

1
Install-Package Aspose.OCR

Konvertieren einer gescannten PDF-Datei in Text

Digitalisieren Sie gescannte Dokumente oder konvertieren Sie Scans in indexierbare und durchsuchbare PDFs mit weniger als 10 Codezeilen. Vergessen Sie manuelles Abtippen, sparen Sie wertvolle Zeit und konzentrieren Sie sich auf die anstehende Aufgabe.

So verwenden Sie das Plug-in

  1. Installieren Sie das Aspose.OCR-Paket von Nuget oder einer lokal heruntergeladenen Datei.
  2. Laden Sie ein gescanntes Bild in das „OcrInput“-Objekt.
  3. Erstellen Sie eine Instanz der Aspose.OCR-Erkennungs-Engine.
  4. Extrahieren Sie Text aus einem gescannten PDF.
  5. Geben Sie den erkannten Text aus oder speichern Sie ihn in einer Datei.
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
using System;
 using Aspose.ocr;

namespace CSharpTutorials
{
    class Program
    {
        static void Main(string[] args)
        {
            Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
            metered.SetMeteredKey("PublicKey", "PrivateKey");
            // This code recognize image             
            Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
            // Add images to OcrInput object
            Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
            input.Add("source1.pdf", 0, 3); // set start page and pages number
            input.Add("source2.pdf"); // all pages for recognition
            // Set recognition language
            Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
            recognitionSettings.Language = Aspose.OCR.Language.Latin;
            // Recognize image
            List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
            foreach(Aspose.OCR.RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
            }
            //save as a file
            results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
            //or
            Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
        }
    }
}

System Anforderungen

Benutzen Gescanntes PDF in Text für .NET Stellen Sie sicher, dass Ihr System Folgendes erfüllt, wenn Sie das Plug-in installieren Anforderungen