Выберите язык
  1. Продукты
  2. Aspose.OCR
  3. Recognize PDF
clearbit icon

Отсканированный PDF в текст для .NET

Подключаемый модуль .NET OCR, который извлекает текст из отсканированных PDF-файлов или преобразует их в доступные для поиска документы, из которых можно выбирать и копировать текст. Передовые алгоритмы машинного обучения точно определяют структуру текста и таблиц. Оригинальные изображения размещаются на заднем плане, поэтому вы не потеряете содержимое.

Buy for $99
Делиться
Логотип Instagram Логотип Dribbble Логотип Twitter Логотип YouTube

Особенности и преимущества

  • Поддерживает европейские, кириллические и азиатские языки, включая китайский и хинди.
  • Превосходная скорость и точность распознавания.
  • Может использоваться для создания настольных, облачных и веб-приложений для ряда платформ.
  • Обнаруживает и распознает все популярные шрифты и стили шрифтов.
  • Обрабатывает повернутые, искаженные и зашумленные изображения.
  • Читает все форматы изображений, которые вы можете получить со сканера или камеры.
  • Массовое распознавание нескольких изображений в папке или архиве.
  • Распознает все изображение или только выбранные области.
  • Обнаруживает и автоматически исправляет орфографические ошибки.

Как использовать плагин

1
Install-Package Aspose.OCR

Преобразование отсканированного PDF в текст

Оцифровывайте отсканированные документы или конвертируйте отсканированные файлы в индексируемые и доступные для поиска PDF-файлы, написав менее 10 строк кода. Забудьте о ручном перепечатывании, сэкономьте драгоценное время и сосредоточьтесь на текущей задаче.

Как использовать плагин

  1. Установите пакет Aspose.OCR из Nuget или локально загруженного файла.
  2. Загрузите отсканированное изображение в объект OcrInput.
  3. Создайте экземпляр механизма распознавания Aspose.OCR.
  4. Извлечение текста из отсканированного PDF.
  5. Выведите распознанный текст или сохраните его в файл.
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
using System;
 using Aspose.ocr;

namespace CSharpTutorials
{
    class Program
    {
        static void Main(string[] args)
        {
            Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
            metered.SetMeteredKey("PublicKey", "PrivateKey");
            // This code recognize image             
            Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
            // Add images to OcrInput object
            Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
            input.Add("source1.pdf", 0, 3); // set start page and pages number
            input.Add("source2.pdf"); // all pages for recognition
            // Set recognition language
            Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
            recognitionSettings.Language = Aspose.OCR.Language.Latin;
            // Recognize image
            List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
            foreach(Aspose.OCR.RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
            }
            //save as a file
            results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
            //or
            Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
        }
    }
}

Системные Требования

Использовать Отсканированный PDF в текст для .NET подключаемый модуль, убедитесь, что ваша система соответствует следующим требованиям