Отсканированный PDF в текст для .NET

Подключаемый модуль .NET OCR, который извлекает текст из отсканированных PDF-файлов или преобразует их в доступные для поиска документы, из которых можно выбирать и копировать текст. Передовые алгоритмы машинного обучения точно определяют структуру текста и таблиц. Оригинальные изображения размещаются на заднем плане, поэтому вы не потеряете содержимое.

Buy for $99

Делиться

Теги для поиска

OCR pdf to text pdf to searchable pdf .NET

Особенности и преимущества

Поддерживает европейские, кириллические и азиатские языки, включая китайский и хинди.
Превосходная скорость и точность распознавания.
Может использоваться для создания настольных, облачных и веб-приложений для ряда платформ.
Обнаруживает и распознает все популярные шрифты и стили шрифтов.
Обрабатывает повернутые, искаженные и зашумленные изображения.
Читает все форматы изображений, которые вы можете получить со сканера или камеры.
Массовое распознавание нескольких изображений в папке или архиве.
Распознает все изображение или только выбранные области.
Обнаруживает и автоматически исправляет орфографические ошибки.

Aspose.OCR для .NET

Справочник по API Документация Живое демо

Как использовать плагин

1

Install-Package Aspose.OCR

Преобразование отсканированного PDF в текст

Оцифровывайте отсканированные документы или конвертируйте отсканированные файлы в индексируемые и доступные для поиска PDF-файлы, написав менее 10 строк кода. Забудьте о ручном перепечатывании, сэкономьте драгоценное время и сосредоточьтесь на текущей задаче.

Как использовать плагин

Установите пакет Aspose.OCR из Nuget или локально загруженного файла.
Загрузите отсканированное изображение в объект OcrInput.
Создайте экземпляр механизма распознавания Aspose.OCR.
Извлечение текста из отсканированного PDF.
Выведите распознанный текст или сохраните его в файл.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33


using System;
 using Aspose.ocr;

namespace CSharpTutorials
{
    class Program
    {
        static void Main(string[] args)
        {
            Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
            metered.SetMeteredKey("PublicKey", "PrivateKey");
            // This code recognize image             
            Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
            // Add images to OcrInput object
            Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
            input.Add("source1.pdf", 0, 3); // set start page and pages number
            input.Add("source2.pdf"); // all pages for recognition
            // Set recognition language
            Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
            recognitionSettings.Language = Aspose.OCR.Language.Latin;
            // Recognize image
            List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
            foreach(Aspose.OCR.RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
            }
            //save as a file
            results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
            //or
            Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
        }
    }
}

Системные Требования

Использовать Отсканированный PDF в текст для .NET подключаемый модуль, убедитесь, что ваша система соответствует следующим требованиям