PDF Extractor SDK за разработчици на софтуер за Windows: PDF до текст, PDF до XML, Изображения от PDF, Четене на PDF информация, PDF до CSV за Excel.
Bytescout PDF Extractor SDK позволява да конвертирате PDF в текст, PDF до XML, PDF до CSV, извличане на изображения от PDF, извличане на информация за PDF файлове в .NET и ActiveX интерфейси, без да е необходим допълнителен софтуер.
Ползи:
преобразува PDF в обикновен текст (и може да следва колони, ако преобразувате вестници в PDF формат) - включително извличане на невидим текст;
преобразува таблици в PDF в Excel (CSV), като чете клетки от даден правоъгълник;
преобразува таблици в PDF в XML файлове;
извлича метаданни на PDF файла (заглавие, автор, описание) и получава друга информация за файла (брой страници, шифровани или не);
извлича вградени изображения от PDF документ (в ASP.NET, VB.NET, C #, VB6 и VBScript);
DocumentMerger и DocumentSplitter интерфейси и класове за сливане и разделяне на PDF документи;
не изисква Adobe Reader или друг софтуер за PDF четец да бъде инсталиран;
осигурява .NET и ActiveX интерфейси;
направени със 100% управляван C # код.
Какво е новото в това издание:
Версия 9.0.0.3079: Добавено е филтриране на извлечено съдържание по име на шрифта, размер на шрифта и цвят.
Актуализирано устройство за OCR до последната версия. Актуализирайте езиковите файлове от папката "tessdata".
Подобрено извличане на текст, групиране на линии в таблични данни, производителност, извличане на формуляри за XFA, TableDetector, фиксирани проблеми при анализа на PDF файлове.
Какво е новото във версия 8.7.0.2980:
Добавено е филтриране на извлечено съдържание по име на шрифта, размер на шрифта и цвят.
Актуализирано устройство за OCR до последната версия. Актуализирайте езиковите файлове от папката "tessdata".
Подобрено извличане на текст, групиране на линии в таблични данни, ефективност, извличане на формуляри за XFA, TableDetector, фиксирани проблеми при анализа на PDF файлове.
Какво е новото във версия 8.6.0.2911:
Добавено е филтриране на извлечено съдържание по име на шрифта, размер на шрифта и цвят.
Актуализирано устройство за OCR до последната версия. Актуализирайте езиковите файлове от папката "tessdata".
Подобрено извличане на текст, групиране на линии в таблични данни, ефективност, извличане на формуляри за XFA, TableDetector, фиксирани проблеми при анализа на PDF файлове.
Какво е новото във версия 8.2.0.2699:
Версия 8.2.0.2699 може да включва неопределени актуализации, подобрения или корекции на програмни грешки.
Какво е новото във версия 8.0.0.2528:
Какво е новото във версия 7.0.0.2474:
Версия 7.0.0.2474:
- добави нов клас полезност DocumentPrinter, позволяващ безпроблемно да се отпечатват PDF документи (без потребителски диалогови прозорци)
- добави нов клас JSONExtractor
- добавен заместване за метода DocumentSplitter.Split (), позволяващ да се определи изходната папка за генерираните файлове
- Фиксирана многоредова грешка в DocumentSplitter
- tableDetector уважава зоната на извличане, зададена от метода SetExtractionArea ()
- нови свойства в класовете за извличане: ExtractionColumns - съдържа координатите на откритите колони; CustomExtractionColumns - позволява да се пренебрегва откриването на колоната
- Методите GetPageRect * не са взели под внимание ротацията на страниците.
Фиксираната грешка в инсталатора, причиняваща някои файлове от предишната инсталация, пречи на актуализациите - Проверявахте проверката на регистрацията. Сега библиотеката няма да прави изключение, но работи в демо режим, ако сте пропуснали или въведете погрешно RegistrationName и RegistrationKey
- PDF мултифункционален инструмент: Добавен е нов списък с документи към бутона "Отваряне на PDF документ"
- PDF Multitool: Изборът може да бъде преоразмерен сега
- PDF мултифункционално устройство: Добавена функция за извличане на JSON
- PDF мултиинструмент: Подобрен потребителски интерфейс за табличен детектор
- PDF Multitool: Значително подобрено качество на изобразяване на шрифта
- PDF Мултиуин: Добавена опция за отстраняване на грешки "Показване на откритите колони за екстракция" в контекстното меню, за да се покажат откритите колони на текущата страница. Става видима само след извършване на извличане срещу текущо показваната страница
- PDF мултифункционален инструмент: Фиксиран проблем при рендиране на шрифтове на 32-битови Windows
- други малки подобрения и корекции на програмни грешки
Какво е новото във версия 6.30.0.2421:
Версия 6.30.0.2421:
- Добавена клавиш за полезност TextComparer (достъпен само в .NET 4.0 събрания), което позволява да се сравнява текст в два PDF документа и да се генерира отчет.
- Подобрена поддръжка на цветовите профили на ICC.
- Импортирана обработка на вградени шрифтове.
- Подобрен прикачен екстрактор.
- Фиксиран метод XMLExtractor.SaveXMLToStream ().
- Фиксирано екстрахирано текстово дублиране при използване на опцията OCRCacheMode.WholePage.
- Други корекции на грешки и подобрения.
Какво е новото във версия 6.20.2354:
Версия 6.20.2354:
- PDF в текст, PDF в CSV, PDF Подобрени са XML функции
- Извличане на нови видеоклипове, извличане на примери за аудио
- CSV и XML екстрактори подобряват поддръжката на таблици с празни колони вътре
- нов MultimediaExtractor за извличане на видео и аудио от PDF
- нова страница PageDataCaching
- нов пример за "MemoryCareProcessingOfHugeFiles"
- Фиксирано нулево изключение при опит за разполагане на вече разположени страници
- XLSExtractor: подобрява подкрепата на шрифтовете
- SkipInvisibleText вече прескача изрязания текст (който не се вижда)
- Подобрена рендиране на изходния текст
- XFDF Extractor: добавена поддръжка за отметки
- Извеждането на изображения е подобрено, за да поддържа повече подформати
- Управлението на текст в Unicode е подобрено
Какво е новото във версия 6.11.2149:
Версия 6.11.2149:
- Процес на обработка на партиди, актуализиран, за да покаже използването на метода Reset ()
- Добавена е извадка от C ++ за извличане на страници
- DocumentMerger добавя метод Merge2 (inputfile1, inputfile2, outputfile) за сливане на 2 файла
- XLS Extractor незначителни корекции на програмни грешки
- PDF Multitool сега позволява да активирате / деактивирате текст, изображение, векторни слоеве, добавя разширени настройки за извличане на текст
- XML, CSV, извличането на таблици подобрява поддръжката на таблици с клетки emtpry в колони
- .ExtractShadowLikeText подобрена: по-добро филтриране за текст в сянка
Какво е новото във версия 6.10.2136:
Версия 6.10.2136:
- PDF до XML, PDF до CSV, подобрена функционалност PDF към текст
- PDF Примерът на командния ред на XLS е добавен (въз основа на VBScript)
- PDF към HTML SDK добавя нова .DetectHyperLinks property (TRUE по подразбиране), за да активирате / деактивирате откриването на автоматизирани връзки в текста
- нов SearchablePDFMaker (достъпен за PRO лицензи), за да конвертирате PDF в PDF файлове с възможност за търсене
- нови свойства в екстрактора: ConsiderFontNames, ConsiderFontSizes, ConsiderFontColors, ConsiderVerticalBorders в CFG файлове
- засичане на колоните на заглавната част (когато AutoAlighHeaderToColumns = true) подобрено
- .DetectLinesInsteadOfParagraphs заменени с нов .LineGroupingMode, за да се контролира как линиите се обединяват в параграфи
- ВАЖНО! PDF За XML коригира дълго време проблем с неправилна координатна Y за текстови обекти (беше точка в долния ляв, вместо в горния ляв ъгъл)
- .TableXMinIntersectionRequiredInPercents и .TableYMinIntersectionRequiredInPercents добавени свойства
- Примерът на изходния код на C ++ е добавен
- XML Extractor поправя липсващите празни колони в режим PreserveFormatting = true
- малки корекции в цветовете в някои PDF файлове
- поддръжка за добавяне на няколко езика за OCR
- PDF Multitool GUI: добавя бутон Копиране в клипборда към диалогови прозорци TXT, CSV, XML и растерни изображения
- XLSExtractor: добавя собственост PageToWorksheet, за да активира / деактивира генерирането на отделни работни листове на страница
- ново .TextEncodingCodePage собственост
- PDFViewerControl: добавя ValidateContextMenu, позволяващ на потребителя да добавя персонализирани елементи към контекстното меню
- Контрол на PDF Viewer: добавя свойства ShowTextObjects, ShowImageObjects, ShowVectorObjects
- XMLExtractor вече добавя атрибут "OCRConfidence" за разпознатия текст
- функционалност за проверка на PDF / A (в бета)
- подобряване на контролите и проверката на текста и подравняването според първоначалното оформление. Проблемът е причинен от изместването на координатите в контролите по време на анализа: това беше неправилно. Правилният начин е да shif ...
- XML Extractor актуализиран: сега създава маркер CONTROL за отметки и текстови полета
- се промени с помощта на текущата директория към temp директория
- квадратчетата за отметка, радиусите, кутиите за редактиране, комбинацията се поддържат по-добре
- сега дава възможност за обаждания с частично доверие
Какво е новото във версия 5.80.1781:
Версия 5.80.1781:
- Актуализиран е PDF до XML, PDF до CSV, PDF към текстова функционалност
- OCRMode сега предлага 9 режима
- .DetectLineInsteadOfParagraph сега работи много по-добре. Задайте го на False, за да запишете многоредовия текст в табличните клетки!
- Поддържаните PDF контроли са подобрени
- Извличане на данни от FDF и XFDF
Какво е новото във версия 5.10.1747:
Версия 5.10.1747:
- PDF до XML, PDF до CSV, PDF до текстови функции са подобрени
- сега поддържа извличането на текст от текстовите контроли
- XML извличащият вече добавя стилове, размери, име, координати на текста в етикети
- Добавена е ASP.NET проба за използване на OCR
- нова собственост OCRLanguageDataFolder, за да посочи местоположението на папката "tessdata"
- подобрена поддръжка на PDF файлове
- подобрява поддръжката на въртящ се текст
- актуализирани извадки на изходния код
- актуализирана документация
- малки подобрения и поправки
- Добавена е функционалност на OCR (текст от изображения): сега можете да извлечете текст от вградени изображения и да поправите повреден текст
- проблем, фиксиран с CSV и XML екстрактор, липсващ в последните колони с някои настройки
- подобрена поддръжка за повредени PDF файлове
- Понастоящем се поддържа мултилентово търсене на текстови търсения с режими за съвпадение на думи
- сега може да търси текст с тирета и на различни линии: вижте нов пример за изходния код Намерете текста с хипноти
- нова собственост .RTLTextAutoDetectionEnabled (по подразбиране е фалшив), за автоматично откриване на RTL езици
- Демо версия на PDF Viewer GUI е подобрена
- малки подобрения и поправки
Изисквания :.NET Framework 2.0 или по-нови
strong>:
Наг екран, воден знак на изход
Версия 5.00.1626:
- PDF до XML, PDF до CSV, PDF до текстови функции са подобрени
Коментари не е намерена