PDFTextStream

Софтуер снимки:
PDFTextStream
Софтуер детайли:
Версия: 2.6.0
Дата на качване: 20 Feb 15
Разрешително: Shareware
Цена: 1900.00 $
Популярност: 63

Rating: 3.5/5 (Total Votes: 2)

проект PDFTextStream е PDF текст и метаданни библиотека на разположение за Java, Python, и .NET екстракция.
Тя поддържа всички версии на спецификацията на PDF документ, (включително v1.6, използвани от Acrobat 7), извличане на текст, кодиран с използването двубайтовата кодови (включително китайски, корейски и японски), декриптиране на 40-битов и 128- битови криптирани документи, както и извличане на всички метаданни на документи, предоставени от PDF документи (включително данни за формуляри, отметки и анотации).
Лесна интеграция с Jakarta Lucene е включена

Какво ново в тази версия:.

  • Тази версия включва различни поправки направени да се гарантира, PDFTextStream е в състояние да извлича текст от PDF документи, че са нямат правилен в спецификацията PDF.
  • Той също така включва разнообразие от подобрения на производителността.

Какво ново във версия 2.3.0:

  • Добавена .isStruckThrough () метод, за да ком. snowtide.pdf.TextUnit, се посочва дали един герой има зачертаване, която преминава през него.
  • Подобрена поддръжка PDFTextStream за вградени символни преобразувания.
  • Изчисляването на интервали между думите е определен да отчете правилно за празно пространство, което е изрично кодирана в източник на PDF документи.
  • Подобрено обработване на композитни кодировки на съдържание, които преди това може да се провалят в резултат на което някои диапазони на PDF съдържание се "игнорира" по време на екстракцията PDFTextStream си.
  • Фиксирана бъг в VisualOutputTarget когато текст от един ред ще се раздели през няколко реда
  • Подобрена вертикално подравняване на текст извлича чрез VisualOutputTarget
  • Подобрено VisualOutputTarget произвежданите екстракти за премахване на фалшиви допълнително празно между тясно-съседни думи

Какво ново във версия 2.2.5:

  • Тази версия добавя поддръжка за извличане XFA данни форми, XML.
  • Това значително подобрява работата на текст екстракция с използване VisualOutputTarget. Подкрепа за PDF документи по-големи от 2GB.
  • A решение за бъг, където са били преди това не се прилага правилно в някои обстоятелства кодировките от вградените Type1 шрифтове.
  • A решение за проблем, при по-новите съдържание в актуализираните PDF документи е понякога се пренебрегва.
  • A решение за проблем, когато PDFDocEncoding-кодиран отметки и метаданни не са били декодирани правилно.
  • A .getDestinationName () метод в com.snowtide.pdf.Bookmark.

<силни> Изисквания :

  • Apache Lucene

Коментари към PDFTextStream

Коментари не е намерена
добавите коментар
Включете на изображения!