Apache Tika

Софтуер снимки:
Apache Tika
Софтуер детайли:
Версия: 1.4
Дата на качване: 20 Feb 15
Розробник: The Apache Software Foundation
Разрешително: Безплатно
Популярност: 6

Rating: nan/5 (Total Votes: 0)

Apache Тика е с отворен код инструментариум предназначен за откриване и извличане на метаданни, както и структурирано съдържание на текст от няколко документа, с помощта на нищо друго, освен съществуващите анализатор библиотеки.
Apache Tika поддържа следните формати на документи: HyperText Markup Language (HTTP), XML и производните им формати, документни формати на Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), електронен формат на публикация (EPF), Rich Text Format (RTF ), компресия и опаковъчни формати, текст / аудио / снимка / видео формати, формат MBOX и класа файлове и архиви Java.
Преди това Apache Тика беше подпроект на софтуер библиотеката Apache Lucene. Сега тя е разпределена като самостоятелен пакет от фондация Apache Software

Какво ново в тази версия:.

  • Премахнато тест HTML файл с лошо мача GPL текст в него (ТИКА-1129).
  • Подобрения на ТИКА-сървър, за да му позволят да произвеждат текст / HTML и текст / XML съдържание (TIKA-1126, ТИКА-1127).
  • Подобрения са направени в Compressor парсера да се справят g'zipped файлове, които се нуждаят от възможността decompressConcatenated настроено на истина (ТИКА-1096).
  • отправи типографски грешки, които се възпрепятства разкриването на Awk файлове (ТИКА-1081).
  • Добавена нова крайна точка да JAX-RS REST сървъра Тика, че само открива Тип носител на базата на една малка част от документа, представен (ТИКА-1047).
  • RTF:. Подредените и неподредените списъци вече са извлечени (TIKA-1062)
  • MP3: Audio продължителност сега се извлича (ТИКА-991)
  • Java .class файлове:. Повишен от ASM 3.1 до 4.1 ASM за разбор на bytecodes Java (ТИКА-1053)
  • Видове Mime: Определения, предоставени на избор да включва линк (URL) и инфекции на пикочните пътища, както и подробности за няколко общи формати (ТИКА-1012 / ТИКА-1083)
  • Изключения при разбор OLE10 вградени документи, когато разбор обобщена информация от документите за офиса, както и при записването на вградени documennts в TikaCLI сега са влизали вместо абортира екстракция (ТИКА-1074)
  • MS Word: Онлайн табличен характер сега е заменен с нов ред (TIKA-1128)
  • XML: ElementMetadataHandlers сега може да приемат дублиращи и празни стойности (TIKA-1133)
  • .

<силни> Изисквания :

  • Java 2 Standard Edition Runtime Environment

Друг софтуер на разработчика The Apache Software Foundation

Apache HBase
Apache HBase

17 Feb 15

Apache Hadoop
Apache Hadoop

18 Jul 15

Коментари към Apache Tika

Коментари не е намерена
добавите коментар
Включете на изображения!