Apache Тика е с отворен код инструментариум предназначен за откриване и извличане на метаданни, както и структурирано съдържание на текст от няколко документа, с помощта на нищо друго, освен съществуващите анализатор библиотеки.
Apache Tika поддържа следните формати на документи: HyperText Markup Language (HTTP), XML и производните им формати, документни формати на Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), електронен формат на публикация (EPF), Rich Text Format (RTF ), компресия и опаковъчни формати, текст / аудио / снимка / видео формати, формат MBOX и класа файлове и архиви Java.
Преди това Apache Тика беше подпроект на софтуер библиотеката Apache Lucene. Сега тя е разпределена като самостоятелен пакет от фондация Apache Software
Какво ново в тази версия:.
- Премахнато тест HTML файл с лошо мача GPL текст в него (ТИКА-1129).
- Подобрения на ТИКА-сървър, за да му позволят да произвеждат текст / HTML и текст / XML съдържание (TIKA-1126, ТИКА-1127).
- Подобрения са направени в Compressor парсера да се справят g'zipped файлове, които се нуждаят от възможността decompressConcatenated настроено на истина (ТИКА-1096).
- отправи типографски грешки, които се възпрепятства разкриването на Awk файлове (ТИКА-1081).
- Добавена нова крайна точка да JAX-RS REST сървъра Тика, че само открива Тип носител на базата на една малка част от документа, представен (ТИКА-1047).
- RTF:. Подредените и неподредените списъци вече са извлечени (TIKA-1062)
- MP3: Audio продължителност сега се извлича (ТИКА-991)
- Java .class файлове:. Повишен от ASM 3.1 до 4.1 ASM за разбор на bytecodes Java (ТИКА-1053)
- Видове Mime: Определения, предоставени на избор да включва линк (URL) и инфекции на пикочните пътища, както и подробности за няколко общи формати (ТИКА-1012 / ТИКА-1083)
- Изключения при разбор OLE10 вградени документи, когато разбор обобщена информация от документите за офиса, както и при записването на вградени documennts в TikaCLI сега са влизали вместо абортира екстракция (ТИКА-1074)
- MS Word: Онлайн табличен характер сега е заменен с нов ред (TIKA-1128)
- XML: ElementMetadataHandlers сега може да приемат дублиращи и празни стойности (TIKA-1133) .
<силни> Изисквания :
- Java 2 Standard Edition Runtime Environment
Коментари не е намерена