Apache Tika

Софтуер снимки:
Apache Tika
Софтуер детайли:
Версия: 1.9 актуализира
Дата на качване: 20 Jul 15
Розробник: Apache Software Foundation
Разрешително: Безплатно
Популярност: 320

Rating: 4.0/5 (Total Votes: 2)

Apache Tika е разработен като инструментариум за ниско равнище за търсене на съдържание вътре в други файлове.
Тика не направи много по своя собствена библиотека е проста, но тя може да се интегрира в по-мощни инструменти като търсачките, системи за управление на активи или цифрови CMSS да осигури напълно функционална система за търсене на-файл.
Библиотеката може да получите достъп до удар с глава само на файла за бързо цялостна информация за файла, или може да отида наистина дълбока и търсене, дори в тялото на файла за различни типове данни, в текст или двоичен формат.
Широка гама от типове файлове се поддържат и Тика може да се използва и с други програмни езици, благодарение на серия от трети страни автомати и опаковки.

Какво ново в тази версия

  • Тази версия включва корекции на грешки и нови функции, включително нов тесеракт OCR Parser; нов GDAL Parser; повече поддържаните формати, както и цялостното подобрение в Tika стабилност.

Какво ново във версия 1.8:

  • Тази версия включва корекции на грешки и нови функции, включително нов тесеракт OCR Parser; нов GDAL Parser; повече поддържаните формати, както и цялостното подобрение в Tika стабилност.

Какво ново във версия 1.7:

  • Тази версия включва корекции на грешки и нови функции, включително нов тесеракт OCR Parser; нов GDAL Parser; повече поддържаните формати, както и цялостното подобрение в Tika стабилност.

Какво ново във версия 1.6:

  • Тази версия включва корекции на грешки и нови функции, включително нов превод API, повече поддържани формати, както и цялостно подобряване Tika стабилност.

Какво ново във версия 1.5:.

  • Фиксирана бъг в боравене с вградена обработка на файлове в PDF документи
  • Добавено SourceCodeParser в подкрепа на Java, Groovy, C ++ файлове.
  • Updated Tika Сървър за подкрепа товари съставно / формуляри за данни.
  • Updated Tika сървър да CXF 2.7.8.
  • Updated Tika сървър да приема заявки над заместващи адреси.
  • Добавена опция за използване на алтернативен NonSequentialPDFParser.
  • Съдържание от PDF AcroForms сега се екстрахира.
  • Фиксирани невалидни звездички от майстор слайд в PPT.

  • <> Ли Добавен тестови случаи, за да потвърди боравене с авто-актуална в PPT и PPTX.

Какво ново във версия 1.4:

  • Премахнато тест HTML файл с лошо мача GPL текст на тя.
  • Подобрения на ТИКА-сървър, за да му позволят да произвеждат текст / HTML и текст / XML съдържание.
  • Подобрения са направени в Compressor парсера да се справят g'zipped файлове, които се нуждаят от възможността decompressConcatenated настроен да е истина.
  • отправи типографски грешки, които се възпрепятства откриването на Awk файлове.

Какво ново във версия 1.2:

  • Apache Tika 1.2 съдържа редица подобрения и корекции на грешки.

Какво ново във версия 1.0:

  • Apache Tika 1.0 съдържа редица подобрения и корекции на грешки.

Какво ново във версия 0.9:.

  • Тази версия включва няколко важни корекции на грешки и нови функции

Какво ново във версия 0.8:

  • идентификационен Language сега е динамично конфигуриране, управлявани чрез конфигурационния файл зарежда от CLASSPATH.
  • Tika вече поддържа разбор Feeds се увива в основата Рим библиотеката.
  • A ръководство за бърз старт за Tika разбор е допринесъл.

  • е добавен
  • Един подход за водопроводни чрез XHTML атрибути.
  • тип Media йерархия информация сега се взема под внимание при избора на най-анализатор за даден входен документ.
  • Подкрепа за разбор на общи научни формати за данни, включително NetCDF и се прибавя HDF4 / 5.
  • Unit тестове за Windows са фиксирани, което позволява TestParsers да се изпълни.

Какво ново във версия 0.7:

  • MP3 файл разбор е подобрена, включително канал и SAMPLERATE екстракция и подкрепа ID3v2. Освен това, за откриване на аудио разбор мим също е подобрена за формат MIDI.
  • Tika вече не разчита на X11 за своята RTF разбор функционалност.
  • A Thread-безопасно бъг в AutoDetectParser е била открита и адресирана.
  • Ъпгрейд PDFBox 1.0.0. Новата версия PDFBox подобрява производителността PDF разбор, и определя редица въпроси за извличане на текст.

<> силни Изисквания

  • Java 6 или по-висока

Подобен софтуер

L.js
L.js

13 May 15

rdf-json
rdf-json

12 Apr 15

Sheethub
Sheethub

12 Apr 15

Друг софтуер на разработчика Apache Software Foundation

Apache FOP
Apache FOP

13 May 15

Apache Synapse
Apache Synapse

13 Apr 15

Apache Chukwa
Apache Chukwa

9 Apr 16

Коментари към Apache Tika

Коментари не е намерена
добавите коментар
Включете на изображения!
Търсене по категория