Apache Tika

Софтуер снимки:
Apache Tika
Софтуер детайли:
Версия: 1.9 актуализира
Дата на качване: 20 Jul 15
Розробник: Apache Software Foundation
Разрешително: Безплатно
Популярност: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika е разработен като инструментариум за ниско равнище за търсене на съдържание вътре в други файлове.
Тика не направи много по своя собствена библиотека е проста, но тя може да се интегрира в по-мощни инструменти като търсачките, системи за управление на активи или цифрови CMSS да осигури напълно функционална система за търсене на-файл.
Библиотеката може да получите достъп до удар с глава само на файла за бързо цялостна информация за файла, или може да отида наистина дълбока и търсене, дори в тялото на файла за различни типове данни, в текст или двоичен формат.
Широка гама от типове файлове се поддържат и Тика може да се използва и с други програмни езици, благодарение на серия от трети страни автомати и опаковки.

Какво ново в тази версия

  • Тази версия включва корекции на грешки и нови функции, включително нов тесеракт OCR Parser; нов GDAL Parser; повече поддържаните формати, както и цялостното подобрение в Tika стабилност.

Какво ново във версия 1.8:

  • Тази версия включва корекции на грешки и нови функции, включително нов тесеракт OCR Parser; нов GDAL Parser; повече поддържаните формати, както и цялостното подобрение в Tika стабилност.

Какво ново във версия 1.7:

  • Тази версия включва корекции на грешки и нови функции, включително нов тесеракт OCR Parser; нов GDAL Parser; повече поддържаните формати, както и цялостното подобрение в Tika стабилност.

Какво ново във версия 1.6:

  • Тази версия включва корекции на грешки и нови функции, включително нов превод API, повече поддържани формати, както и цялостно подобряване Tika стабилност.

Какво ново във версия 1.5:.

  • Фиксирана бъг в боравене с вградена обработка на файлове в PDF документи
  • Добавено SourceCodeParser в подкрепа на Java, Groovy, C ++ файлове.
  • Updated Tika Сървър за подкрепа товари съставно / формуляри за данни.
  • Updated Tika сървър да CXF 2.7.8.
  • Updated Tika сървър да приема заявки над заместващи адреси.
  • Добавена опция за използване на алтернативен NonSequentialPDFParser.
  • Съдържание от PDF AcroForms сега се екстрахира.
  • Фиксирани невалидни звездички от майстор слайд в PPT.

  • <> Ли Добавен тестови случаи, за да потвърди боравене с авто-актуална в PPT и PPTX.

Какво ново във версия 1.4:

  • Премахнато тест HTML файл с лошо мача GPL текст на тя.
  • Подобрения на ТИКА-сървър, за да му позволят да произвеждат текст / HTML и текст / XML съдържание.
  • Подобрения са направени в Compressor парсера да се справят g'zipped файлове, които се нуждаят от възможността decompressConcatenated настроен да е истина.
  • отправи типографски грешки, които се възпрепятства откриването на Awk файлове.

Какво ново във версия 1.2:

  • Apache Tika 1.2 съдържа редица подобрения и корекции на грешки.

Какво ново във версия 1.0:

  • Apache Tika 1.0 съдържа редица подобрения и корекции на грешки.

Какво ново във версия 0.9:.

  • Тази версия включва няколко важни корекции на грешки и нови функции

Какво ново във версия 0.8:

  • идентификационен Language сега е динамично конфигуриране, управлявани чрез конфигурационния файл зарежда от CLASSPATH.
  • Tika вече поддържа разбор Feeds се увива в основата Рим библиотеката.
  • A ръководство за бърз старт за Tika разбор е допринесъл.

  • е добавен
  • Един подход за водопроводни чрез XHTML атрибути.
  • тип Media йерархия информация сега се взема под внимание при избора на най-анализатор за даден входен документ.
  • Подкрепа за разбор на общи научни формати за данни, включително NetCDF и се прибавя HDF4 / 5.
  • Unit тестове за Windows са фиксирани, което позволява TestParsers да се изпълни.

Какво ново във версия 0.7:

  • MP3 файл разбор е подобрена, включително канал и SAMPLERATE екстракция и подкрепа ID3v2. Освен това, за откриване на аудио разбор мим също е подобрена за формат MIDI.
  • Tika вече не разчита на X11 за своята RTF разбор функционалност.
  • A Thread-безопасно бъг в AutoDetectParser е била открита и адресирана.
  • Ъпгрейд PDFBox 1.0.0. Новата версия PDFBox подобрява производителността PDF разбор, и определя редица въпроси за извличане на текст.

<> силни Изисквания

  • Java 6 или по-висока

Подобен софтуер

cssFx
cssFx

14 Apr 15

Rice
Rice

10 Dec 15

LightCsv
LightCsv

12 May 15

rdf-isomorphic
rdf-isomorphic

10 Dec 15

Друг софтуер на разработчика Apache Software Foundation

Apache BVal
Apache BVal

9 Apr 16

Apache FOP
Apache FOP

13 May 15

Apache Groovy
Apache Groovy

10 Dec 15

Apache Buildr
Apache Buildr

20 Jul 15

Коментари към Apache Tika

Коментари не е намерена
добавите коментар
Включете на изображения!
Търсене по категория