Apache Tika е разработен като инструментариум за ниско равнище за търсене на съдържание вътре в други файлове.
Тика не направи много по своя собствена библиотека е проста, но тя може да се интегрира в по-мощни инструменти като търсачките, системи за управление на активи или цифрови CMSS да осигури напълно функционална система за търсене на-файл.
Библиотеката може да получите достъп до удар с глава само на файла за бързо цялостна информация за файла, или може да отида наистина дълбока и търсене, дори в тялото на файла за различни типове данни, в текст или двоичен формат.
Широка гама от типове файлове се поддържат и Тика може да се използва и с други програмни езици, благодарение на серия от трети страни автомати и опаковки.
Какво ново в тази версия
- Тази версия включва корекции на грешки и нови функции, включително нов тесеракт OCR Parser; нов GDAL Parser; повече поддържаните формати, както и цялостното подобрение в Tika стабилност.
Какво ново във версия 1.8:
- Тази версия включва корекции на грешки и нови функции, включително нов тесеракт OCR Parser; нов GDAL Parser; повече поддържаните формати, както и цялостното подобрение в Tika стабилност.
Какво ново във версия 1.7:
- Тази версия включва корекции на грешки и нови функции, включително нов тесеракт OCR Parser; нов GDAL Parser; повече поддържаните формати, както и цялостното подобрение в Tika стабилност.
Какво ново във версия 1.6:
- Тази версия включва корекции на грешки и нови функции, включително нов превод API, повече поддържани формати, както и цялостно подобряване Tika стабилност.
Какво ново във версия 1.5:.
- Фиксирана бъг в боравене с вградена обработка на файлове в PDF документи
- Добавено SourceCodeParser в подкрепа на Java, Groovy, C ++ файлове.
- Updated Tika Сървър за подкрепа товари съставно / формуляри за данни.
- Updated Tika сървър да CXF 2.7.8.
- Updated Tika сървър да приема заявки над заместващи адреси.
- Добавена опция за използване на алтернативен NonSequentialPDFParser.
- Съдържание от PDF AcroForms сега се екстрахира.
- Фиксирани невалидни звездички от майстор слайд в PPT.
<> Ли Добавен тестови случаи, за да потвърди боравене с авто-актуална в PPT и PPTX.
Какво ново във версия 1.4:
- Премахнато тест HTML файл с лошо мача GPL текст на тя.
- Подобрения на ТИКА-сървър, за да му позволят да произвеждат текст / HTML и текст / XML съдържание.
- Подобрения са направени в Compressor парсера да се справят g'zipped файлове, които се нуждаят от възможността decompressConcatenated настроен да е истина.
- отправи типографски грешки, които се възпрепятства откриването на Awk файлове.
Какво ново във версия 1.2:
- Apache Tika 1.2 съдържа редица подобрения и корекции на грешки.
Какво ново във версия 1.0:
- Apache Tika 1.0 съдържа редица подобрения и корекции на грешки.
Какво ново във версия 0.9:.
- Тази версия включва няколко важни корекции на грешки и нови функции
Какво ново във версия 0.8:
- идентификационен Language сега е динамично конфигуриране, управлявани чрез конфигурационния файл зарежда от CLASSPATH.
- Tika вече поддържа разбор Feeds се увива в основата Рим библиотеката.
- A ръководство за бърз старт за Tika разбор е допринесъл.
- Един подход за водопроводни чрез XHTML атрибути.
- тип Media йерархия информация сега се взема под внимание при избора на най-анализатор за даден входен документ.
- Подкрепа за разбор на общи научни формати за данни, включително NetCDF и се прибавя HDF4 / 5.
- Unit тестове за Windows са фиксирани, което позволява TestParsers да се изпълни.
е добавен
Какво ново във версия 0.7:
- MP3 файл разбор е подобрена, включително канал и SAMPLERATE екстракция и подкрепа ID3v2. Освен това, за откриване на аудио разбор мим също е подобрена за формат MIDI.
- Tika вече не разчита на X11 за своята RTF разбор функционалност.
- A Thread-безопасно бъг в AutoDetectParser е била открита и адресирана.
- Ъпгрейд PDFBox 1.0.0. Новата версия PDFBox подобрява производителността PDF разбор, и определя редица въпроси за извличане на текст.
<> силни Изисквания
- Java 6 или по-висока
Коментари не е намерена