Apache Tika

Tika
	; Logo programu
Autor	Apache Software Foundation
Pierwsze wydanie	2007
Aktualna wersja stabilna	2.3.0 – 7 lutego 2022; ponad 2 lata temu
Aktualna wersja testowa	3.0.0-BETA; (13 grudnia 2023) [±]
Język programowania	Java
System operacyjny	Wieloplatformowy
Rodzaj	biblioteka programistyczna (ekstrakcja tekstu i meta-danych z dokumentów)
Licencja	Apache License
	Strona internetowa

Apache Tika – otwartoźródłowe oprogramowanie do wykrywania i analizy treści, napisane w Javie, stworzone i znajdujące się pod opieką Apache Software Foundation. Tika wykrywa i wyodrębnia metadane oraz tekst z ponad tysiąca różnych typów plików^[2]. Narzędzia Tika można używać m.in. jako biblioteki programistycznej (nie tylko w jęz. Java, lecz w wielu innych popularnych jęz. programowania^[3]), z wiersza poleceń (CLI) lub jako serwis webowy (REST).

Opis działania

Tika umożliwia identyfikację ponad 1400 typów plików na podstawie taksonomii typów MIME. W przypadku większości popularnych i popularnych formatów Tika zapewnia ekstrakcję treści, ekstrakcję metadanych oraz identyfikację języka. Formatem wyjściowym działania aplikacji może być jeden z kilku formatów (m.in. JSON, XML, HTML), które mogą następnie być użyte jako dane wejściowe do innych narzędzi. Istnieje możliwość rozpoznawania tekstu w formie obrazu za pomocą oprogramowania OCR Tesseract^[4].

Użycie

Tika, mimo że może być użyta samodzielnie, typowo jest używana w powiązaniu z innymi narzędziami^[5]: wyodrębniony tekst i metadane trafiają do narzędzi indeksujących treść takich jak Apache Solr lub Elasticsearch^[6] lub są poddawane analizie „w locie”^[7]. Tego typu funkcje są użyteczne w systemach zarządzania treścią^[8], wyszukiwarkach korporacyjnych i internetowych czy robotach internetowych, takich jak Apache Nutch^[9] itp. Treści wyodrębnione przez system Tika mogą być udostępnione w innej formie w jednym popularnych formatów.

Zastosowania

Tika jest, pośrednio lub bezpośrednio, używana obecnie w wielu dziedzinach i branżach, które są zainteresowane przetwarzaniem dużych ilości danych tekstowych: w badaniach naukowych i rynkowych^[7], przez instytucje finansowe (w tym Goldman Sachs^[10]) itp.

4 kwietnia 2016 r. Forbes opublikował artykuł wskazujący Tikę jako jedną z kluczowych technologii używanych przez ponad 400 dziennikarzy do analizy 11,5 miliona ujawnionych dokumentów w ramach wycieku danych znanych pod nazwą Panama Papers (gdzie ujawniono przypadki przechowywania środków finansowych w zagranicznych instytucjach finansowych zlokalizowanych w rajach podatkowych przez wielu prominentnych polityków, urzędników i ich współpracowników)^[11].

Przypisy

↑ Apache Tika – Apache Tika [online], tika.apache.org [dostęp 2022-02-20] .
↑ Apache Tika – Supported Document Formats [online], tika.apache.org [dostęp 2020-03-03] .
↑ API Bindings for Tika - TIKA - Apache Software Foundation [online], cwiki.apache.org [dostęp 2020-03-03] .
↑ TikaOCR - TIKA - Apache Software Foundation [online], cwiki.apache.org [dostęp 2020-03-03] .
↑ Mattmann, Chris, i Jukka Zitting. Tika in action. Manning Publications Co., 2011.
↑ Luburić, Nikola, i Dragan Ivanović. „Comparing apache solr and elasticsearch search servers”, 2016.
↑ ^a ^b Verma, Rishi, i Chris Mattmann. „Extending Spark Analytics through Tika-Based Information Extraction and Retrieval”. W 2015 IEEE International Conference on Information Reuse and Integration, 215–218. IEEE, 2015.
↑ Content Transformation and Metadata Extraction with Apache Tika [online], Alfresco Hub, 5 czerwca 2015 [dostęp 2020-03-03] (ang.).
↑ Nagel, Sebastian. „Web crawling with Apache Nutch”. ApacheCon EU, 2014.
↑ Goldman Sachs Puts Elasticsearch To Work [online], InformationWeek [dostęp 2020-03-03] (ang.).
↑ ThomasT. Fox-Brewster ThomasT., From Encrypted Drives To Amazon's Cloud -- The Amazing Flight Of The Panama Papers [online], Forbes [dostęp 2020-03-03] (ang.).

[1] Apache Tika – Apache Tika [online], tika.apache.org [dostęp 2022-02-20] .

[2] Apache Tika – Supported Document Formats [online], tika.apache.org [dostęp 2020-03-03] .

[3] API Bindings for Tika - TIKA - Apache Software Foundation [online], cwiki.apache.org [dostęp 2020-03-03] .

[4] TikaOCR - TIKA - Apache Software Foundation [online], cwiki.apache.org [dostęp 2020-03-03] .

[5] Mattmann, Chris, i Jukka Zitting. Tika in action. Manning Publications Co., 2011.

[6] Luburić, Nikola, i Dragan Ivanović. „Comparing apache solr and elasticsearch search servers”, 2016.

[:0-7] Verma, Rishi, i Chris Mattmann. „Extending Spark Analytics through Tika-Based Information Extraction and Retrieval”. W 2015 IEEE International Conference on Information Reuse and Integration, 215–218. IEEE, 2015.

[8] Content Transformation and Metadata Extraction with Apache Tika [online], Alfresco Hub, 5 czerwca 2015 [dostęp 2020-03-03] (ang.).

[9] Nagel, Sebastian. „Web crawling with Apache Nutch”. ApacheCon EU, 2014.

[10] Goldman Sachs Puts Elasticsearch To Work [online], InformationWeek [dostęp 2020-03-03] (ang.).

[11] ThomasT. Fox-Brewster ThomasT., From Encrypted Drives To Amazon's Cloud -- The Amazing Flight Of The Panama Papers [online], Forbes [dostęp 2020-03-03] (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]