Apache Tika

Apache Tika
Тип	набір бібліотек
Розробники	Apache Software Foundation
Перший випуск	2011
Стабільний випуск	1.7 (15 січня 2015; 9 років тому)
Платформа	JVM
Мова програмування	Java
Доступні мови	Java
Ліцензія	Apache License
Репозиторій	gitbox.apache.org/repos/asf/tika.git
Вебсайт	tika.apache.org
	Медіафайли у Вікісховищі;

Перевірена версія цієї сторінки, затверджена 19 квітня 2022, заснована на цій версії.

Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм.

Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт.

Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та C++.

Застосування

Технології Tika використані у фреймворку для побудови пошукових систем Nutch.

Apache Tika був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»^[3].

Примітки

↑ The tika Open Source Project on Open Hub: Languages Page — 2006.
d:Track:Q124688
↑ https://projects.apache.org/json/projects/tika.json
↑ Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Архів оригіналу за 11 квітня 2016. Процитовано 18 квітня 2016.

Посилання

Офіційний сайт
Tika Wiki [Архівовано 16 липня 2012 у Wayback Machine.]

Це незавершена стаття про програмне забезпечення.
Ви можете допомогти проєкту, виправивши або дописавши її.

Портал «Програмування» Портал «Вільне програмне забезпечення»

[<span_class="wikidata_cite_citetype_Q35127_citetype_Q2352616"_data-entity-id="Q124688">[https://www.openhub.net/p/tika/analyses/latest/languages_summary_The_tika_Open_Source_Project_on_Open_Hub:_Languages_Page]<span_class="wef_low_priority_links">_—_2006.</span></span><div_style="display:none">[[d:Track:Q124688]]</div>-1] The tika Open Source Project on Open Hub: Languages Page — 2006.
d:Track:Q124688

[[https://projects.apache.org/json/projects/tika.json_https://projects.apache.org/json/projects/tika.json]<span_class="wef_low_priority_links"></span><div_style="display:none"></div>-2] ttps://projects.apache.org/json/projects/tika.json

[on.11-3] Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Архів оригіналу за 11 квітня 2016. Процитовано 18 квітня 2016.

[1]

[2]

[3]

п о р Apache Software Foundation
Основні проєкти	ActiveMQ · Airflow · Ant · Apache HTTP Server · APR · Apache Beam^[en] · Bloodhound · Buildr · Camel · Cassandra · Cayenne · Chemistry · CloudStack · Cocoon · Commons · Cordova · CouchDB · CXF · Deltacloud · Derby · Directory · Excalibur · Felix · Flex · Forrest · Geronimo · Gump · Hadoop · iBATIS · Isis · Jackrabbit · James · Lenya · Lucene · Maven · mod_perl · MyFaces · OFBiz · OpenEJB · OpenJPA · OpenNLP · OpenOffice · POI · Qpid · Rave · Roller · Sling · SpamAssassin · Spark · Sqoop · Stratos · Struts · Subversion · Tapestry · Tika · Tomcat · Traffic Server · Tuscany · Velocity · Wicket · XMLBeans^[en]
Інші проєкти	Jakarta Project · Apache XML · Apache Incubator
Підпроєкти	BCEL · BSF · Cactus · Chainsaw · HBase · JMeter · Xerces · Batik · FOP · Log4j · XAP · River · ServiceMix · Log4Net · Abdera · Ivy · ODE · JSPWiki · Wink · Solr
Інкубатор	MXNet · OpenMeetings · Superset
Колишні проєкти (Attic)	Beehive · Harmony · HiveMind · Slide · Shale · Wave
Ліцензія: Apache License · Сайт: http://apache.org/

Apache Tika

Застосування

Примітки

Посилання

Навігаційне меню

Пошук