Tezaurus

Tezaurus (někdy také thesaurus, ve středověké latině „poklad“, z řeckého θησαυρός thesauros „pokladnice“) je v jazykovědě poměrně úplný slovník určitého jazyka nebo jen oborové terminologie, často s hierarchickým uspořádáním jednotlivých hesel od nejabstraktnějších pojmů po nejkonkrétnější;^[1] referenční příručka, která uživateli nabízí seznam synonym, někdy i antonym.

Český tezaurus

Poklad jazyka českého se snažil připravit Jan Amos Komenský, ale dlouho sbíraný materiál shořel při jeho pobytu v Lešně roku 1656.

První český plnohodnotný tezaurus češtiny byl Tezaurus jazyka českého (s podtitulem Slovník českých slov a frází souznačných, blízkých a příbuzných), který vydal Aleš Klégr roku 2007. Je založen na Rogetově tezauru a obsahuje kolem 150 000 lexikálních jednotek.^[2]

Předcházející, nedokončený, pokus byl Český slovník věcný a synonymický (3 díly z 1969–1977) který vedl Jiří Haller.

Klégrův i Hallerův tezaurus jsou postupně zveřejňovány online na najdislovo.cz

Další slovníky synonym v češtině jsou:

Malý slovník českých synonym (1947), Jan Mašín, Josef Václav Bečka, nakladatelství Ing. Mikuta
Slovník synonym a frazeologismů (1977), Josef Václav Bečka, Vydavatelství Novinář
Slovník českých synonym (2001) Karel Pala, Jan Všianský, nakladatelství Lidové Noviny. Dostupné online jako ABZ slovník českých synonym.^[3]
Slovník českých synonym a antonym (2012), Lingea, dostupný také online a jako aplikace.

Tezaurus v kontextu indexování a vyhledávání

Řízený slovník deskriptorů, mezi nimiž jsou určeny vztahy nadřazenosti a podřazenosti, termíny synonymní a jiné související. V odborné literatuře popsán jako řízený a měnitelný slovník deskriptorového a selekčního jazyka uspořádaný tak, že explicitně zachycuje apriorní vztahy mezi lexikálními jednotkami. Lidově řečeno: slovník, který umožňuje uživatelům nabízet shodný nebo podobný seznam slov, což zajišťuje shodné vyjádření problematiky překladu určitého tématu popsaného jazykem autora do jazyka systému. Vyjadřuje pojmy, které jsou v přirozeném jazyce těžko postižitelné a pomocí složených termínů a dalších nástrojů překonává problémy s jazykem umělým.

S jeho pomocí můžeme hledat nějaké informace, aniž bychom věděli, co je preferovaný termín. Umožňuje nám ulehčit práci při nepřeberném množství informací, podobně jako propojovací jazyk v informačních systémech. Využívá se především v knihovnách, informačních střediscích atd. (Český teologický tezaurus, Český pedagogický tezaurus, EUROVOC, AGROVOC).

Tezaurus GEMET

General European Multilingual Environmental Thesaurus, Obecný vícejazyčný tezaurus pro životní prostředí (Dostupný on-line). Obsahuje asi 5200 hesel, je tříděn hierarchicky a tematicky. Vrcholovou hierarchii tvoří 4 nadskupiny, následuje 32 skupin. Pod touto úrovní jsou hierarchie položek s proměnnou hloubkou. Dále jsou položky tříděny tematicky (český překlad témat v době tvorby tohoto hesla neexistoval). Témata jsou přiřazena atributem DOMAIN, obrácená relace je pomocí atributu DOMAIN_TYPICAL.

Tezaurus Eurovoc

Tezaurus Eurovoc je vícejazyčný polytematický tezaurus zaměřený na oblast práva a legislativy Evropské unie (EU). Tezaurus byl vytvořen ve spolupráci Evropského parlamentu, Komise EU a Úřadu pro úřední tisky ES za podpory DG XIII. Za správu Eurovocu na mezinárodní úrovni odpovídá Úřad pro úřední tisky ES.

Eurovoc lze využít zejména v knihovnách a informačních střediscích specializovaných na právo, legislativu a politiku. V rámci EU se Eurovoc používá v knihovně Evropského parlamentu, Úřadu pro úřední tisky ES a dalších informačních institucích EU. Kromě toho se používá v knihovnách a dokumentačních střediscích národních parlamentů a dalších státních i soukromých organizací v členských i nečlenských zemích EU. Eurovoc dále také nachází velké uplatnění v informačních centrech zaměřených na problematiku Evropské unie. V některých případech slouží Eurovoc také jako propojovací selekční jazyk v některých metainformačních systémech.

Eurovoc existuje v 17 oficiálních jazycích členských zemí Evropské unie (angličtina, dánština, francouzština, němčina, maďarština, řečtina, španělština, italština, nizozemština, portugalština, finština, švédština, slovinština, slovenština, litevština, lotyština a čeština). V dalších zemích se překlad Eurovocu do národního jazyka připravuje. Zástupci institucí, které spravují nebo překládají Eurovoc v jednotlivých zemích, se setkávají na pravidelných seminářích uživatelů Eurovocu.

Česká verze Tezauru Eurovoc První česká verze tezauru Eurovoc vznikla ve druhé polovině 90. let překladem 3. verze oficiálního Eurovocu. V současné době již existuje český překlad verze 4.2., který byl dokončen na podzim 2005. Česká verze je plně jazykově a strukturně kompatibilní s ostatními jazykovými verzemi. Překlad Eurovocu provedla Parlamentní knihovna ve spolupráci s dalšími institucemi.

Zájemci o českou verzi tezauru Eurovoc se mohou obrátit na Parlamentní knihovnu, která poskytne veškeré informace o Eurovocu a podmínkách jeho využívání.

Automatické indexování tezauru

Informační požadavek může být vyjádřen i jinými výrazy přirozeného jazyka, než jaké se vyskytují v daném textu. Problém tkví v tom, že významy různých výrazů přirozeného jazyka se mohou různými způsoby a v různé míře vzájemně překrývat. Tři typy těchto situací jsou:

Dva různé výrazy mají zcela stejný význam např. klisna = kobyla, kalkulace = výpočet. Tento jev se nazývá synonymie.
Dva různé výrazy jsou ve vztahu obecné:konkrétní (nadřazené:podřazené) např. zvíře >hospodářské zvíře>kůň>hřebec apod.
Dva různé výrazy mají pouze v širším smyslu něco společného, tedy jsou sémanticky asociované: např. kůň – dostih, výpočet – kalkulátor.

Daný problém představuje „koeficient selekční významnosti“. Řešením problémům při indexaci dokumentů a dotazů je tezaurus.

Tezaurus

Tezaurus je řízený slovník deskriptorového a selekčního jazyka, který je uspořádaný tak, že explicitně zachycuje apriorní vztahy mezi lexikálními jednotkami. Je to slovník obsahující:

Slovní zásobu, tj. slova a sousloví se specifickým významem určitého jazyka, případně i několika jazyků.
Odkazy na jiná hesla, která k němu mají sémantický vztah – např. synonyma, obecnější a konkrétnější výrazy a také výrazy ve vztazích např. celek – část, třída – prvek atd.
Další informace o heslech, např. historii jejich vzniku, příklady kontextu použití atd.

Tezaury určené pro indexování jsou zpravidla omezené na terminologii určité užší odborné oblasti. Ústředním pojmem tezauru určeného k indexování je deskriptor. Z každé skupiny synonymních termínů je vybrán jeden reprezentant nazývaný deskriptorem. Tento by měl být používán k samotnému popisu (deskripci) skutečného nebo požadovaného obsahu textu.

Deskriptor je univerzální vyhledávací prvek, který při vyhledávání má zastupovat i všechna svá synonyma. Všechna synonyma jsou pak nazývána nedeskriptory. Pouze mezi deskriptory se zachycují vztahy (vazby) – nadřazený, podřazený, asociovaný, ekvivalentní deskriptory v jiných jazycích (v případě vícejazyčného tezauru).

Odkazy

Reference

↑ Čermák, Jazyk a jazykověda, str. 290.
↑ ČERMÁK, František; HLADKÁ, Zdeňka. Nový encyklopedický slovník češtiny [online]. [cit. 2022-01-05]. Kapitola Tezaurus. Dostupné online.
↑ ABZ slovník českých synonym - o slovníku. www.slovnik-synonym.cz [online]. [cit. 2022-01-05]. Dostupné online.

Literatura

F. Čermák, Jazyk a jazykověda. Praha: Karolinum 2009

Související články

Rogetův tezaurus
Polytematický strukturovaný heslář (PSH) - vykazuje řadu znaků typických pro tezaury

Externí odkazy

Obrázky, zvuky či videa k tématu tezaurus na Wikimedia Commons
Eurovoc, vyhledávání Archivováno 11. 3. 2012 na Wayback Machine. – Úřad pro publikace Evropské unie
Tezaurus v České terminologické databázi knihovnictví a informační vědy (TDKIV)
Online verze českých tezaurů od Klégra a Hallera

[1] Čermák, Jazyk a jazykověda, str. 290.

[2] ČERMÁK, František; HLADKÁ, Zdeňka. Nový encyklopedický slovník češtiny [online]. [cit. 2022-01-05]. Kapitola Tezaurus. Dostupné online.

[3] ABZ slovník českých synonym - o slovníku. www.slovnik-synonym.cz [online]. [cit. 2022-01-05]. Dostupné online.

[1]

[2]

[3]