Lib.rs

› Keywords #lexer #lexer-tokenizer #bpe #llm #nlp #hugging-face #word-piece

#tokenizer

Try searching with DuckDuckGo.

javascript_lexer

Javascript lexer

v0.1.8 #lexer-tokenizer #lexer #javscript #tokenizer
elizaos-plugin-local-embedding

Local text embedding and tokenization plugin for elizaOS - Rust implementation

v2.0.0 #artificial-intelligence #ai-agent #local-ai #tokenizer
tinytoken

tokenizing text into words, numbers, symbols, and more, with customizable parsing options

v0.1.4 130 #tokenize #numbers #text-input #tokenizer
regex-lexer

A regex-based lexer (tokenizer)

v0.2.0 410 #lexer-tokenizer #lexer #regex-parser #tokenizer
lexariel

Lexical analyzer for Asmodeus language

v0.1.0 #lexer-tokenizer #assembly #asmodeus #machine-w #lexer #tokenizer
smoltoken

A fast library for Byte Pair Encoding (BPE) tokenization

v0.2.0 360 #artificial-intelligence #bpe #tokenizer
tele_tokenizer

A CSS tokenizer

v0.2.0 #tokenize #css #telecss #tokenizer
tokengeex

efficient tokenizer for code based on UnigramLM and TokenMonster

v1.1.0 900 #tokenize #llm #codegeex #tokenizer
uscan

A universal source code scanner

v0.1.3 #tokenize #compiler #tokenizer
regex-lexer-lalrpop

A regex-based lexer (tokenizer)

v0.3.0 #lexer-tokenizer #regex-lexer #lexer #regex #regex-parser #tokenizer
char-lex

Create easy enum based lexers

v1.0.5 #lexer #lexer-tokenizer #char #lexing #tokenizer
aleph-alpha-tokenizer

A fast implementation of a wordpiece-inspired tokenizer

v0.3.1 #tokenize #aleph-alpha #nlp #tokenizer
xxcalc

Embeddable or standalone robust floating-point polynomial calculator

v0.2.1 #lexer-tokenizer #evaluator #lexer #calculator #math #tokenizer
pgn-lexer

A lexer for PGN files for chess. Provides an iterator over the tokens from a byte stream.

v0.2.0-alpha #pgn #lexer #chess #lexer-tokenizer #tokenizer
tokenise

A flexible tokeniser library for parsing text

v0.1.0 #lexer-tokenizer #lexer #tokenizer
simple-cursor

A super simple character cursor implementation geared towards lexers/tokenizers

v0.1.1 #lexer-tokenizer #lexer #string #iterator #cursor #no-alloc #tokenizer
nipah_tokenizer

A powerful yet simple text tokenizer for your everyday needs!

v0.1.0 #tokenize #text-tokenizer #nlp #tokenizer
tokeneer

tokenizer crate

v0.1.0 340 #tokenize #bpe #tokenizer
json-parser

JSON parser

v1.0.2 #tokenize #json #tokenizer
blingfire

Wrapper for the BlingFire tokenization library

v1.0.0 1.3K #tokenize #machine-learning #tokenizer
basic_lexer

Basic lexical analyzer for parsing and compiling

v0.2.1 #tokenize #lexical-analysis #white-space #tokenizer
regex-tokenizer

A regex tokenizer

v0.1.1 #tokenize #regex #tokenizer
pretok

A string pre-tokenizer for C-like syntaxes

v0.1.0 #lexer-tokenizer #lexer #text #tokenize #tokenizer
scanny

A advanced text scanning library for Rust

v0.1.0 #tokenize #lexical-token #tokenizer #parser
sana

Create lexers easily

v0.1.1 #lexer-tokenizer #lexer-generator #lexer #generator #tokenizer
gpt_tokenizer

Rust BPE Encoder Decoder (Tokenizer) for GPT-2 / GPT-3

v0.1.0 #chatgpt #gpt-3 #bpe #openai #tokenizer
rustpotion

Blazingly fast word embeddings with Tokenlearn

v0.3.0 #tokenize #embedding #rag #model2vec #tokenizer
token

string-tokenizer (and sentence splitter) Note: If you find that you would like to use the name for something more appropriate, please just send me a mail at jaln at itu dot dk

v1.0.0-rc1 #string-tokenizer #splitter #sentence #string #tokenizer
tuker

A small tokenizer/parser library with an emphasis on usability

v0.1.0 #lexer-tokenizer #lexer #tokenize #tokenizer
scnr2_macro

Scanner/Lexer with regex patterns and multiple modes

v0.5.0 1.3K #lexer-tokenizer #lexer #tokenizer