tokenscript --from english --to vectorized-tokens

Write English,
get vectorized-tokens.

the pre-tokeniser tokeniser you never knew you needed

Input → Tokens

Write English, get vectorized-tokens.

↓

[0.213, -0.847, 0.119, …] [-0.551, 0.302, 0.974, …] [0.088, 0.441, -0.223, …] [-0.612, -0.015, 0.789, …] [0.934, 0.271, -0.458, …] [-0.104, 0.689, 0.337, …] [0.771, -0.330, 0.142, …] [-0.218, 0.857, -0.663, …] [0.405, -0.191, 0.520, …] [-0.899, 0.064, -0.372, …]

Your LLM already has a tokeniser. Tokenscript is the pre-tokeniser tokeniser — it tokenises your English before your tokeniser tokenises it.

Is this necessary? No. Is it load-bearing in any pipeline? Also no. Will it look great in your next arXiv preprint? Absolutely.

no spam. no product. possibly no tokens.

Write English,get vectorized-tokens.

Write English,
get vectorized-tokens.