tokenimine

nimisõna tehniline tehnoloogia

Tokenimine on protsess, kus tekst või andmed jagatakse väiksemateks osadeks ehk tõkenditeks, mida arvuti saab töödelda. Kasutatakse eriti keeletöötluses ja tehisaru mudelites.

Tokenimine on arvutiteaduses ja keeletehnoloogias kasutatav protsess, kus tekst või muud andmed jagatakse väiksemateks tähenduslikeks üksusteks ehk tõkenditeks (inglise keeles tokens). Näiteks võib lause "Tere, maailm!" tokeniseerida kolmeks tõkendiks: "Tere", "," ja "maailm!". Tõkendid võivad olla sõnad, sõnaosad, kirjavahemärgid või isegi üksikud tähed, sõltuvalt kasutatavast meetodist. Keeletöötluses on tokenimine esimene samm teksti analüüsimisel – enne kui arvuti saab teksti mõista või tõlkida, peab ta selle jaotama eraldiseisvateks osadeks. Kaasaegsed tehisaru mudelid nagu ChatGPT või Google'i Bard kasutavad tokenimine't, et teksti sisendeid ja väljundeid töödelda. Neis süsteemides võib üks tõkend olla osa sõnast, terve sõna või isegi mitu sõna korraga. Tokenimine on oluline ka seetõttu, et tehisaru mudelite töötlemisvõimsust mõõdetakse sageli tõkendite arvuga – näiteks kui mudel suudab töödelda 4000 tõkendit, siis see määrab, kui pikka teksti ta korraga mõista suudab.

Etümoloogia

inglise keelest tokenization, mis tuleneb sõnast token (tõkend, märk)

Kasutusnäited

Tehisaru mudeli väljaõpetamisel on tokenimine esimene samm teksti töötlemisel.
Eestikeelsete tekstide tokenimine on keerulisem kui ingliskeelsete, sest meie keel on rikkalike käändevormidega.
ChatGPT kasutab tokeniminet, et jagada kasutaja sisend väiksemateks osadeks, mida mudel saab töödelda.

Otsi järgmist sõna

Sõnad, mõisted ja teemad — selgitatud lihtsalt ja selgelt