tokeniseerimine

nimisõna tehniline tehnoloogia

Tokeniseerimine on protsess, kus tekst või andmevoog jagatakse väiksemateks osadeks ehk tokeniteks, mida arvuti saab töödelda. Seda kasutatakse keeletöötluses, programmeerimises ja krüptovaluutas.

Tokeniseerimine on tehniline protsess, kus tekst, kood või andmevoog jagatakse väiksemateks osadeks ehk tokeniteks (märkideks, sümboliteks). Tokenis võib olla sõna, sõnaosa, kirjavahemärk või muu tähenduslik üksus, mida arvuti suudab eraldi töödelda. 1. Keeletöötluses ja tehisarus on tokeniseerimine esimene samm teksti analüüsimisel. Näiteks lause "Tere, maailm!" tokeniseeritakse osadeks: "Tere", ",", "maailm", "!". Suurkeelemudelid nagu ChatGPT kasutavad tokeneid teksti mõistmiseks ja genereerimiseks – iga sõna või sõnaosa on üks token, mille põhjal mudel teksti töötleb. 2. Programmeerimises on tokeniseerimine protsess, kus lähtekoodi jagatakse tokeniteks (võtmesõnad, muutujad, operaatorid), et kompilaator või interpretaator saaks koodi analüüsida ja tõlkida. 3. Krüptovaluutas tähendab tokeniseerimine vara (nt kinnisvara, kunstiteos, aktsia) muutmist digitaalseteks tokeniteks plokiahelas, mis võimaldab vara killustada ja kaubelda väiksemate osadena. 4. Maksete turvalisuses kasutatakse tokeniseerimist tundliku info (nt krediitkaardi number) asendamiseks juhusliku tokeniga, et kaitsta andmeid varguse eest.

Etümoloogia

inglise keelest tokenization (token 'märk, sümbol' + -ization 'muutmise protsess')

Kasutusnäited

Suurkeelemudelid kasutavad tokeniseerimist, et muuta tekst arvutile arusaadavaks.
Krediitkaardi tokeniseerimine aitab kaitsta makseteenustes kliendiandmeid.
Programmi kompilaator alustab tokeniseerimisest, jagades lähtekoodi väiksemateks osadeks.
Kinnisvaratokeni loomine hõlmab vara tokeniseerimist plokiahelas.

Otsi järgmist sõna

Sõnad, mõisted ja teemad — selgitatud lihtsalt ja selgelt