Innholdsfortegnelse:
Definisjon - Hva betyr tokenisering?
Tokenisering er handlingen om å bryte opp en sekvens av strenger i stykker som ord, nøkkelord, fraser, symboler og andre elementer som kalles symboler. Tokens kan være individuelle ord, uttrykk eller til og med hele setninger. I prosessen med tokenisering blir noen tegn som tegnsettingstegn kastet. Tegnene blir innspillet til en annen prosess som parsing og tekstbryting.
Tokenisering brukes i informatikk, der den spiller en stor rolle i prosessen med leksikalsk analyse.
Techopedia forklarer Tokenization
Tokenisering er mest avhengig av enkle heuristikker for å skille symboler ved å følge noen trinn:
- Tegn eller ord skilles ved mellomrom, tegnsettingstegn eller linjeskift
- Avhengig av behovet kan det hende at hvite mellomrom eller tegnsettingstegn er inkludert
- Alle karakterer i sammenhengende strenger er en del av symbolet. Tokens kan bestå av alle alfa-tegn, alfanumeriske tegn eller numeriske tegn.
Tokens kan også være separatorer. I de fleste programmeringsspråk kan for eksempel identifikatorer plasseres sammen med aritmetiske operatører uten hvite mellomrom. Selv om det ser ut til at dette vil fremstå som et enkelt ord eller token, anser grammatikken til språket faktisk den matematiske operatøren (et token) som en separator, så selv når flere tokens er samlet sammen, kan de fortsatt skilles ut via det matematiske operatør.
