Q:
Hvorfor reduserer bagging i maskinlæring variansen?
EN:Bootstrap-aggregering eller "bagging" i maskinlæring reduserer variansen gjennom å bygge mer avanserte modeller av komplekse datasett. Spesifikt skaper bagging-tilnærmingen undergrupper som ofte overlapper hverandre for å modellere dataene på en mer involvert måte.
En interessant og grei forestilling om hvordan man bruker bagging er å ta et sett med tilfeldige prøver og trekke ut det enkle middelverdien. Deretter bruker du det samme settet med prøver, og lager dusinvis av delmengder som er bygget som beslutnings-trær for å manipulere eventuelle resultater. Det andre gjennomsnittet skal vise et sannere bilde av hvordan de individuelle prøvene forholder seg til hverandre når det gjelder verdi. Den samme ideen kan brukes på enhver egenskap til ethvert sett med datapunkter.
Gratis nedlasting: Machine Learning og Why It Matters |
Siden denne tilnærmingen konsoliderer oppdagelsen i mer definerte grenser, reduserer den variansen og hjelper til med overmasse. Tenk på en scatterplot med noe distribuerte datapunkter; ved å bruke en bagging-metode, "krymper" ingeniørene kompleksiteten og orienterer funnlinjene til jevnere parametere.
Noen snakker om verdien av bagging som "skill og erobre" eller en type "assistert heuristikk." Tanken er at gjennom ensemblemodellering, som bruk av tilfeldige skoger, kan de som bruker bagging som en teknikk få dataresultater som er lavere i varians. Når det gjelder å redusere kompleksiteten, kan bagging også hjelpe til med overmontering. Tenk på en modell med for mange datapunkter: si, en tilkoblings-prikker med 100 ikke-justerte prikker. Den resulterende visuelle datalinjen vil være takkete, dynamisk, flyktig. Så "stryke ut" variansen ved å sette sammen evalueringssett. I ensemblets læring blir dette ofte tenkt på å være sammen med flere "svake elever" for å gi et "sterkt lærende" samarbeidsresultat. Resultatet er en jevnere, mer konturert datalinje og mindre vill varians i modellen.
Det er lett å se hvordan ideen om bagging kan brukes på enterprise IT-systemer. Bedriftsledere vil ofte ha et "fugleperspektiv" av hva som foregår med produkter, kunder, etc. En overmontert modell kan gi mindre fordøyelige data, og mer "spredte" resultater, der bagging kan "stablilisere" en modell og gjøre den mer nyttig til sluttbrukere.