Hjem trender Hva er en enkel måte å beskrive skjevhet og varians i maskinlæring?

Hva er en enkel måte å beskrive skjevhet og varians i maskinlæring?

Anonim

Q:

Hva er en enkel måte å beskrive skjevhet og varians i maskinlæring?

EN:

Det er en rekke kompliserte måter å beskrive skjevhet og varians i maskinlæring. Mange av dem bruker betydelig komplekse matematiske ligninger og viser gjennom grafering hvordan spesifikke eksempler representerer forskjellige mengder av både skjevhet og varians.

Her er en enkel måte å beskrive skjevhet, varians og skjevhet / avvikelse avveining i maskinlæring.

Kjernen er skjevhet en forenkling. Det kan være viktig å legge til definisjonen av skjevhet noen antagelse eller antatt feil.

Hvis et svært partisk resultat ikke var feil - hvis det var på pengene - ville det være svært nøyaktig. Problemet er at den forenklede modellen inneholder en viss feil, slik at den ikke er i oksen - den betydelige feilen blir stadig gjentatt eller til og med forsterket når maskinlæringsprogrammet fungerer.

Den enkle definisjonen av varians er at resultatene er for spredte. Dette fører ofte til overkompleksitet i programmet og problemer mellom test- og treningssett.

Høy varians betyr at små endringer skaper store endringer i utganger eller resultater.

En annen måte å bare beskrive varians på er at det er for mye støy i modellen, og at det blir vanskeligere for maskinlæringsprogrammet å isolere og identifisere det virkelige signalet.

Så en av de enkleste måtene å sammenligne skjevhet og varians er å antyde at maskinlæringsingeniører må gå en fin linje mellom for mye skjevhet eller forenkling og for mye varians eller overkompleksitet.

En annen måte å representere denne brønnen er med et firekvadrantdiagram som viser alle kombinasjoner av høy og lav varians. I kvadranten med lav forspenning / lav varians er alle resultatene samlet i en nøyaktig klynge. I et resultat med høy skjevhet / lav varians blir alle resultatene samlet i en unøyaktig klynge. I et resultat med lav forspenning / høy varians, er resultatene spredt rundt et sentralt punkt som vil representere en nøyaktig klynge, mens i et resultat med høy forspenning / høy varians er datapunktene både spredt og samlet unøyaktige.

Hva er en enkel måte å beskrive skjevhet og varians i maskinlæring?