Hjem Audio Hvordan hjelper max pooling til å gjøre alexnet til en flott teknologi for bildebehandling?

Hvordan hjelper max pooling til å gjøre alexnet til en flott teknologi for bildebehandling?

Anonim

Q:

Hvordan hjelper max pooling til å gjøre AlexNet til en flott teknologi for bildebehandling?

EN:

I AlexNet, et innovativt konvolusjonelt nevralt nettverk, blir konseptet med maksimal pooling satt inn i en kompleks modell med flere sammensveisede lag, delvis for å hjelpe til med montering og for å effektivisere arbeidet som det nevrale nettverket gjør i arbeidet med bilder med det eksperter kaller. en "ikke-lineær downsampling-strategi."

AlexNet blir ansett for å være en ganske flott CNN, etter å ha vunnet ILSVRC 2012 (ImageNet Large-Scale Visual Recognition Challenge), som blir sett på som et vannskillehendelse for maskinlæring og nevrale nettverksframgang (noen kaller det "Olympics" of computer vision ).

I rammen av nettverket, der trening er delt opp i to GPU-er, er det fem sammensveisede lag, tre fullstendig tilkoblede lag og noen maksimal pooling-implementering.

I hovedsak tar maks pooling "bassenget" av output fra en samling av nevroner og bruker dem på et etterfølgende lags verdier. En annen måte å forstå dette på er at en maksimal sammenslåingstilnærming kan konsolidere og forenkle verdier for å montere modellen mer passende.

Maksimal sammenslåing kan hjelpe med å beregne graderinger. Man kan si at det "reduserer beregningsbyrden" eller "krymper overinnredning" - gjennom nedmontering, maksimal sammenslåing involverer det som kalles "dimensjonsreduksjon."

Dimensjonsreduksjon omhandler spørsmålet om å ha en overkomplisert modell som er vanskelig å kjøre gjennom et nevralt nettverk. Se for deg en sammensatt form, med mange små taggede konturer, og hver lille bit av denne linjen representert av et datapunkt. Med reduksjon av dimensjonalitet hjelper ingeniørene læringsprogrammet for maskinen å "zoome ut" eller prøve færre datapunkter, for å gjøre modellen som en helhet enklere. Derfor kan du noen ganger se en enklere pikselasjon som tilsvarer en dimensjonalitetsreduksjonsstrategi, hvis du ser på et maksimalt samlingslag og dets utdata.

AlexNet bruker også en funksjon som kalles rectified lineear units (ReLU), og maks pooling kan være komplementær til denne teknikken i prosessering av bilder gjennom CNN.

Eksperter og de som er involvert i prosjektet har levert rikelig med visuelle modeller, ligninger og andre detaljer for å vise den spesifikke byggingen av AlexNet, men i generell forstand kan du tenke på maksimal pooling som sammenstøt eller konsolidering av resultatet fra flere kunstige nevroner. Denne strategien er en del av totalbyggingen av CNN, som har blitt synonymt med banebrytende maskinsyn og bildeklassifisering.

Hvordan hjelper max pooling til å gjøre alexnet til en flott teknologi for bildebehandling?