Hjem Audio Hvorfor er det ofte vanskelig å trene kunstige tilbakevendende nevrale nettverk?

Hvorfor er det ofte vanskelig å trene kunstige tilbakevendende nevrale nettverk?

Anonim

Q:

Hvorfor er det ofte vanskelig å trene kunstige tilbakevendende nevrale nettverk?

EN:

Vanskeligheten med å trene kunstige tilbakevendende nevrale nettverk har å gjøre med deres kompleksitet.

En av de enkleste måtene å forklare hvorfor tilbakevendende nevrale nettverk er vanskelig å trene på er at de ikke er fremtidige nevrale nettverk.

I fremadgående nevrale nettverk beveger signalene seg bare én vei. Signalet beveger seg fra et innsatslag til forskjellige skjulte lag, og fremover, til utgangssjiktet til et system.

Derimot har tilbakevendende nevrale nettverk og andre forskjellige typer nevrale nettverk mer komplekse signalbevegelser. Klassifisert som "tilbakemeldinger" -nettverk, tilbakevendende nevrale nettverk kan ha signaler som beveger seg både fremover og bakover, og kan inneholde forskjellige "løkker" i nettverket der tall eller verdier føres tilbake til nettverket. Eksperter forbinder dette med aspektet av tilbakevendende nevrale nettverk som er assosiert med hukommelsen.

I tillegg er det en annen type kompleksitet som påvirker tilbakevendende nevrale nettverk. Et utmerket eksempel på dette er innen naturlig språkbehandling.

I sofistikert naturlig språkbehandling må nevrale nettverket være i stand til å huske ting. Det må ta innspill også i sammenheng. Anta at det er et program som ønsker å analysere eller forutsi et ord i en setning med andre ord. Det kan for eksempel være en fast lengde på fem ord for systemet å evaluere. Det betyr at det nevrale nettverket må ha innspill for hvert av disse ordene, sammen med muligheten til å "huske" eller trene i sammenheng med disse ordene. Av de og andre lignende grunner har tilbakevendende nevrale nettverk vanligvis disse små skjulte løkkene og tilbakemeldingene i systemet.

Eksperter beklager at disse komplikasjonene gjør det vanskelig å trene nettverkene. En av de vanligste måtene å forklare dette på er ved å sitere problemet med eksploderende og forsvinnende gradient. I hovedsak vil vektene til nettverket enten føre til eksploderende eller forsvinnende verdier med et stort antall passeringer.

Neural nettverkspioner Geoff Hinton forklarer dette fenomenet på nettet ved å si at bakovergående lineære pasninger vil føre til at mindre vekter krymper eksponentielt og større vekter eksploderer.

Dette problemet, fortsetter han, blir verre med lange sekvenser og flere tallrike trinn, der signalene vokser eller forfaller. Initiering av vekt kan hjelpe, men disse utfordringene er innebygd i den tilbakevendende nevrale nettverksmodellen. Det kommer alltid til å være det problemet knyttet til deres spesielle design og bygg. I hovedsak trosser noen av de mer komplekse typene nevrale nettverk vår evne til å enkelt administrere dem. Vi kan skape en praktisk uendelig mengde kompleksitet, men vi ser ofte utfordringer med forutsigbarhet og skalerbarhet vokser.

Hvorfor er det ofte vanskelig å trene kunstige tilbakevendende nevrale nettverk?