Logo bs.boatexistence.com

Zašto lstm rješava gradijent koji nestaje?

Sadržaj:

Zašto lstm rješava gradijent koji nestaje?
Zašto lstm rješava gradijent koji nestaje?

Video: Zašto lstm rješava gradijent koji nestaje?

Video: Zašto lstm rješava gradijent koji nestaje?
Video: ML/AI Split #4: Upoznavanje i rad s TensorFlow.js bibliotekom 2024, Maj
Anonim

LSTM-ovi rješavaju problem koristeći jedinstvenu strukturu aditivnog gradijenta koja uključuje direktan pristup aktivacijama vrata za zaborav, omogućavajući mreži da podstakne željeno ponašanje od gradijenta greške koristeći česta ažuriranja vrata na svakom vremenskom koraku procesa učenja.

Kako LSTM rješava eksplodirajući gradijent?

Vrlo kratak odgovor: LSTM razdvaja stanje ćelije (obično označeno sa c) i skriveni sloj/izlaz (obično označeno sa h), i vrši samo aditivna ažuriranja za c, što čini uspomene u c stabilnijima. Tako se gradijent koji teče kroz c zadržava i teško nestaje (zbog toga je ukupan gradijent teško nestati).

Kako se problem nestajanja gradijenta može riješiti?

Rješenja: Najjednostavnije rješenje je koristiti druge aktivacijske funkcije, kao što je ReLU, što ne uzrokuje mali derivat. Preostale mreže su još jedno rješenje, jer pružaju preostale veze direktno na ranije slojeve.

Koji problem rješava LSTM?

LSTM. LSTM (skraćeno od dugotrajne kratkoročne memorije) prvenstveno rješava problem nestajanja gradijenta u povratnom širenju. LSTM koriste mehanizam gajtinga koji kontroliše proces memorisanja. Informacije u LSTM-ima mogu se pohraniti, pisati ili čitati preko kapija koje se otvaraju i zatvaraju.

Zašto LSTM-ovi sprečavaju vaše nagibe da nestanu pogled sa prolaza unazad?

Razlog za ovo je zato što, da bi se nametnuo ovaj konstantni protok greške, proračun gradijenta je skraćen kako se ne bi vraćao na ulazne ili kandidatske kapije.

Preporučuje se: