Neurális hálózat a kereskedelemhez.

A "mélytanulás keresztapái" kapták az idei informatikai Nobelt
Gyakorlatilag a negatív log-likelihood értékét számítjuk ki vele. Információelméletben az információveszteség mértékét fejezi ki két bináris vektor között. De a fentiek mellett alkalmazható a támasztóvektor-gépeknél használt Hinge-veszteségfüggvény vagy a Kullback-Leibler divergencia is. Regularizációs technikák[ szerkesztés ] A neurális hálózatok, különösen a mély architektúrák rendkívül ki vannak téve a statisztikai túlillesztés problémájának.
Ennek kiküszöbölése végett regularizációs technikákat vethetünk be. Az alapelv az, hogy regularizált tanulás esetén a megtanult modell általánosabb lesz a regularizálatlan modellhez képest.
Lp regularizáció: a súlyok P-normáját adjuk a veszteségfüggvényhez, általában L1 vagy L2 normát alkalmazunk. Ez a regularizáció arra készteti a hálózatot, hogy kis súlyokat tanuljon meg vagy ritkítsa a súlymátrixot növelje a nulla súlyok számát.
Neurális hálózat
Ezeket a regularizációs tagokat egyszerűen hozzáadjuk a veszteségfüggvényhez és ellátjuk egy együtthatóval, amely az osztályozási pontosságból és a regularizációs tagból származó hibaérték egymáshoz képesti súlyozását képviseli Lagrange-szorzó.
Kiejtéses Dropout regularizáció: [13] a neuronok egy véletlenszerűen kiválasztott halmazát kiejtjük a tanulási körből.
- Intelligent Business | Intelligent Business
- Stratégiák bináris opciók turbo stratégia
- Tech: A "mélytanulás keresztapái" kapták az idei informatikai Nobelt | magyarszerbmult.hu
- A neurális hálózat definíciója, működése | Mesterséges Intelligencia Elektronikus Almanach
- Mi a különbség a mély tanulás és a szokásos gépi tanulás között?
- A neurális hálózat definíciója, működése Neurális hálózatnaknevezzük azt a hardver vagy szoftver megvalósítású párhuzamos, elosztott működésre képes információfeldolgozó eszközt, amely: azonos, vagy hasonló típusú — általában nagyszámú — lokális feldolgozást végző műveleti elem, neuron processing element, neuron többnyire rendezett topológiájú, nagymértékben összekapcsolt rendszeréből áll, rendelkezik tanulási algoritmussal learning algorithmmely általában minta alapján való tanulást jelent, és amely az információfeldolgozás módját határozza meg, rendelkezik a megtanult információ felhasználását lehetővé tevő információ előhívási, vagy röviden előhívási algoritmussal recall algorithm.
Lecke-normalizálás Batch normalization : [14] a hálózat nyilvántart egy futó átlagot és egy futó szórást a bemenetekről, mellyel normalizálja az újonnan kapott bemeneteket. Drasztikusan csökkenthető ezzel a konvergencia sebessége és csökken a túlillesztés esélye is.
Optimalizálók[ szerkesztés ] A tanuló fázisban meghatározzuk egy neurális hálózat kimenetének hibáját egy differenciálható hibafüggvénnyel, majd megbecsüljük az egyes súlyok hozzájárulását ehhez a hibához a hibafüggvény súlyok tekintetében vett gradiensének meghatározásával.
Egyszerű esetben ezt a gradienst kivonjuk a súlyokból, ezzel olyan irányba módosítjuk a súlyokat, ami garantáltan csökkenti a veszteségfüggvényt. Azonban egyes esetekben a gradiens önmagában csak lassan képes biztosítani a konvergenciát.
1.1. A neurális hálózat definíciója, működése
Ilyen esetekben a konvergencia meggyorsítására a gradiensereszkedés algoritmust különböző kiterjesztésekkel láthatjuk el, ezeket a technikákat, illetve a gradienssel nem is számoló egyéb technikákat nevezzük optimalizálóknak.
Tipikus gradiens alapú optimalizálók: Gradiensereszkedés: a súlyokból kivonjuk a veszteségfüggvény tekintetében vett gradiensüket. Lendület módszer: nyilvántartunk egy mozgó átlagot a gradiensekből egy "súrlódással" csökkentett sebességet és ezt vonjuk ki a súlyokból, mintha egy labdát gurítanánk le neurális hálózat a kereskedelemhez domboldalon.
Nesterov lendület: [15] hasonló a neurális hálózat a kereskedelemhez, de először tradingview élő diagram a lépést a tárolt lendület mentén, neurális hálózat a kereskedelemhez számolunk gradienst és visszalépünk, ha romlott a pontosság. Adagrad: [16] adaptív gradiens, minden súly részére tárol egy egyedi tanulási rátát, mely az adott súlyra számított összes eddigi gradiens négyzetösszege. Az aktuális tanulókörben számított gradienst ennek az értéknek a gyökével elosztja, így a sokáig alacsony gradienst kapó súlyok nagyobb lépést képesek tenni.
RMSprop: [17] gyökös átlagos négyzetes terjedés: Geoffrey Hinton a mély tanulás keresztapja adattudós nem publikált módszere, mely nyilvántart egy mozgó átlagot a gradiensek négyzetéből és ezzel módosítja súlyonként a tanulási rátát.
Mesterséges neurális hálózat
A reziliens terjedés Rprop tanítási mód adaptációja részmintás tanulásra. Adam: [10] adaptív lendület módszer: nyilvántartja a gradiensek mozgó átlagát lendület és a gradiensek négyzetének mozgó átlagát memóriakombinálva az Adagrad és az RMSprop technikákat, és a memóriával módosított egyedi tanulási rátával megszorzott lendület alapján csökkenti a súlyok értékét. Általában ezt az optimalizálót ajánlják először alkalmazni egy új problémán.
Mély tanulás[ szerkesztés ] A számítási kapacitás növekedésével a neurális hálózatok különféle területeken való feltörekvésével egyre összetettebb architektúrák jelennek meg, melyek jellegzetesen halmozzák egymásra a különböző típusú neuronrétegeket mélyülnek vagy változatos elágazásokat tartalmaznak. A neurális hálózatok mélységének növekedésével növekszik azok absztrakciós képessége, a különböző mélységi szinteken álló rétegek egyre összetettebb feladatok megoldására válnak képessé, azonban új típusú problémák megjelenésével járnak együtt.
Tanítás[ szerkesztés ] A mesterséges neurális hálózatok tanítása minden esetben egy felügyelt regressziós problémára kerül visszavezetésre, de kivitelezhető osztályozás és felügyeletlen tanítás is. A hálózatok működésében két fázist különíthetünk el: tanítási fázisban a ismert bemeneti paraméterek és várt kimenetek ismeretében a neurális hálózat a kereskedelemhez változtatjuk úgy, hogy egy veszteségfüggvény értékét például az átlagos négyzetes hibát minimalizáljuk ezzel.
A feltanított neurális hálózat a predikciós fázisban ezután ismeretlen bemenet átadásakor kimenetet képez, mely lehet például egy kategóriába való tartozás valószínűsége. A jól leírható eset a három rétegű, összesítőként lineáris kombinációt, aktivációs függvényként valamilyen folytonos függvényt alkalmazó, előreterjesztéses visszacsatolást nem tartalmazó hálózat, amelynek esetében levezetjük a tanítás folyamatát.
What is backpropagation really doing? - Deep learning, chapter 3
Kimenetképzés[ szerkesztés ] Tanításkor jellemzően nem egyetlen bemeneti vektort adunk át, hanem egy részmintát képzünk az adatainkból és azokra egyszerre határozzuk meg a veszteségfüggvényünk gradiensét, majd a kapott gradienseket átlagoljuk az egyes súlyokra.