Hvem oppfant konvolusjonelle nevrale nettverk (CNN)? 1969: Fukushima hadde CNN-relevante ReLU-er [2]. 1979: Fukushima hadde den grunnleggende CNN-arkitekturen med konvolusjonslag og nedsamplingslag [1]. Databehandling var 100 ganger dyrere enn i 1989, og en milliard ganger dyrere enn i dag. 1987: Waibel brukte Linnainmaas 1970 backpropagation [3] på vektdelings-TDNN-er med 1-dimensjonale konvolusjoner [4]. 1988: Wei Zhang et al. brukte "moderne" backprop-trente 2-dimensjonale CNN-er til tegngjenkjenning [5]. Alt det ovennevnte ble publisert i Japan 1979-1988. 1989: LeCun et al. brukte CNN-er igjen på tegngjenkjenning (postnumre) [6,10]. 1990-93: Fukushimas nedsampling basert på romlig gjennomsnittsberegning [1] ble erstattet av max-pooling for 1-D TDNN-er (Yamaguchi et al.) [7] og 2-D CNN-er (Weng et al.) [8]. 2011: Mye senere gjorde teamet mitt med Dan Ciresan maks-sammenslåing av CNN-er veldig raskt på NVIDIA GPU-er. I 2011 oppnådde DanNet det første overmenneskelige mønstergjenkjenningsresultatet [9]. En stund nøt det monopol: fra mai 2011 til september 2012 vant DanNet hver bildegjenkjenningsutfordring de deltok i, 4 av dem på rad. Riktignok handlet dette imidlertid mest om å konstruere og skalere opp den grunnleggende innsikten fra forrige årtusen, og tjene på mye raskere maskinvare. Noen «AI-eksperter» hevder at «å få CNN-er til å fungere» (f.eks. [5,6,9]) var like viktig som å finne dem opp. Men å "få dem til å fungere" var i stor grad avhengig av om laboratoriet ditt var rikt nok til å kjøpe de nyeste datamaskinene som kreves for å skalere opp det originale arbeidet. Det er det samme som i dag. Grunnforskning vs ingeniørarbeid/utvikling - Fo vs D i FoU. REFERANSER [1] K. Fukushima (1979). Nevral nettverksmodell for en mekanisme for mønstergjenkjenning upåvirket av endring i posisjon - Neocognitron. Overs. IECE, vol. J62-A, nr. 10, s. 658-665, 1979. [2] K. Fukushima (1969). Ekstraksjon av visuelle funksjoner av et flerlags nettverk av analoge terskelelementer. IEEE-transaksjoner om systemvitenskap og kybernetikk. 5 (4): 322-333. Dette arbeidet introduserte rektifiserte lineære enheter (ReLUs), som nå brukes i mange CNN-er. [3] S. Linnainmaa (1970). Masteroppgave, Universitetet i Helsingfors, 1970. Den første publikasjonen om "moderne" tilbakeformering, også kjent som omvendt modus for automatisk differensiering. (Se Schmidhubers velkjente oversikt over backpropagation: «Who Invented Backpropagation?») [4] A. Waibel. Fonemgjenkjenning ved hjelp av nevrale nettverk med tidsforsinkelse. Møte i IEICE, Tokyo, Japan, 1987. Backpropagation for en vektdelings-TDNN med 1-dimensjonale viklinger. [5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Shift-invariant mønstergjenkjenning nevrale nettverk og dets optiske arkitektur. Proc. Årlig konferanse for Japan Society of Applied Physics, 1988. Første backpropagation-trente 2-dimensjonale CNN, med applikasjoner til engelsk tegngjenkjenning. [6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Backpropagation applied to Handwritten Zip Number Recognition, Neural Computation, 1(4):541-551, 1989. Se også avsnitt 3 av [10]. [7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Et nevralt nettverk for høyttaleruavhengig isolert ordgjenkjenning. Første internasjonale konferanse om talespråksbehandling (ICSLP 90), Kobe, Japan, nov 1990. En 1-dimensjonal konvolusjonell TDNN som bruker Max-Pooling i stedet for Fukushimas Spatial Averaging [1]. [8] Weng, J., Ahuja, N. og Huang, T. S. (1993). Læring av gjenkjenning og segmentering av 3D-objekter fra 2D-bilder. Proc. 4th Intl. Conf. Computer Vision, Berlin, s. 121-128. En 2-dimensjonal CNN hvis nedsamplingslag bruker Max-Pooling (som har blitt veldig populært) i stedet for Fukushimas Spatial Averaging [1]. [9] I 2011 oppnådde det raske og dype GPU-baserte CNN kalt DanNet (7+ lag) den første overmenneskelige ytelsen i en datasynskonkurranse. Se oversikt: "2011: DanNet utløser dyp CNN-revolusjon." [10] Hvordan 3 Turing-prisvinnere publiserte nøkkelmetoder og ideer hvis skapere de ikke klarte å kreditere. Teknisk rapport IDSIA-23-23, Swiss AI Lab IDSIA, 14 des 2023. Se også YouTube-videoen for Bower-prisutdelingen 2021: J. Schmidhuber hyller Kunihiko Fukushima.
346,8K