Mis on Deep Learning AF: kuidas töötab Canoni tehisintellekti abil töötav autofookus?

Canon on oma uue Deep Learning AF-süsteemi tõttu palju müra tekitanud, mis asub tootja uusima professionaalse juhtkaamera keskmes. See kõlab uskumatult nutikalt, kuid küsimusi on palju - mis on sügavõppimine? Kes õpetab? Kas süsteem õpib, kui pildistate? Kas see on tõesti kaamera tehisintellekt? Kas see muudab autofookuse tegelikult paremaks?

Kui olete lugenud meie Canon EOS-1D X Mark III ülevaadet, teate, et vastus viimasele küsimusele on kindel jah. Mis puudutab vastuseid muudele küsimustele Deep Learning AF kohta, siis haarake endale jook ja suupiste ning lugege edasi …

Canon EOS-1D X Mark III automaatse teravustamise mehaanika on uskumatult nutikas, toetades kahte üksikut AF-süsteemi. Esiteks on optiline süsteem, mis pildistab pildiotsija kaudu 16 kaadrit sekundis, kasutades selleks 400 000 pikslist mõõtesensorit koos spetsiaalse Digic 8 protsessoriga 191-punktise AF-i jaoks, mis on võimeline nägude jälgimiseks.

Siis on olemas otsevaate süsteem, mis suudab pildistada 20 kaadrit sekundis, kasutades kõiki 20,1 miljonit pikslit pildisensorit koos uue Digic X protsessoriga 3869 Dual Pixel CMOS-punkti jaoks, mis võimaldavad täielikku silmade tuvastamise AF-d.

Mõlema süsteemi toide on Canoni põhiline EOS iTR AFX-tehnoloogia - uusim kordus selle intelligentsest jälgimis- ja tuvastustarkusest, mis debüteeris originaalses EOS-1D X-s (ja jõudis seejärel 7D Mark II ja 5D perekonda). Ja selle skeemidesse on maetud Deep Learning algoritm.

Sügav õppimine EI ole sama mis tehisintellekt

Kõigepealt on oluline selgitada, et sügavat õppimist ei tohi segi ajada tehisintellektiga (AI). Tehisintellekti süsteem on miski, mis on pidevas arengujärgus. Sügav õppimine ehk masinõpe on tehisintellekti alamhulk.

Erinevalt tõelisest tehisintellektist on sügav õppimine suletud protsess. See on montaaži eelalgoritm, mis võimaldab kaamera arhitektuuril end sisuliselt õpetada, palju kiiremini, kui seda saaksid inimese insenerid käsitsi programmeerida. Kui see õppimine on lõpetatud, lukustatakse see ja laaditakse kaamerasse.

Sellest hetkest alates pole enam võimalik õppida; vaatamata nimele - ja Sügav õppimine on tehnoloogia nimi, mitte protsessi kirjeldus - kaamera ei õpi pidevalt ega muutu „paremaks“, seda rohkem pildistate (tõepoolest, tõeline tehisintellekti süsteem õpiks nii palju oma halbadest harjumustest, nagu see oleks ka teie headest!).

"Seda on õpetatud," selgitab Canon Europe tehnilise toe juht Mike Burnhill. "Panete selle arvutisse, see loob algoritmi, mis seejärel kaamerasse laaditakse. Nii et see erineb tehisintellektist - tehisintellekt on pidev õppimine; sügavõpe on põhimõtteliselt see, et see õpetab ennast ja annab teile lõpptulemuse, mis seejärel laaditakse kaamerasse. "

Mis tekitab küsimuse: kas nii palju ettevõtteid karjuvad tehisintellektil põhinevate funktsioonide pärast, kas kaamera on tegelikult võimeline toetama tehisintellekti?

"Töötlemisvõime tõelise tehisintellekti tegemiseks pole kaameras teostatav," ütleb Burnhill. "Kui soovite seda teha, on telefonid - kuid andmed pole teie telefonis, vaid Silicon Valleys. Seal asub tehisintellekti süsteem. Lihtsalt teie telefoniga on ühendus sellega ühendatud - seda pole siin, see on seal (sisse pilv), sest teil on vaja serverit. Me võiksime kaamera teha, aga te hoiate kogu aeg hiiglaslikku lennukikasti ringi. "

Kuidas süvaõppimine ennast õpetab?

Niisiis, Deep Learning algoritm õpetab ennast - aga kust see tegelikult õpib? Lihtsamalt öeldes on vastus parimast.

"Canon töötas meie agentuuridega," ütleb Burnhill meile. "Saime põhimõtteliselt juurdepääsu kogu nende spordifotograafia pildiandmebaasile kõigilt peamistelt asutustelt, tegime koostööd oma suursaadikutega, kes lasevad sporti, ja nad esitasid oma pildid erinevatest ainetest ning see võimaldas meil õpetada seda AF-süsteemi, kuidas ära tunda inimesed spordis. "

Sport on sihipärane õpetamismeetod, sest Canon EOS-1D X Mark III on peamiselt spordikaamera. Probleem on selles, kas korvpallur, kes on kaamerast eemal, suusataja, kes kannab kaitseprille, või vormel-1 autojuht, kes kannab kiivrit, on spordis inimestel sageli nägu varjatud - see tähendab, et traditsiooniline näo- või isegi silmade tuvastamise AF ei tööta ja kaamera lukustub selle asemel näiteks mängija vormiriietuse numbritega.

Andes Deep Learning algoritmile juurdepääsu suurele pildiraamatule kõigest, alustades tagurpidi võimlejatest kuni padja ja kiivrit kandvate hokimängijateni, on see võimeline õppima ja eristama inimvormi lõputult erinevates olukordades - ja on lõpuks võimeline selle „pea tuvastamise” teostamiseks, nii et isegi kui inimese nägu pole nähtav, on pea alati fookuspunkt.

"Sügav õppimine on põhimõtteliselt seal, kus on pilte, loote reeglite kogumi, mille järgi õppimine toimub, ja siis läheb see ära ja loob oma algoritmi," jätkab Burnhill. "Nii et määrate parameetrid, kuidas inimene välja näeks, lähete:" Siin on inimene ", seejärel analüüsitakse kõiki inimeste pilte ja öeldakse:" See on inimene "," See on inimene ". See läbib teatud aja jooksul miljoneid pilte ja loob selle andmebaasi ning õpib ise. "

Tegelikult loob algoritm tegelikult kaks andmebaasi - ühe optilise pildiotsija automaatse teravustamise süsteemi ja mõõtmise teenindamiseks Digic 8 abil ning teise otse vaate automaatse teravustamise süsteemi teenindamiseks, mis kasutab Digic X-i. Kuna kogu arvutuse teeb Digic X pea jälgimine, kui AF-algoritm tuvastab kaadris oleva inimese, lükatakse kõik üle uuele protsessorile.

"Kui olete inimese sisse lasknud, on teil tegelikult käimas kahekordne töötlemine," ütleb Burnhill. "Siin on kaks andmebaasi, sest mõlema sensori sisend on veidi erinev, nii et selle tuvastamine on veidi erinev, seega on need sama algoritmi alamhulgad. Mõlema põhiandmed on samad, see on lihtsalt kuidas seda ära tuntakse ja sellele õigeid andmeid rakendatakse. "

Kui see ei suuda uusi asju õppida … siis loomade AF?

Muidugi pole Canon EOS-1D X Mark III lihtsalt spordikaamera - selle teine peamine vaatajaskond on metsloomade laskurid. Ometi pole kaameral loomade autofookuse võimalust ja oleme kindlaks teinud, et sügav õppimine ei saa tegelikult uusi trikke õppida, kui see on kaamerasse küpsetatud. Kas see on nii? Kas kogu selle uhke uue tehnika juures ei keskendu kaamera isegi perekoerale?

Tõsi, praegu pole kaameral looma (või loomasilma) teravustamist. "Põhimõtteliselt keskendume inimestele, kellega alustada, et selline algoritm kõigepealt tööle saada," vastab Burnhill. "Seetõttu oleme omamoodi spordile keskendunud, sest see on seatud parameeter ja saame seda teatud aja jooksul õpetada,"

Vastus peitub siis püsivaras. Burnhill kinnitas, et kaameral on potentsiaali põhjalikuma õppimise läbiviimiseks, näiteks lindude ja eluslooduse jaoks ning selle uuendatud algoritmi levitamiseks kasutajatele püsivara värskenduste kaudu - kuigi konkreetsetest plaanidest pole teada anda.

"Arendame seda kogu aeg, nii et praegu pole veel otsustatud, kuidas ja kuhu läheme. Kuid arendusmeeskond käib ja vaatab muid loomapilte - me mõistame, et seal on terve rida valdkondi, kuid ilmselgelt suur selle kaamera fookuses on sport ja seejärel elusloodus ning ilmselgelt oli Tokyo 2022-2023 puhul see prioriteet. "

See on õiglane punkt; kui Canon ootaks Deep Learning'i õppimist, oleks kaamera vabastamine võtnud kauem aega. Ja kuigi sellised tootjad nagu Sony kiidavad kaamerates mõnda loomade valikulist AF-i, märgib Burnhill, et Canon vabastaks pigem loomade AF-i kui terviku, mitte valikulise, tükikaupa. Ja siin saab sügav õppimine hindamatuks.

"Häda on metsloomadega, seal on palju erinevaid loomi - teil on ilmselgelt röövloomad, kelle silmad on ees, ja siis on teil küülikute (silmad) küljel, teil on madusid, teil on linde … pole süsteemi, mis tunneb ära kõigi loomade näod. Ja seal jõuate kogu sellesse süvaõppesse, õpetades süsteemi neid keerukaid asju ära tundma. "

Nii et ehkki teie Sony suudab teie koera või kassi jälgida, kuid mitte salamandrit või flamingot, soovib Canon toota kaamerat, mis teeb kõike või mitte midagi. "Kui me seda teeksime, siis tahaksime seda teha nii laia spektri jaoks - me ei taha teha koera- ja kassisõbralikku kaamerat, vaid loomasõbralikku kaamerat mis sobib paljude loomade jaoks, keda (professionaalid) laseksid. "

Canon EOS-1D X Mark III ülevaade
Kuidas tegi Canon kõigi aegade kiireima peegelkaamera? Peeglikasti ümber kujundades
102 värskendust Canon EOS-1D X Mark III-le