AlphaZero

AlphaZero er en generalistversjon av AlphaGo Zero , en go (kinesisk abstrakt strategispill) programvare som er tilpasset for å spille sjakk og shogi (japansk sjakk). AlphaZero ble opprettet av Demis Hassabis fra DeepMind , et selskap som tilhører Google- gruppen .

Historisk

De 5. desember 2017, DeepMind la ut en artikkel på arXiv prepublication-plattformen om AlphaZero, et program som bruker den generelle tilnærmingen til AlphaGo Zero . AlphaZeros spillestil avviker fra vanlige spillrutiner mens den krever mindre beregning per trekk sammenlignet med konkurrentene.

Ifølge DeepMind oppnådde AlphaZero på 24 timer et høyere nivå enn mennesker i sjakk, shogi og go ved å slå verdensmesterprogrammene Stockfish (sjakk), Elmo  (en) (shogi) og versjon d. 'AlphaGo Zero hadde tre dager med trening.

Samme måned slår AlphaZero AlphaGo Zero-versjonen (har 3 læringsdager) 60 kamper til 40. Med 8 timers trening og 21 millioner kamper spilt mot seg selv, overgår han AlphaGo-versjonen av kampen mot Lee. Sedol i Elo-rangering .

Stockfish, verdens sjakkmesterprogramvare, blir slått etter 4 timers læring og 44 millioner kamper spilt. Det var imidlertid forbudt for Stockfish å bruke åpningene og avslutningsbibliotekene.

Den Elmo shogi programmet er ødelagt etter to timer med praksis og 24 millioner spill.

AlphaZero har nå et kontinuerlig oppdatert nevrale nettverk og har kodet regler for å etablere hyperparameterforskning . Dessuten er det ikke programmert til å dra nytte av symmetriene som er spesifikke for spillet Go (muligheter for refleksjoner og rotasjoner), ikke-eksisterende i sjakkspillet, og kan ta hensyn til muligheten for uavgjort (ikke-eksisterende i spillet). game of go men til stede i sjakk).

I november 2019, Kunngjør DeepMind realiseringen av MuZero, et analogt program som også lærer spillereglene (med andre ord, det prøver bevegelser, og mottar som bare informasjon om deres lovlighet, og resultatet (mellomliggende eller endelige) av disse "trekkene" ); Dette programmet kan spille sjakk eller gå, samt videospill som Atari, med forestillinger som er sammenlignbare eller bedre enn AlphaGo.

Bibliografi

Referanser

  1. (en) David Silver et al "  Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm  ",5. desember 2017.
  2. (in) "  Hele menneskelige sjakk kunnskap Lært og overgått av Deepminds AlphaZero timer i ovnen  "The Telegraph .co.uk
  3. Thierry Noisette, "  En kunstig intelligens slår den beste AI i sjakk, gå og shogi  " , på L'Obs (åpnet 24. september 2020 )
  4. Grégory Rozières, "  Googles AI-mester i sjakk, spillet go and shogi uten spesiell trening  " , på Le HuffPost ,6. desember 2018(åpnet 24. september 2020 )
  5. Googles AlphaZero slår Stockfish flat ut
  6. Marc Zaffagni, "  AlphaZero: Google DeepMind AI Blir Uslåelig på Chess,  "Futura Tech (åpnes 11 desember 2018 )
  7. DeepMind avslører MuZero .

Relaterte artikler

Eksterne linker

Eksempler på go-spill Eksempler på sjakkspill Eksempler på shogideler