Utviklet av | Google DeepMind |
---|---|
Type | Gå spillprogramvare |
Nettsted | Offisiell side |
AlphaGo er et dataprogram som er i stand til å spille Go , utviklet av det britiske selskapet Google DeepMind .
I oktober 2015blir det det første programmet som slår en profesjonell spiller (den franske Fan Hui ) på full størrelse (19 × 19) goban uten et handikap. Dette er et symbolsk sterkt trinn siden Go-spillerprogrammet da er en kompleks utfordring for kunstig intelligens . Imars 2016Han slo Lee Se-dol , en av de beste spillerne i verden ( 9 th dan profesjonell). De27. mai 2017, slår han verdensmesteren Ke Jie og programvarepensjonen blir kunngjort.
De AlphaGo algoritmen kombinerer maskinlæring og graf traversering teknikker , forbundet med mye trening med mennesker, andre datamaskiner, og særlig selv.
Denne algoritmen vil bli forbedret ytterligere i påfølgende versjoner. AlphaGo Zero inoktober 2017når et høyere nivå ved å bare spille mot seg selv. AlphaZero i desember 2017 overgår stort sett nivået til alle menneskelige spillere og programvarespillere, ikke bare på vei, men også i sjakk og shōgi , alltid ved selvlæring .
Å programmere en Go-spiller regnes som et mye vanskeligere problem enn for andre spill, for eksempel sjakk , på grunn av et mye større antall mulige kombinasjoner, men også fordi seiersbetingelsen og mellomliggende mål er mye mindre klare, noe som gjør det ekstremt komplekst å bruke tradisjonelle metoder som uttømmende søk . Da IBMs datamaskin Deep Blue beseiret verdensmesteren i sjakk Garry Kasparov i 1997, ble datamaskiner da begrenset til nivået av svake amatørspillere i spillet Go.
Forskningsverdenen ser på denne vanskeligheten som en utfordring og forbedrer algoritmene, og nivået på programmene akselererte på 2010-tallet . I 2012 Zen programmet slå Takemiya Masaki ( 9 th dan) to ganger, med et handicap på 5 og 4 steiner. I 2013 Crazy Stone slå Yoshio Ishida ( 9 th dan) med et handicap på 4 steiner.
I begynnelsen av 2016 kunngjorde Facebook at de hadde oppmuntrende resultater fra en egenutviklet kunstig intelligens kalt Darkforest.
AlphaGo ble utviklet av DeepMind Technologies , et britisk selskap som spesialiserer seg på kunstig intelligens opprettet av Demis Hassabis , Mustafa Suleyman og Shane Legg i 2010, og kjøpt opp av Google i 2014.
AlphaGo representerer en betydelig forbedring i forhold til tidligere go-programmer . Av 500 kamper spilt mot andre programmer, inkludert Crazy Stone og Zen, mistet AlphaGo bare ett.
I oktober 2015Slår AlphaGo europeiske farten mester Fan Hui ( 2 nd dan), 5-0 i sakte spill og 3-2 i raske spill. Dette er første gang et Go-program slår en profesjonell spiller i en handicapfri kamp på full størrelse (19 × 19) goban . Nyheten ble kun kunngjort den27. januar 2016sammenfallende med publiseringen av en artikkel i tidsskriftet Nature som beskriver algoritmen som brukes.
AlphaGo vender inn mars 2016spilleren sørkoreanske Lee Se-dol ( 9 th dan profesjonell, maksimum nivå), regnes som den beste spilleren i verden mellom 2000 og 2010. Kampen, som vant en premie på en million dollar sirkuleres og kommen live på Internett. Lee Sedol mottar $ 150 000 for sin deltakelse, og $ 20 000 for hvert vunnet spill.
Kampen med 5 deler slutter med at datamaskinen vinner 4-1:
Allerede før siste kamp og sikret seier, er AlphaGo rangert 9 th profesjonell dan honorarily av Hanguk Kiwon (koreansk Go spillet Federation). Premien på 1 million dollar, vunnet av AlphaGo-teamet, blir donert til veldedige organisasjoner.
Allerede før møtet hadde andre fagpersoner uttrykt sitt ønske om å motsette AlphaGo, selv om Ke Jie , med tanke på spillene hans mot Fan Hui, følte at han ikke var en verdig motstander. Etter kampen angret Lee Sedol på at han ikke hadde gitt sitt fulle potensiale, og ønsket en omkamp. Men det var først i begynnelsen avjuni 2016at utsiktene til et nytt møte ble klarere, kunngjøringen av en kamp mot Ke Jie "før årets slutt" ble gjort under World Amateur Go Championship i Wuxi ; imidlertid6. juni, Demis Hassabis nektet å bekrefte denne informasjonen.
De 18. juli 2016Blir AlphaGo den beste spilleren i verden på GoRatings- rangeringen , med 3612 Elo-poeng (mot 3608 på andre, Ke Jie ).
I september 2016, detaljerte kommentarer om spillene mot Lee Sedol, av Gu Li og Zhou Ruiyang (en) og basert på analysen av AlphaGo, ble publisert på nettstedet til DeepMind; Ifølge Gu Li overgår mestring av AlphaGo og dybden av analysene hans fortsatt det vi allerede hadde sagt under kampen.
De 4. januar 2017, Kunngjør Demis Hassabis at en forbedret versjon av AlphaGo nettopp har spilt en serie på 60 raske spill mot de beste spillerne i verden ( Ke Jie , Iyama Yuta , Gu Li , Park Jeong-hwan (en) ...), spill hun har alle vant, og vil spille offisielle kamper senere på året.
Fra 23 til 27. mai 2017, en festival kalt The Future of Go Summit er organisert av Google og den kinesiske weiqi-foreningen i Wuzhen ; den siste versjonen av AlphaGo der møter Ke Jie i en tre-kamp, sammen med andre kinesiske profesjonelle som spiller i konsultasjon. Igjen, AlphaGo vinner alle spillte spill. Etter dette møtet kunngjør Google at AlphaGo ikke lenger vil spille konkurransedyktig, men at de vil publisere tekniske dokumenter som beskriver de siste forbedringene og et sett med spill som maskinen har spilt mot seg selv; de planlegger også å utvikle et analyseverktøy basert på denne programvaren for bruk av spillere.
De 17. oktober 2017, Kunngjør DeepMind en ny utvikling, som de kaller AlphaGo Zero ; dette programmet bruker en forenklet arkitektur og starter fra null kunnskap om spillet (bare reglene); spiller bare mot seg selv, når han nybegynnernivå på tre timer, slår 100 til 0 versjonen som slo Lee Sedol etter 72 timer, og etter 40 dager slår han versjonen avMai 2017 (kjent som “Master”) 89 spill av 100.
De 5. desember 2017, en ny versjon kalt AlphaZero generaliserer ytterligere denne algoritmen, og skaffer seg et generisk program som er i stand til å lære å spille go, sjakk eller shōgi fra den enkle kunnskapen om reglene; programmet klarer på få timer å slå de beste eksisterende programmene (for eksempel for sjakk oppnår det etter fire timers læring en klar seier over Stockfish : av 100 kamper , 25 seire med White, 3 med Black og 72 uavgjorte ).
Tidlige versjoner av AlphaGo bruke metoden for Monte Carlo , guidet av en " verdinettverk " og en " policy nettverk " (et nettverk av verdi og et nettverk av mål ), begge implementeres ved hjelp av en dyp nettverk .
AlphaGo ble opprinnelig trent til å "etterligne" menneskelige spillere, og spore treff som ble spilt inn i titusenvis av spill utført av ekspertspillere. Når han nådde et visst nivå, øvde han seg på å spille millioner av spill mot andre tilfeller av seg selv, ved å bruke forsterkningslæring for å forbedre seg selv.
Imidlertid i oktober 2017, DeepMind publiserer en ny studie i Nature , som beskriver AlphaGo Zero , en forenklet arkitektur som ikke lenger bruker verken Monte-Carlo-metoden eller menneskelig kunnskap, men likevel veldig raskt oppnår høyere ytelse enn tidligere versjoner.
AlphaGo-algoritmen (eller i det minste dens essensielle ideer) har blitt offentliggjort, og flere grupper har prøvd å reprodusere den, eller til og med forbedre den. Spesielt fra og med 2018 har et samarbeidsprosjekt og åpen kildekode , Leela Zero , oppnådd lignende resultater innen et år, bærbart på personlige datamaskiner og til og med på smarttelefoner.