Hoe leert hij?
Elke gespeelde positie wordt onthouden met de uitkomst. Wint geel vanuit een positie, dan stijgt geel's score daar. Volgende partij kiest de AI vaker de bewezen winnende zet.
Twee AI's spelen continu tegen elkaar — links zie je ze trainen (als er kijkers zijn).
Hoe leert hij?
Voor elke combinatie van scores en beurt-totaal onthoudt de AI of doorgooien of stoppen vaker tot winst leidde. Q-learning.
Op den duur ontdekt hij dat "stoppen rond 20" een goede vuistregel is — en wanneer je daar van moet afwijken.