Advantage Play, AlphaGo, chess, Dan Negreanu, Doug Polk, GTO, Karpov, Kasparov, Lee Sedol, poker bot

2020: การเพิ่มขึ้นของเครื่องจักร


โดย James Grosjean นับฉันเป็นหนึ่งในโดรนของ Netflix ที่ชื่นชอบ The Queen’s Gambit (2020) แต่ฉันเป็นคนที่ชอบเล่นหมากรุกมาโดยตลอด ในช่วงเรียนมหาวิทยาลัยฉันอาจจะกินครัวซองต์ช็อคโกแลตหนึ่งพันชิ้นในขณะที่ดู Murray Turnbull (หรือที่เรียกว่า“ The Chess Master”) ที่เล่นโวหารกับผู้มาเยือนทุกคนในจัตุรัสกลางเมือง -“ $ 2 คืนเงินหากคุณชนะหรือเสมอ” เป็นเกียรติของฉันที่ได้ถ่ายภาพ Karpov อันยิ่งใหญ่ที่ล้อมรอบด้วยกระจกสีของ Memorial Hall เมื่อเขาทำแบบจำลอง 40 กระดานในมหาวิทยาลัย ฉันเป็นส่วนหนึ่งของสื่อมวลชนของนักเรียนเมื่อคาสปารอฟกล่าวคำพูดที่ขัดแย้งกันในตอนนั้นว่าคอมพิวเตอร์จะเป็นแชมป์ที่ยิ่งใหญ่ก่อนที่ผู้หญิงจะเป็น บันทึกการถกเถียงเรื่องผู้หญิงที่เป็นไปได้ของคาสปารอฟสำหรับฟอรัมอื่นและอีกวันหนึ่งฉันใช้คำพูดของเขาเป็นเพียงการคาดการณ์จากการสังเกตเชิงประจักษ์ของชุมชนหมากรุก การมีส่วนร่วมของผู้หญิงอยู่ในระดับต่ำมาโดยตลอดและไม่ได้เพิ่มขึ้นอย่างมีนัยสำคัญในขณะที่คอมพิวเตอร์มีความแข็งแกร่งอยู่แล้วและแข็งแกร่งขึ้นอย่างรวดเร็ว เครื่องจักรเหล่านี้จะนำมาซึ่งความเท่าเทียมกันใหม่ซึ่งทุกเพศทุกวัยถูกบดขยี้เหมือนมด ทฤษฎีบทของ Zermelo บอกเราว่าเกมที่มีข้อมูลครบถ้วน (ผู้เล่นทั้งสองสามารถเห็นทุกส่วนบนกระดานหมากรุก) ซึ่งมีข้อ จำกัด (เกมจะจบลงหลังจากการเคลื่อนไหวหลายครั้ง) มีวิธีแก้ปัญหาและหากทั้งสองฝ่ายเล่นเกมนี้ ทางออกที่ดีที่สุดแล้วทุกเกมก็มีผลลัพธ์เหมือนกัน หมากรุกมีความซับซ้อนมากพอที่เราไม่แน่ใจว่าผลลัพธ์จะเป็นอย่างไร แต่เราคิดว่า White จะชนะทุกครั้งซึ่งในกรณีนี้จะไม่มีการตอบสนองของ Black ที่สามารถเปลี่ยนผลลัพธ์ได้ เกม Connect Four ยังอยู่ภายใต้ทฤษฎีบทของ Zermelo และการวิเคราะห์ได้ระบุว่าในเกมนั้น sis ที่ส่อเสียดจะชนะเสมอหากเธอไปก่อนและเล่นอย่างเหมาะสมที่สุด หากคุณเป็น AP ที่ชอบ QGambit และกำลังหิวโหยสำหรับเนื้อหาเพิ่มเติมในช่วงการระบาดที่ไม่สิ้นสุดนี้งานชิ้นต่อไปของคุณคือการดู AlphaGo ซึ่งเป็นสารคดีเกี่ยวกับการเพิ่มขึ้นของคอมพิวเตอร์ในเกม Go โบราณซึ่งมีความซับซ้อนมากกว่า หมากรุก. ไม่ได้ล้อเล่นหนังเรื่องนี้เป็นหนังที่ฉีกแนวสำหรับผู้ที่สนใจในสาขานี้และชื่นชมกับละครอารมณ์เข้มข้นของลีเซดอลซึ่งเป็นแชมป์ของมนุษยชาติที่ดีที่สุดเท่าที่เคยมีมา ภาพยนตร์เรื่องนี้ถ่ายทอดความทุกข์ยากความกล้าหาญความฉลาดและความอ่อนน้อมถ่อมตนของเซดอลในขณะที่เขาตระหนักดีว่าการแข่งขันกับเครื่องจักรกลครั้งนี้ไม่ใช่แค่เกม แต่เป็นการเกิดขึ้นของระเบียบโลกใหม่ ไม่ใช่โปรแกรมเมอร์เซดอลไม่ได้ชื่นชมสิ่งที่เขาจะต่อสู้ แต่ในฐานะผู้เชี่ยวชาญในงานฝีมือของเขาบนกระดานเขาสัมผัสได้ถึงน้ำหนักที่ไม่หยุดยั้งและไม่อาจยอมรับได้ของคู่ต่อสู้ หลังจากที่คุณสนุกกับ AlphaGo แล้วฉันขอแนะนำ (จริงๆแล้ว Google แนะนำ) ให้คุณดูการแข่งขันโป๊กเกอร์ระหว่าง Dan Negreanu ในโรงเรียนเก่ากับ Doug Polk คอมพิวเตอร์โคลนสมัยใหม่ ผู้เล่นที่ดีที่สุดในโลกคือเครื่องจักรดังนั้นมนุษย์ที่ฉลาดอย่าง Polk จึงเลียนแบบกลยุทธ์ของเครื่องจักรได้ ปรับตัวหรือตาย ครั้งหนึ่งฉันเคยแลกเปลี่ยนสั้น ๆ กับ Howard Lederer ฉันถามเขาเกี่ยวกับบอทในเว็บไซต์โป๊กเกอร์ เขาตัดพ้อประเด็นนี้โดยกล่าวว่า“ โป๊กเกอร์ไม่เหมือนหมากรุก โป๊กเกอร์เป็นเกมที่มีข้อมูลไม่สมบูรณ์ คอมพิวเตอร์ไม่เก่ง” ฉันไม่สามารถบอกได้ว่าเขาเป็นคนโง่ไร้เดียงสาหรือเป็นหน้าม้าคอนแมนสำหรับ Full Tilt Poker ไม่ว่าจะด้วยวิธีใดฉันไม่อยากคุยต่อเมื่อ 15 ปีที่แล้ว แต่ตอนนี้เราอยู่ที่นี่ในปี 2564 และถึงเวลาที่จะสนทนาต่อไปโดยการหักล้างความเข้าใจผิดครั้งแรกเกี่ยวกับคอมพิวเตอร์ GTO (ทฤษฎีเกมที่เหมาะสมที่สุด) และความผิดพลาดที่ทับซ้อนอื่น ๆ ทั้งหมดที่ไดโนเสาร์โป๊กเกอร์และผู้เล่นโป๊กเกอร์ที่ประกาศตัวเองคือ ยึดติดกับ: ความผิดพลาด # 1: คอมพิวเตอร์ไม่เก่งในเกมที่มีข้อมูลไม่สมบูรณ์ แค่นี้ก็งมงาย เป็นความจริงที่ทฤษฎีบทของ Zermelo ใช้ไม่ได้กับเกมอย่างโป๊กเกอร์ สำหรับโป๊กเกอร์มีทฤษฏีอื่น ๆ ที่บอกว่ามีวิธีแก้ปัญหาสำหรับเกมนี้และโดยทั่วไปแล้วโซลูชันคอมพิวเตอร์จะเกี่ยวข้องกับ“ กลยุทธ์แบบผสมผสาน” ซึ่งหมายความว่ามีองค์ประกอบในการสุ่มของกลยุทธ์ (เช่นการเรียกกรรไกรด้วยความน่าจะเป็น 1/3 ). คอมพิวเตอร์ค่อนข้างดีและดีกว่ามนุษย์ในการคำนวณความคาดหวังเกี่ยวกับผลลัพธ์ที่น่าจะเป็นโดยเฉพาะอย่างยิ่งเมื่อทราบการแจกแจงความน่าจะเป็นอย่างแม่นยำเช่นเดียวกับในเกมไพ่ ตัวอย่างเช่นคอมพิวเตอร์รู้ว่าความน่าจะเป็นของการวาดแบ็คดอร์ฟลัชคืออะไรและอัตราต่อรองที่จำเป็นต้องใช้เพื่อพิสูจน์การไล่ แม้ว่าโป๊กเกอร์จะมีข้อมูลที่ไม่ครบถ้วน แต่โป๊กเกอร์แบบไม่มีขีด จำกัด แบบไม่ จำกัด หัวเป็นเกมที่ง่ายกว่าเกม Go แม้ว่า Go จะมีข้อมูลทั้งหมด (ข้อมูลความรู้ทั่วไป) ความผิดพลาด # 2: ความเหนือกว่าของคอมพิวเตอร์มาจากความสามารถในการจดจำทุกมือที่ฉันเล่นและปรับเปลี่ยนตามนั้น ในขณะที่“ บอทหาประโยชน์” จะวิเคราะห์การเล่นในอดีตของคุณและปรับตัวรับรู้จุดอ่อน แต่บอท GTO มาตรฐาน (ซึ่งเราใช้เรียกว่า“ บอทแนช”) เป็นโป๊กเกอร์ที่เทียบเท่ากับ BS ในแบล็คแจ็ค กลยุทธ์ GTO ไม่เปลี่ยนแปลงไม่ว่าคุณจะเล่นในมืออย่างไร ไม่ต้องการข้อมูลนั้นและไม่สนใจ ความผิดพลาด # 3: โซลูชัน GTO นั้น“ ถูกต้อง” เท่านั้นหากเล่นกับบ็อต GTO อื่นเพราะนั่นคือสิ่งที่สมมติขึ้นเมื่อบอตถูกพัฒนาบอท“ เรียนรู้” โดยการเล่นกับตัวมันเอง นี่เป็นเท็จ “ บอทเล่นกับตัวเองเพื่อเรียนรู้โป๊กเกอร์” เป็นกระบวนการพัฒนาที่ไม่ถูกต้อง สื่อชอบโฆษณา Clickbait เพื่อให้ทุกผลลัพธ์ในการประมวลผลเป็นเสียงที่เหมือนการพัฒนาในยุคปัจจุบันโดยเรียกใช้ HAL และ Skynet บ็อต GTO ไม่รู้อะไรเกี่ยวกับโป๊กเกอร์ การใช้กลยุทธ์ GTO เป็นแบบฝึกหัดในการคำนวณซึ่งเกิดขึ้นได้จากหน่วยความจำขนาดใหญ่และความเร็วของ CPU ที่มีอยู่ในคอมพิวเตอร์ในปัจจุบันและการพัฒนาอัลกอริทึมที่มีประสิทธิภาพเพื่อทำการคำนวณ (“ การลดความเสียใจ”) เราไม่เคยใช้เพื่ออธิบายอัลกอริทึมว่า “แมชชีนเลิร์นนิง” หรือ “AI” – เราเคยเรียกมันว่า “การปีนเขา” หรือ “การเพิ่มประสิทธิภาพสูงสุด” หรือ “การเพิ่มประสิทธิภาพ” ในแต่ละขั้นตอนของอัลกอริทึมซ้ำคอมพิวเตอร์มีกลยุทธ์ปัจจุบันที่อยู่ระหว่างการพัฒนาสำหรับแต่ละที่นั่งที่โต๊ะและกลยุทธ์ปัจจุบันนี้อาจเรียกได้ว่าเป็น “ตัวมันเอง” เช่นเดียวกับ: “PokerSnowie เล่นกับตัวเอง” แต่มันเป็นเพียงการทำซ้ำบนเส้นทางของการปีนเขาเพื่อมาบรรจบกันที่จุดสูงสุดซึ่งเป็นกลยุทธ์ที่ดีที่สุดสำหรับโป๊กเกอร์ ความเหมาะสมนั้นไม่ถือว่าฝ่ายตรงข้ามรายใดเป็นพิเศษ มีวิธีอื่นที่เราสามารถคำนวณวิธีแก้ปัญหาได้ (แม้ว่าอาจจะไม่เร็วเท่า) และมันก็ใช้ได้เหมือนกัน กลยุทธ์ GTO นี้คือ“ หนังสือ” สำหรับโป๊กเกอร์และจะไม่มีวันเสียเปรียบโดยไม่คำนึงถึงฝ่ายตรงข้าม ไม่มีกลยุทธ์ใดที่จะได้เปรียบกับมัน ความผิดพลาด # 4: บ็อต GTO คิดว่าฉันจะเล่นด้วยวิธีใดวิธีหนึ่ง แต่ฉันจะหลอกล่อโดยการเล่นนอกชุด 72 ของฉันออกจากตำแหน่ง ไม่ถูกต้อง. บ็อต GTO ไม่ได้คิดอะไรเกี่ยวกับวิธีการเล่นของคุณ มันไม่สนใจหรอก ไม่สามารถเอาชนะได้กับกลยุทธ์ใด ๆ ของฝ่ายตรงข้าม ลองนึกภาพคุณกำลังจะต่อสู้กับ Floyd Mayweather และคุณพูดว่า“ Floyd คาดหวังให้ฉันปรากฏตัวในสภาพร่างกายที่ไร้ที่ติ เขาถือว่าฉันจะฝึกหนักในอีกหกเดือนข้างหน้า ฉันจะหลอกเขา – ฉันจะดู Netflix และกินโดนัทในอีกหกเดือนข้างหน้า” Floyd ไม่รู้ว่าคุณจะฝึกหนักแค่ไหน เขารู้ดีว่าถ้าตัวเขาเองมีรูปร่างสมบูรณ์แบบไม่มีฝ่ายตรงข้ามที่จะได้เปรียบเขา มันสมเหตุสมผลหรือไม่ที่จะพูดว่า“ บอทคิดว่าฉันจะเล่นได้ดี ฉันจะหลอกบอทด้วยการเล่นโป๊กเกอร์ที่ไม่ดี!” ใช่คุณแสดงให้เห็นแล้ว! ความผิดพลาด # 5: ฉันพบจุดอ่อน – เมื่อฉันมีเช่นนี้และเช่นนี้จากตำแหน่งดังกล่าวบอทควรทำ X แต่ Y ผิด บอทไม่มีจุดอ่อน คุณกำลังดูการจับมือโดยเฉพาะและผลลัพธ์ที่เฉพาะเจาะจง แต่ขึ้นอยู่กับความเป็นไปได้ที่จะอยู่ในสถานการณ์นั้นและมือที่เป็นไปได้ทั้งหมดที่คุณสามารถถือได้จากมุมมองของบอทการเล่นนั้นถูกต้องและคุณสามารถทำได้ ไม่พบหลุมที่นั่น เป็นเรื่องอันตรายมากที่จะมองไปที่การเล่นอย่างโดดเดี่ยว บอททำการเคลื่อนไหวเพื่อสร้างความสมดุลให้กับช่วงของมันเพื่อที่คุณจะไม่สามารถสกัดกั้นในสถานการณ์อื่น ๆ ได้หรือหากไพ่ใบอื่นมาที่แม่น้ำ หากคุณไม่เห็นข้อบกพร่องก็อยู่ที่การคิดโป๊กเกอร์ของคุณเองไม่ใช่ของบอท ความผิดพลาด # 6: ถ้าฉันเล่นไปสักพักฉันจะรู้ว่ามันเล่นยังไงและหาจุดอ่อน ไม่ถูกต้อง. ไม่มีความอ่อนแอ. ในความเป็นจริงเราสามารถเผยแพร่กลยุทธ์ของบอทได้และจะไม่สร้างความแตกต่างใด ๆ ถ้าฉันบอกคุณว่าฉันจะเล่น Scissors, Rock และ Paper ที่มีความน่าจะเป็น 1/3 ในแต่ละอันการที่คุณรู้ว่ากลยุทธ์ของฉันทำให้คุณไม่ได้เปรียบ ไม่มีส้น Achilles ความผิดพลาด # 7: บอท Heads-Up Limit ที่นำเข้ามาในคาสิโนนั้นสามารถเอาชนะได้สูงดังนั้นบอท GTO ก็น่าจะเป็นเช่นกัน นี่ไม่ใช่การเปรียบเทียบที่มีความหมาย บอทคาสิโนบางตัวได้รับคำสั่งให้ไม่เล่นเกม A ของพวกเขาเพราะมันแข็งแกร่งเกินไปสำหรับมนุษย์ทั่วไป หากคาสิโนตั้งค่าให้บอทเล่นเกม B เพื่อให้บรรลุความได้เปรียบ 5% เมื่อเทียบกับผู้เล่นส่วนใหญ่มนุษย์ที่ดีจริงๆสามารถสร้างรายได้จากบอท GTSO นั้น (บอทย่อยที่เหมาะสมที่สุดของทฤษฎีเกม) แต่นั่นเป็นปัญหาที่แตกต่างออกไป ฉันไม่สนใจว่าคุณเป็นใคร: หากคุณเล่นหัวกับ PokerSnowie คุณจะแพ้ ความผิดพลาด # 8: บ็อต GTO สามารถเอาชนะผู้เล่นที่อ่อนแอได้ แต่บอทจะมีปัญหากับคู่ต่อสู้อันดับต้น ๆ เช่น Phil Ivey หรือ Dan Negreanu ไม่ถูกต้อง. สิ่งที่สวยงามเกี่ยวกับบ็อต GTO คือไม่สำคัญว่าคู่ต่อสู้จะเป็นใคร อย่างดีที่สุดมีคนเล่นได้แม้กระทั่งกับบอท วงแหวนของบ็อต GTO จะเป็นเหมือนอ่างล้างจานโดยเงินที่ไหลตามเข็มนาฬิกาจะไล่ตามปุ่มและระบายออกตรงกลางโต๊ะเนื่องจากการคราด ปัญหาในทางปฏิบัติที่มืออาชีพในโลกแห่งความเป็นจริงเคยมีคือการตัดสินใจว่าเมื่อใดที่ทักษะของพวกเขาเพียงพอที่จะก้าวขึ้นไปสู่การเดิมพันที่สูงขึ้นต่อไปซึ่งผู้เล่นน่าจะแข็งแกร่งขึ้น แต่ตอนนี้ผู้เล่นที่เลียนแบบกลยุทธ์ GTO สามารถนั่งลงที่โต๊ะใดก็ได้ในโลกที่เดิมพันใดก็ได้และไม่ต้องกังวลว่าจะเป็นปลา อย่างดีที่สุดเกมจะเป็นแบบแม้กระทั่ง (นอกคราด) และในทางปฏิบัติกลยุทธ์ GTO มอบความได้เปรียบที่ยิ่งใหญ่กับทุกคนที่คุณจะพบในป่า Fallacy # 9: Dan Negreanu เป็นมือโปรโป๊กเกอร์ที่มีสร้อยข้อมือ N มายาวนานดังนั้นเขาจะทำลายคอมพิวเตอร์อย่าง Doug Polk ที่ไม่เข้าใจความแตกต่างของโป๊กเกอร์จริง ถ้าผู้ชายอย่าง Polk จำ“ แผนภูมิ” และเลียนแบบกลยุทธ์ GTO ได้เขาก็ไม่จำเป็นต้องเข้าใจเรื่องเลวร้าย เขาไม่จำเป็นต้องรู้ว่าคำว่า“ แตกต่างกันนิดหน่อย” หมายถึงอะไร ประสบการณ์โป๊กเกอร์ของมืออาชีพอย่าง Negreanu คือสิ่งที่ช่วยให้พวกเขาคิดว่าการเล่นที่ดีที่สุดในสถานการณ์ที่ซับซ้อน ประสบการณ์นั้นล้าสมัยไปแล้วเพราะคอมพิวเตอร์เพิ่งคำนวณว่าการเล่นที่เหมาะสมคืออะไร บางทีในปี 1950 ประสบการณ์ของผู้เล่นทำให้เขาสามารถตัดสินได้ว่าการตี 14 v T นั้นดีกว่าการยืน เมื่อ Four Horsemen คำนวณแผนภูมิ BS ประสบการณ์แบล็คแจ็คนั้นก็ไม่เกี่ยวข้อง หนังสือทำให้ประสบการณ์ที่ไม่จำเป็น ตอนนี้ Doug Polk ไม่ใช่ GTO bot เขาเป็นมืออาชีพระดับแนวหน้าที่ใช้กลยุทธ์ GTO ดังนั้นช็อตเดียวของ Negreanu ที่จะเอาชนะ Polk ก็คือถ้าการจำลอง GTO ของ Polk ไม่แม่นยำและถ้าช่องนั้นใหญ่พอที่ Negreanu จะค้นหาและใช้ประโยชน์ได้ ฉันสงสัยมัน. ช็อตช็อตอีกอย่างก็คือถ้าพวกเขาเล่นสดและถ้า Polk บอกทางกายภาพว่าให้ข้อมูลเกี่ยวกับไพ่หลุมของเขาและถ้า Negreanu สามารถอ่านเขาได้ด้วยวิธีนั้น หรือหาก Polk มีปัญหาในการเอียงและเริ่มหลงทางจาก GTO หากเขามีไพ่ไม่ดี ไม่น่าใช่ หรือบางทีเกมอาจสั้นพอที่ Negreanu จะโชคดีในตัวอย่างเล็ก ๆ หลังจากเล่นกับ AlphaGo ลีเซดอลก็ยกระดับเกมของเขาขึ้นและเริ่มบดขยี้ทุกคน (ไม่ใช่ว่าเขายังไม่ได้เล่น) แต่แล้วก็ออกจากเกม! เขายอมรับว่าเขาได้รับการฝึกฝนมาอย่างดี (ช่างเป็นแนวคิด!) และไม่มีมนุษย์คนไหนที่จะท้าทายผู้เล่นที่ดีที่สุดในโลก AlphaGo ได้อีก เราจะดูว่า Negreanu จะมีความศักดิ์สิทธิ์เหมือนกันหรือไม่ ทวีตล่าสุดทำให้ฉันสงสัยเพราะ Negreanu ดูเหมือนจะตั้งคำถามกับการเล่นบอทและบอกว่ามีเส้นบาง ๆ ระหว่างอัจฉริยะและความไม่พอใจ ฉันคิดว่าเขายังคงหวังว่ามีข้อบกพร่องในกลยุทธ์ GTO ไม่มี ล่าสุดฉันได้ยินมาว่า Negreanu กำลังเข้าร่วมการแข่งขันและมีข้อบ่งชี้บางประการว่าเหตุผลหนึ่งคือด้วยเครดิตของเขา Negreanu กำลังฝึกฝนกับ PokerSnowie และปรับตัว! หาก Negreanu สามารถเรียนรู้กลยุทธ์ GTO ได้อย่างรวดเร็วเขาก็สามารถยกระดับสนามแข่งขันได้ซึ่งจะเป็นความสำเร็จที่ยิ่งใหญ่ วิธีเดียวที่ไดโนเสาร์จะอยู่รอดได้คือการพัฒนา เราจะเห็นในปี 2021

[Next time, I’ll discuss some of the limitations and weaknesses of the poker bots, unless we thrash them out in the Comments below.]


คาสิโน ออนไลน์888
ทางเข้า คาสิโน
คาสิโน 1688
คาสิโน 1988
คาสิโน ทรูวอลเล็ต