Deep Reinforcement Learning : Is the future perfect?

ลองนึกภาพแมวตัวหนึ่งถูกวางลงในกล่อง วิธีเดียวที่มันจะออกมาข้างนอกได้คือต้องเหยียบคานงัดที่เป็นกลไกเปิดประตู หลังจากเวลาผ่านไปสักพักและเรียนรู้ว่าการร้องเหมียวๆไม่ได้เป็นกุญแจสู่ผลลัพธ์ที่ต้องการ สิ่งที่มันทำต่อจากนั้นคือ “ทดลอง” ทำทุกอย่างที่ทำได้ อาจจะกลิ้งไปมา เดินหาช่องประตูทางออก เอาเท้าเขี่ยตรงนั้นตรงนี้ จนในที่สุด ด้วยความบังเอิญ อุ้งเท้าโดนเจ้ากลไกชิ้นนี้เข้า ประตูเปิดออก เจ้าเหมียวตัวนี้ “เรียนรู้” จากประสบการณ์และครั้งต่อไปก็ทำได้เรื่อยๆ

ข้อมูลนี้ถูกบันทึกไว้โดยนักจิตวิทยาชื่อ Edward Thorndike ประมาณร้อยกว่าปีก่อน การค้นพบครั้งนี้ถือเป็นหลักความคิดเดียวกับเทคโนโลยี Artificial Intelligence (AI – ปัญญาประดิษฐ์) ที่ทั่วโลกกำลังให้ความสนใจมากที่สุดในเวลานี้ : Reinforcement Learning (RL)

ถ้ามองดูให้ดี แนวคิดนี้ไม่ใช่เรื่องใหม่ มันเป็นวิธีทางธรรมชาติที่มนุษย์เรียนรู้กันมาตั้งแต่เด็ก เช่นเมื่อเด็กคนหนึ่งอยากได้อมยิ้ม เขาอาจจะลองทำพฤติกรรมหลายๆอย่าง ชี้นิ้ว กระทืบเท้า ลงไปนอนกับพื้น จนกระทั่งพบว่าถ้าร้องไห้หนักๆสะอึกสะอื้นอมยิ้มก็ตามมา สมองก็จดรายละเอียดนั้นเอาไว้เพื่อใช้ในครั้งต่อไป มันเป็นกระบวนการเรียนรู้จากการ “Trial & Error” หรือการทดลองทำซ้ำๆเพื่อให้ได้ผลลัพธ์ตามเป้าหมาย

ในช่วงแรกของของการพัฒนา AI มีนักทดลองหลายคนที่พยายามใช้แนวคิดนี้เพื่อเพิ่มความเฉลียวฉลาดให้กับแมชชีน หนึ่งในนั้นคือ Marvin Minsky ในปี 1951 เขาสร้างโปรแกรมเลียนแบบการเรียนรู้การหาทางออกจากเขาวงกตของหนู หลักการของการทดลองคือเมื่อเจ้าหนูในโปรแกรมหาทางออกเจอ เส้นทางที่มันเลือกใช้มาก็จะถูกทำให้มีน้ำหนักในการถูกเลือกมากยิ่งขึ้นในครั้งต่อไป ต่อจากนั้นมาก็มีนักทดลองอีกหลายคนที่พยายามใช้แนวคิดนี้แต่สุดท้ายปลายทางแล้วทุกคนก็ลงความเห็นคล้ายกันว่ามันไม่สามารถแก้ปัญหาที่ใหญ่และยุ่งยากกว่านี้ได้

 

แต่มุมมองนั้นก็ถูกลบล้างไปปี 2016 เมื่อ AlphaGo สมองกลคอมพิวเตอร์ที่ถูกพัฒนาโดยบริษัท DeepMind (ส่วนหนึ่งของบริษัทแม่ของ Google ชื่อว่า Alphabet) ด้วยการรวมเอาเทคนิค Deep Learning (DL – การสอนให้โปรแกรมเรียนรู้ด้วยตัวเองจาก Raw Data คล้ายกับสมองมนุษย์) เข้ากับ Reinforcement Learning (Deep Reinforcement Learning – DRL) จนสามารถเอาชนะ Lee Sedol นักเล่นหมากล้อมที่เก่งเป็นอันดับต้นๆของโลกได้อย่างขาดลอย

 

ข่าวนี้กลายเป็นเรื่องใหญ่โตที่ทำให้ทั่วโลกหันกลับมาสนใจปัญญาประดิษฐ์อีกครั้งหนึ่ง เพราะ AlphaGo นั้นไม่ได้ถูกเขียนว่าต้องเล่นและวางหมากที่ไหนโดยโปรแกรมเมอร์หรือเทพหมากล้อม แต่ถูกสร้างให้พัฒนาตนเองจากแหล่งข้อมูล Raw Data ที่เป็นรูปภาพของการเล่นหมากล้อมจำนวนหนึ่งแสนภาพจากอินเตอร์เนท (DL) หลังจากนั้นก็ให้ AlphaGo เลียนแบบการเล่นของนักเล่นหมากล้อมมืออาชีพ แต่สิ่งที่น่าสนใจคือหลังจากนั้นผู้สร้าง AlphaGo ปล่อยให้มันค่อยๆพัฒนาการเล่นด้วยการแข่งกับเวอร์ชั่นเก่าของตัวเองอีก 30 ล้านเกมส์เพื่อลดข้อผิดพลาดและเพิ่มอัตราการชนะให้อยู่ที่ 80-90% (RL)

สิ่งมีชีวิตทั้งหลายโดยเฉพาะมนุษย์มีความสามารถในการแก้ไขปัญหาที่ท้าทายได้มากมายหลายประเภท ตั้งแต่ปัญหาง่ายๆอย่างหยิบจับของ แกะซองขนม ไปจนกระทั้งปัญหายากๆที่ต้องใช้กระบวนการคิดประมวลผลของสมองอย่างการเล่นหมากล้อม เป้าหมายของการพัฒนา AlphaGo ของ DeepMind คือสร้างโปรแกรมที่ไร้ขอบเขตการใช้งาน สามารถที่จะใช้เพื่อพัฒนาปัญญาประดิษฐ์ให้หาทางแก้ไขปัญหาด้วยตัวเองโดยไม่ได้ต้องมีโปรแกรมเมอร์เขียนชุดคำสั่งให้ทำตามเป็นขั้นตอน ถ้าบอกว่า DeepMind กำลังพยายามสร้างแมชชีนที่มีระบบการเรียนรู้จากประสบการณ์ชีวิตเช่นเดียวกับมนุษย์ก็คงไม่ผิดเท่าไหร่นัก

DeepMind ใช้เทคนิคเดียวกันในการฝึก AI ให้เล่นเกมส์ต่างๆในยุค 90’s ของ Atari อย่าง Break Out และ Space Invaders ด้วยความที่ AI ไม่ได้ถูกโปรแกรมให้เรียนรู้กฎใดๆของเกมส์เลย แต่ให้อิสระในการลองผิดลองถูกโดยมีระบบการให้คะแนน (Rewards & Punishments) จากการกระทำของตัวเอง ในช่วงแรกๆการบังคับเกมส์นั้นเหมือนเป็นการสุ่มทำนู้นทำนี้ไปเรื่อย จนผ่านไปสักพักมันก็เริ่มจับทางได้ว่าต้องทำยังไงถึงจะได้คะแนนเยอะขึ้น จนในที่สุดด้วยเวลาแค่ไม่นาน (Break Out ใช้เวลาเล่น 400 ครั้ง ส่วน Space Invaders ใช้เวลา 8 ชั่วโมง) ความสามารถของมันข้ามผ่านมนุษย์ทั่วไปและไม่ผิดพลาดอีกเลย

ออกมาจากโลกของเกมส์สู่ความเป็นจริง Google ทดลองใช้เทคโนโลยีเดียวกันนี้ในการควบคุมการใช้พลังงานของ Data Center ของตัวเอง ซึ่งก็เหมือนการเล่นเกมส์อีกเช่นกัน คราวนี้เป้าหมายของปัญหานี้คือประหยัดพลังงานให้มากที่สุดโดยที่ไม่กระทบต่อการทำงานของ Data Center โดยมีข้อมูลเก่าเป็น Raw Data และสร้างสถานการณ์สมมุติขึ้นมาว่าต้องเปิดปิดการทำงานตอนไหนเมื่อไหร่ ผลลัพธ์ที่ได้คือ Google สามารถลดการใช้พลังงานได้ถึง 40% เลยทีเดียว

 

DRL กำลังได้รับความสนใจอย่างมาก เพราะระบบการทำงานของมันที่คล้ายกับสมองมนุษย์ที่ใช้ประสบการณ์ในการพัฒนาตนเองขึ้นเรื่อยๆ แน่ล่ะว่าเทคนิคนี้จะกลายเป็นพื้นฐานของการพัฒนาเทคโนโลยีใหม่ๆในอีกหลายทศวรรษข้างหน้า ไม่ว่าจะรถยนต์ไร้คนขับ การทำฟาร์มโดยใช้หุ่นยนต์ การสร้างยารักษาโรคที่เฉพาะเจาะจงกับคนไข้ การรักษาโรคมะเร็ง นักวิเคราะห์การเงิน ครู ช่างก่อสร้างที่เป็น AI หรือแม้แต่อาชีพที่ดูห่างไกลจากปัญญาประดิษฐ์อย่างนักเขียน นักดนตรี หรือนักแสดง ในตอนนี้ก็เริ่มมีให้เห็นกันแล้วว่าไม่ไกลเกินขอบเขตของความสามารถของ AI เลยแม้แต่น้อย

 

ไอเดียเกี่ยวกับสมองกลถูกปรับเปลี่ยนมาเรื่อยๆตามยุคสมัย โดยเฉพาะในรูปแบบของ science fiction และภาพยนต์เกี่ยวกับโลกอนาคต ตั้งแต่หุ่นยนต์ที่ต้องการล้างเผ่าพันธ์มนุษย์ใน Terminator ไปจนถึงความสัมพันธ์อันลึกซึ้งระหว่างมนุษย์กับสมองกลอย่าง Her และ WestWorld แต่ไม่ว่าเวลาจะผ่านมากี่ปีและรูปลักษณ์ของ AI จะอยู่ในรูปแบบไหน แนวคิดที่ไม่เคยแปลี่ยนแปลงเลยคือปัญญาประดิษฐ์ต้อง “ฉลาด” เทียบเท่ามนุษย์หรือมากกว่า ซึ่งตอนนี้ DeepMind แสดงให้เห็นแล้วว่า AlphaGo คือตัวอย่างแรกๆที่ชัดเจนว่ามันไม่ใช่เรื่องในอนาคตที่ไกลตัวอีกต่อไป และนี้เป็นเพียงจุดเริ่มต้นเท่านั้น

การพัฒนา AI ให้ก้าวมาถึงตรงนี้ถือเป็นความสำเร็จที่ยิ่งใหญ่ของมนุษยชาติ เทียบเท่ากับการค้นพบไฟฟ้าหรือส่งมนุษย์ขึ้นไปเหยียบดวงจันทร์ คล้ายกับยุคการปฎิวัติอุตสาหกรรมในช่วง 1750-1850 หลายร้อยอาชีพจะถูกลบหายไป และอีกหลายร้อยอาชีพใหม่ๆจะผุดขึ้นมาแทนที่ แต่ในขณะที่ประโยชน์ในการใช้งาน AI เพื่อยกระดับชีวิตของเราให้มีความสะดวกสบาย ปลอดภัย และมีคุณภาพมากยิ่งขึ้น มันก็มีโอกาสที่จะถูกใช้ไปในทางที่ไม่พึงประสงค์อย่างการก่อการร้ายหรือสงครามได้เช่นเดียวกัน

ถึงแม้ในตอนนี้จะยังไม่รู้หรอกว่าอนาคตจะออกมาในรูปแบบไหน จะสมบูรณ์แบบโดยมนุษย์มี AI ยืนเคียงบ่าเคียงไหล่เป็นผู้ช่วยอัจฉริยะอย่างที่เราคาดหวังเอาไว้รึเปล่า หรือกลายเป็นสงครามล้างเผ่าพันธ์มนุษย์เหมือนที่คนกังวล การคาดเดาเป็นเรื่องยากและคงไม่มีใครตอบได้อย่างเต็มปากว่าว่าจะหัวหรือก้อย

แต่อย่างน้อยๆตอนนี้เรารู้แล้วว่าพิมพ์เขียวของความฉลาดของ AI ในอนาคตนั้นมาจากการทำงานของสมองของมนุษย์ เพราะฉะนั้นสิ่งหนึ่งที่แน่นอนที่สุดคือ AI จะถูกสร้างขึ้นเพื่อประโยชน์หรือโทษนั้นก็ขึ้นอยู่กับจิตใต้สำนึกของมนุษย์ซะมากกว่า

.

.

ตีพิมพ์ครั้งแรกบน The Standard Magazine Issue 1 อ่านฉบับเต็มได้ที่ลิ้งค์ได้เลยครับ

Leave a Reply

Your email address will not be published. Required fields are marked *