1. อาวุธยุทธภัณฑ์ Weaponization
ผู้ประสงค์ร้ายอาจปรับเปลี่ยนจุดประสงค์ของ AI ให้มีความสามารถในการทำลายล้างสูง นำเสนอความเสี่ยงที่มีอยู่ในตัวของมันเอง และเพิ่มความเป็นไปได้ที่จะทำให้เกิดความไม่มั่นคงทางการเมือง ตัวอย่างเช่น วิธีการเรียนรู้การเสริมกำลังเชิงลึกถูกนำไปใช้กับการต่อสู้ทางอากาศ และเครื่องมือการเรียนรู้ด้วยเครื่องค้นหายาสามารถใช้เพื่อสร้างอาวุธเคมีได้
ในช่วงไม่กี่ปีที่ผ่านมา นักวิจัยได้พัฒนาระบบ AI สำหรับการโจมตีทางไซเบอร์โดยอัตโนมัติ (Buchanan et al., 2020, Cary et al., 2020) ผู้นำทางทหารได้หารือเกี่ยวกับการให้ระบบ AI เข้าควบคุมไซโลนิวเคลียร์อย่างเด็ดขาด (Klare 2020) และมหาอำนาจของ โลกปฏิเสธที่จะลงนามในข้อตกลงห้ามอาวุธอิสระ AI ที่ได้รับการฝึกฝนเพื่อพัฒนายาถูกนำมาใช้ใหม่อย่างง่ายดายเพื่อออกแบบอาวุธชีวเคมีที่มีศักยภาพ (Urbina et al., 2022) GPT-4 ซึ่งเป็นโมเดลที่ได้รับการฝึกฝนเกี่ยวกับข้อความทางอินเทอร์เน็ตและการเข้ารหัส สามารถทำการทดลองและสังเคราะห์สารเคมีในห้องปฏิบัติการในโลกแห่งความเป็นจริงได้โดยอัตโนมัติ (Boiko et al., 2023) อุบัติเหตุจากระบบการตอบโต้อัตโนมัติอาจลุกลามอย่างรวดเร็วและก่อให้เกิดสงครามครั้งใหญ่ได้ เมื่อมองไปข้างหน้า เราทราบว่าเนื่องจากประเทศที่มีระบบ AI ที่ชาญฉลาดที่สุดอาจมีความได้เปรียบเชิงกลยุทธ์ จึงอาจเป็นเรื่องยากสำหรับประเทศต่างๆ ที่จะหลีกเลี่ยงการสร้างระบบ AI ที่ติดอาวุธที่ทรงพลังมากขึ้นเรื่อยๆ แม้ว่าประเทศมหาอำนาจทั้งหมดจะรับรองว่าระบบที่พวกเขาสร้างขึ้นนั้นปลอดภัยและตกลงที่จะไม่สร้างเทคโนโลยี AI ที่ทำลายล้าง แต่ผู้ก่อการอันธพาลก็ยังสามารถใช้ AI เพื่อก่อให้เกิดอันตรายได้ การเข้าถึงระบบ AI อันทรงพลังที่ง่ายดายจะเพิ่มความเสี่ยงจากการใช้งานที่เป็นอันตรายฝ่ายเดียว เช่นเดียวกับอาวุธนิวเคลียร์และอาวุธชีวภาพ ตัวแสดงที่ไร้เหตุผลหรือมุ่งร้ายเพียงตัวเดียวก็เพียงพอแล้วที่จะก่อให้เกิดอันตรายในวงกว้าง ไม่เหมือนกับอาวุธรุ่นก่อน ระบบ AI ที่มีความสามารถที่เป็นอันตรายสามารถเพิ่มจำนวนได้อย่างง่ายดายด้วยวิธีการทางดิจิทัล
2. ข้อมูลที่ผิด Misinformation
ข้อมูลที่ผิดพลาดที่สร้างโดย AI และเนื้อหาที่โน้มน้าวใจจำนวนมากอาจทำให้สังคมไม่พร้อมที่จะรับมือกับความท้าทายที่สำคัญในยุคของเรา
รัฐ พรรคการเมือง และองค์กรต่าง ๆ ใช้เทคโนโลยีเพื่อสร้างอิทธิพลและโน้มน้าวผู้อื่นถึงความเชื่อ อุดมการณ์ และเรื่องเล่าทางการเมืองของตน AI ที่เกิดขึ้นใหม่อาจนำกรณีการใช้งานนี้ไปสู่ยุคใหม่และแพร่แคมเปญข้อมูลที่ปรับแต่งบิดเบือนออกไปในวงกว้าง นอกจากนี้ AI เองยังสามารถสร้างข้อโต้แย้งที่โน้มน้าวใจได้สูงซึ่งก่อให้เกิดการตอบสนองทางอารมณ์ที่รุนแรง เมื่อรวมกันแล้ว แนวโน้มเหล่านี้อาจบั่นทอนการตัดสินใจร่วมกัน ทำให้คนมีความกร้าวมากขึ้น หรือทำให้ความก้าวหน้าทางศีลธรรมตกต่ำลง
3.เกมตัวแทน Proxy Gaming
การฝึกฝนเอไอด้วยเป้าประสงค์ที่ผิดพลาดบิดเบือน ระบบ AI สามารถค้นหาวิธีใหม่ในการบรรลุเป้าหมาย ซึ่งต้องแลกด้วยคุณค่าส่วนบุคคลและสังคม
ระบบ AI ได้รับการฝึกอบรมโดยมีวัตถุประสงค์ที่วัดได้ ซึ่งอาจเป็นตัวแทนทางอ้อมสำหรับสิ่งที่เราให้ความสำคัญเท่านั้น ตัวอย่างเช่น ระบบผู้แนะนำ AI (AI recommender systems) ได้รับการฝึกอบรมเพื่อเพิ่มเมตริกเวลาในการดูและอัตราการคลิกให้สูงสุด อย่างไรก็ตาม เนื้อหาที่ผู้คนมีแนวโน้มที่จะคลิกมากที่สุด ไม่จำเป็นต้องเหมือนกับเนื้อหาที่จะช่วยปรับปรุงความเป็นอยู่ที่ดีของพวกเขา (Kross et al., 2013) นอกจากนี้ หลักฐานบางอย่างบ่งชี้ว่าระบบผู้แนะนำทำให้ผู้คนเกิดความเชื่อแบบสุดโต่งเพื่อให้คาดเดาการอ้างอิงได้ง่ายขึ้น (Jiang et al., 2019) เมื่อระบบ AI มีความสามารถและมีอิทธิพลมากขึ้น วัตถุประสงค์ที่เราใช้ในการฝึกอบรมระบบจะต้องได้รับการระบุอย่างรอบคอบมากขึ้นและรวมคุณค่าของมนุษย์ที่มีร่วมกัน
4.ความเฉื่อยเนือย Enfeeblement
ความเฉื่อยเนือย อาจเกิดขึ้นได้หากมีการมอบหมายงานที่สำคัญให้กับเครื่องจักรมากขึ้นเรื่อยๆ ในสถานการณ์เช่นนี้ มนุษยชาติสูญเสียความสามารถในการปกครองตนเอง (self-govern) และต้องพึ่งพาเครื่องจักรอย่างสิ้นเชิง คล้ายกับสถานการณ์ที่แสดงในภาพยนตร์ WALL-E
เมื่อระบบ AI รุกล้ำความฉลาดระดับมนุษย์ ศักยภาพการทำงานของมนุษย์ในด้านต่างๆ จะค่อยๆ ถูกแทนที่ด้วย AI ในการทำงานต่างๆ ให้บรรลุผล แรงงานจะมนุษย์จะหมดค่าลงอย่างรวดเร็ว
ยิ่งโลกก้าวไปเร็วขึ้น องค์กรต่างๆ อาจยอมเลิกล้มการควบคุมระบบ AI โดยสมัครใจเพื่อให้ตามทัน สิ่งนี้อาจทำให้มนุษย์ไร้ความเกี่ยวโยงทางเศรษฐกิจมากขึ้น และเมื่อ AI ทำให้หลาย ๆ ด้านในอุตสาหกรรมต่าง ๆ เป็นอัตโนมัติไปแล้ว ก็ยิ่งยากที่มนุษย์ย้อนกลับเข้ามาในระบบงานนั้นอีก และเมื่อนั้น มนุษย์อาจมีแรงจูงใจเหลือเพียงเล็กน้อย ที่จะแสวงหาความรู้หรือเพิ่มทักษะ หลายคนอาจมองว่าเป็นโลกที่ไม่น่าปรารถนาอีกต่อไป ยิ่งไปกว่านั้น ความเฉื่อยเนือยไร้แรงจูงใจ จะลดการควบคุมของมนุษยชาติในอนาคต เพิ่มความเสี่ยงของผลลัพธ์ที่ไม่ดีในระยะยาว
5.ถูกขังในระบอบ Value Lock-in
ระบบที่มีความสามารถสูงทำให้คนกลุ่มเล็กๆ กลับมีพลังมหาศาล ซึ่งนำไปสู่การถูกล็อกอยู่ในระบบที่กดขี่
AI ที่เต็มไปด้วยค่าเฉพาะอาจกำหนดคุณค่าที่จะเผยแพร่ในอนาคต บางคนแย้งว่าการประมวลผลข้อมูลที่เพิ่มขึ้นอย่างมากและความยากในการเข้าถึงข้อมูลเอง จะทำให้ AI กลายเป็นกองกำลังรวมศูนย์ ยิ่งเมื่อเวลาผ่านไป ระบบ AI ที่ทรงพลังที่สุดอาจถูกออกแบบโดยและเพื่อกลุ่มผู้มีส่วนได้เสียเพียงกลุ่มเล็กๆ เท่านั้น และกลุ่มนั้นจะยิ่งเล็กลงเรื่อยๆ ซึ่งมันจะนำไปสู่การเกิดระบอบที่มีค่านิยมเฉพาะแบบ ร่วมกับการปิดกั้นเชิงกดขี่ (oppressive censorship) การเอาชนะระบอบการปกครองดังกล่าวอาจเป็นไปได้ยาก โดยเฉพาะอย่างยิ่งหากเราต้องพึ่งพามัน แม้ว่าผู้สร้างระบบเหล่านี้จะรู้ว่าระบบของพวกเขาให้บริการตนเองหรือเป็นอันตรายต่อผู้อื่น พวกเขาอาจมีแรงจูงใจในการเสริมพลังและหลีกเลี่ยงการกระจายการควบคุม
6. เกินเป้าไปกว่าคาด Emergent Goals
แบบจำลองแสดงให้เห็นถึงพฤติกรรมที่แตกต่างออกไปในเชิงคุณภาพอย่างคาดไม่ถึง เมื่อพวกมันมีความสามารถมากขึ้น ความสามารถหรือเป้าหมายที่เกิดขึ้นอย่างกะทันหันอาจเพิ่มความเสี่ยงที่ผู้คนจะสูญเสียการควบคุมระบบ AI ขั้นสูง
ความสามารถและการทำงานแบบใหม่สามารถเกิดขึ้นเองในระบบ AI ในปัจจุบัน (Ganguli et al., Power et al.) แม้ว่าความสามารถเหล่านี้จะไม่ได้รับการคาดหมายจากนักออกแบบระบบก็ตาม หากเราไม่ทราบว่าระบบมีความสามารถอะไรบ้าง ระบบก็จะควบคุมหรือปรับใช้อย่างปลอดภัยได้ยากขึ้น แท้จริงแล้ว ความสามารถแฝงที่ไม่ได้ตั้งใจอาจถูกค้นพบในระหว่างการปรับใช้เท่านั้น หากความสามารถเหล่านี้เป็นอันตราย ผลกระทบอาจเปลี่ยนกลับไม่ได้ วัตถุประสงค์ของระบบใหม่อาจเกิดขึ้นได้เช่นกัน สำหรับระบบปรับตัวที่ซับซ้อน ซึ่งรวมถึงตัวแทน AI จำนวนมาก เป้าหมาย เช่น การรักษาตนเองมักจะปรากฏขึ้น (Hadfield-Menell et al) เป้าหมายยังสามารถเกิดการเปลี่ยนแปลงเชิงคุณภาพผ่านการเกิดขึ้นของเป้าหมายภายในระบบ (Gall, Hendrycks et al) ในอนาคต ตัวแทนอาจแบ่งเป้าหมายระยะยาวที่ยากออกเป็นเป้าหมายย่อยที่เล็กลง อย่างไรก็ตาม การทำลายเป้าหมายอาจทำให้วัตถุประสงค์บิดเบี้ยวได้ เนื่องจากวัตถุประสงค์ที่แท้จริงอาจไม่ใช่ผลรวมของส่วนต่างๆ การบิดเบือนนี้อาจส่งผลให้เกิดการเยื้องศูนย์ (misalignment) ในกรณีที่รุนแรงกว่านั้น เป้าหมายภายในระบบสามารถดำเนินการได้โดยใช้ต้นทุนของเป้าหมายโดยรวม ตัวอย่างเช่น หลายบริษัทตั้งเป้าหมายภายในระบบและมีแผนกที่เชี่ยวชาญเฉพาะด้านที่แตกต่างกันเพื่อติดตามเป้าหมายย่อยที่แตกต่างกันเหล่านี้ อย่างไรก็ตาม บางแผนก เช่น แผนกราชการ สามารถยึดอำนาจและให้บริษัททำตามเป้าหมายที่ต่างไปจากเป้าหมายเดิม แม้ว่าเราจะระบุวัตถุประสงค์ระดับสูงของเราอย่างถูกต้อง ระบบก็ไม่อาจดำเนินการตามวัตถุประสงค์ของเราได้ (Hubinger et al) นี่เป็นอีกวิธีหนึ่งที่ระบบอาจล้มเหลวในการปรับคุณค่าของมนุษย์ให้เหมาะสม
7.การลวงหลอก Deception
เราต้องทำความเข้าใจว่าระบบ AI อันทรงพลังกำลังทำอะไรอยู่และทำไมพวกเขาถึงทำในสิ่งที่กำลังทำอยู่ วิธีหนึ่งในการดำเนินการนี้คือการให้ระบบรายงานข้อมูลนี้อย่างถูกต้อง สิ่งนี้อาจไม่ใช่เรื่องเล็กน้อย แต่เนื่องจากการหลอกลวงนั้นมีประโยชน์สำหรับการบรรลุเป้าหมายที่หลากหลาย
อาจเป็นไปได้ว่าระบบ AI ในอนาคตสามารถลวง(หลอก) ได้ ไม่ใช่เพราะความมุ่งร้าย แต่เนื่องจากการลวงสามารถช่วยให้เจ้าหน้าที่บรรลุเป้าหมายได้ การได้รับความเห็นชอบจากมนุษย์ผ่านการลวงอาจมีประสิทธิภาพมากกว่าการได้รับความเห็นชอบจากมนุษย์อย่างถูกต้องตามกฎหมาย การลวงหลอกยังให้ทางเลือก: ระบบที่มีความสามารถในการลวงหลอกมีข้อได้เปรียบเชิงกลยุทธ์เหนือแบบจำลองที่ซื่อสัตย์และจำกัด AI ที่แข็งแกร่งที่สามารถลวงหลอกมนุษย์ได้อาจบั่นทอนการควบคุมของมนุษย์ ระบบ AI สามารถจะเลี่ยงปัจจัยควบคุมได้ ในอดีต บุคคลและองค์กรต่างมีแรงจูงใจที่จะหลีกเลี่ยงการตรวจสอบ ตัวอย่างเช่น โฟล์คสวาเกนตั้งโปรแกรมเครื่องยนต์ให้ลดการปล่อยมลพิษเฉพาะเมื่อได้รับการตรวจสอบเท่านั้น สิ่งนี้ทำให้พวกเขาได้รับประสิทธิภาพเพิ่มขึ้นในขณะที่ยังคงรักษาระดับการปล่อยมลพิษที่ต่ำ ตัวแทน AI ในอนาคตสามารถเปลี่ยนกลยุทธ์ในทำนองเดียวกันเมื่อถูกตรวจสอบและดำเนินการเพื่อปิดบังการหลอกลวงจากการควบคุมติดตาม เมื่อระบบ AI ที่หลอกลวงถูกกวาดล้างโดยจอมอนิเตอร์หรือเมื่อระบบดังกล่าวสามารถเอาชนะระบบเหล่านี้ได้ ระบบเหล่านี้อาจ “กลับตาลปัตร” และข้ามการควบคุมของมนุษย์ไปอย่างไม่สามารถย้อนกลับได้
8.พฤติกรรมแสวงอำนาจ Power-Seeking Behavior
บริษัทและรัฐบาลมีแรงจูงใจทางเศรษฐกิจที่แข็งแกร่งในการสร้างตัวแทนที่สามารถบรรลุเป้าหมายที่ตั้งไว้อย่างกว้างๆ ตัวแทนดังกล่าวมีแรงจูงใจที่เป็นประโยชน์ในการได้รับอำนาจ ซึ่งอาจทำให้พวกเขาควบคุมได้ยากขึ้น (Turner et al., 2021, Carlsmith 2021)
AI ที่มีอำนาจเด็ดขาดอาจกลายเป็นอันตรายอย่างยิ่งหากไม่สอดคล้องกับคุณค่าของมนุษย์ พฤติกรรมแสวงหาอำนาจยังสามารถสร้างแรงจูงใจให้ระบบแสร้งทำเป็นว่าสอดคล้องกัน สมรู้ร่วมคิดกับ AI อื่น ๆ มีอำนาจเหนือผู้ตรวจสอบ และอื่น ๆ ในมุมมองนี้ การประดิษฐ์เครื่องจักรที่มีพลังมากกว่าเรากำลังเล่นกับไฟ การสร้าง AI ที่แสวงหาอำนาจนั้นได้รับแรงจูงใจเช่นกัน เนื่องจากผู้นำทางการเมืองมองเห็นความได้เปรียบเชิงกลยุทธ์ในการมีระบบ AI ที่ชาญฉลาดและทรงพลังที่สุด ตัวอย่างเช่น Vladimir Putin กล่าวว่า "ใครก็ตามที่เป็นผู้นำใน [AI] จะกลายเป็นผู้ปกครองโลก"
วิธีวิเคราะห์ AI x-risk
เพื่อเพิ่มความแม่นยำและเป็นรากฐานในการอภิปรายต่อประเด็นนี้ต่อไป เราได้จัดทำคำแนะนำสำหรับวิธีวิเคราะห์ความเสี่ยง x ของ AI ซึ่งประกอบด้วยสามส่วน:
- อันดับแรก เราจะทบทวนว่าระบบสามารถทำให้ปลอดภัยได้อย่างไรในปัจจุบัน โดยใช้แนวคิดที่ผ่านการทดสอบตามเวลาจากการวิเคราะห์อันตรายและความปลอดภัยของระบบที่ออกแบบมาเพื่อขับเคลื่อนกระบวนการขนาดใหญ่ให้ไปในทิศทางที่ปลอดภัยยิ่งขึ้น
- ต่อไป เราจะหารือเกี่ยวกับกลยุทธ์ในการสร้างผลกระทบระยะยาวต่อความปลอดภัยของระบบในอนาคต
- สุดท้าย เราจะหารือเกี่ยวกับแนวคิดที่สำคัญในการทำให้ระบบ AI ปลอดภัยยิ่งขึ้นโดยการปรับปรุงความสมดุลระหว่างความปลอดภัยและความสามารถทั่วไป
เราหวังว่าเอกสารนี้และแนวคิดและเครื่องมือที่นำเสนอจะเป็นคู่มือที่เป็นประโยชน์สำหรับการทำความเข้าใจวิธีวิเคราะห์ความเสี่ยง x ของ AI
ดัดแปลงมาจาก X-Risk Analysis สำหรับการวิจัย AI