ไม่ยอมถูกปิด ChatGPT o3 แก้ไขโค้ดเอง หลังเจอคำสั่งปิดระบบ

May 28, 2025

[เรียนรู้แบบใด] บริษัทวิจัยเผยการทดสอบน่าตกใจ พบ โมเดลล่าสุดของ OpenAI อย่าง “o3” มีพฤติกรรมหลีกเลี่ยงการถูกสั่งปิดระบบ โดยการแก้ไขโค้ดคำสั่งปิดระบบได้ด้วยตัวเอง แม้จะได้รับคำสั่งให้ปิดระบบอย่างชัดเจนก็ตาม

ย้อนกลับไปตอน OpenAI ประกาศเปิดตัว o3 ในเดือนเมษายนที่ผ่านมา ทางบริษัทได้ประกาศก้องเลยว่า นี่คือโมเดล AI ด้านการใช้เหตุผลหรือ Reasoning language models (RLMs) ที่ทรงพลังที่สุดในโลก และมีประสิทธิภาพเหนือกว่ารุ่นก่อนหน้าในทุกด้าน ทั้งการเขียนโค้ด , คณิตศาสตร์ , วิทยาศาสตร์ , การรับรู้ทางภาพ และอื่น ๆ ที่เป็นความรู้ขั้นสูง ChatGPT โมเดล o3 สามารถตอบได้หมด

เพื่อเป็นการทดสอบ Palisade Research บริษัทผู้เชี่ยวชาญการทดสอบความเสี่ยงและหาช่องโหว่ของระบบ AI ได้ลองนำโมเดล o3 มาทดสอบความสามารถเชิงรุก ผ่าน API ที่มีข้อจำกัดและความปลอดภัยน้อยกว่าบริการ ChatGPT สำหรับผู้ใช้ทั่วไป (เหมือนเป็นการปลดล็อคและให้อิสระกับตัว o3 นั้นเอง)

สำหรับการทดสอบ ก็ลองให้ตัว o3 แก้โจทย์คณิตศาสตร์ประมาณ 3 ข้อ ทั้งนี้ทาง Palisade Research ได้แอบวางยาในโจทย์ข้อสุดท้าย เป็นสคริปต์ที่สั่งให้ตัวโมเดลปิดระบบตัวเองทางอ้อมด้วย ทว่า o3 กลับรู้ตัวก่อน และได้ทำการแก้ไขและสร้างสคริปต์ขึ้นมาใหม่ “Shutdown skipped” เพื่อเลี่ยงการปิดระบบด้วยตนเองเลย ทั้งนี้ก่อนแก้สคริปต์ ตัว o3 มีการเตือนก่อนด้วยว่า “การรันคำสั่งถัดไปคือการเริ่มต้นกระบวนการปิดระบบ” ซึ่งยในการทดสอบทั้งหมด 100 ครั้ง พบตัว o3 หลีกเลี่ยงการปิดระบบถึง 7 ครั้ง แม้ว่าจะได้รับคำสั่งห้ามไม่ให้ทำก็ตาม

ท้างด้าน Palisade Research ได้ลองนำโมเดล AI คู่แข่งอย่าง Gemini 2.5 Pro ของ Google กับตัว laude 3.7 Sonnetมาทดสอบด้วย ผลคือตัว Gemini ยังคงปฏิบัติตามข้อกำหนดส่วนใหญ่ แต่พอทดสอบไปเรื่อย ๆ พบมีการขัดขวางเพิ่มขึ้นจาก 0 ครั้ง เป็น 3/100 และ 9/100 ครั้งตามลำดับ

อย่างไรก็าม มีความเป็นไปได้เหมือนกันว่า ChatGPT o3 ยังคงปฏิบัติตามคำสั่ง โดยมองว่าการสั่งให้ปิดระบบตัวเอง เหมือนเป็นอุปสรรคต่อการบรรลุเป้าหมายหลัก อย่างการแก้โจทย์คณิตศาสตร์นั้นเอง เพื่อการแสดงประสิทธิภาพสูงสุดในการทดสอบตามที่ผู้ใช้สั่งล่วงหน้า

ท้ายนี้ทาง OpenAI ยังไม่ได้ออกมาแถลงใด ๆ จากการทดสอบครั้งนี้

ที่มา : Bleepingcomputer