เจอช่องโหว่ AI คายความลับ เข้ารหัสดักฟังข้อมูล

AI คายความลับ

สำหรับคนที่ใช้งาน AI เป็นประจำ ไม่รู้จะเรื่องอะไรของชีวิตเรา ทำให้มันรู้จักเราดีราวกับเป็นเพื่อนสนิท ไม่ว่าจะเป็นที่อยู่ ที่ทำงาน อาหารโปรด หรือแม้แต่แผนเที่ยวในวันหยุดของเรา ยิ่งคุยกันบ่อย มันก็ยิ่งรู้เรื่องส่วนตัวของเรามากขึ้น ไม่เว้นว่ากระทั่งภาวะตึงเครียด เช่น เราอาจมีแนวโน้วจะหย่ากับเมีย หรือสถานการณ์การเงินที่ค่อนข้างย่ำแย่

แม้ผู้ช่วยอัจฉริยะ (AI Assistant) จะเหมือนเพื่อนสนิทที่ไว้ใจปรึกษาเรื่องต่างๆ ได้ แต่การสื่อสารที่เข้ารหัสกับ AI อาจไม่ปลอดภัย 100% โดยล่าสุด นักวิจัยชาวอิสราเอล ค้นพบช่องโหว่ที่แฮกเกอร์สามารถดักฟังข้อมูลจากการตอบกลับที่เข้ารหัสของ AI ได้

ช่องโหว่นี้ สามารถอ่านข้อความการตอบกลับที่เข้ารหัส AI ผ่านทางเว็บไซต์ ซึ่งช่องโหว่จะมาจากสาเหตุที่ AI ส่วนใหญ่นั้นใช้ระบบสตรีมมิ่งในการติดต่อกับโมเดลภาษาขนาดใหญ่ แต่ยกเว้น Google Gemini ซึ่งพวกเขาได้สาธิตการโจมตีนี้บนข้อมูลที่เข้ารหัสของ ChatGPT-4 จาก OpenAI และ Copilot ของ Microsoft

จากการทดสอบ นักวิจัยสามารถแปลข้อความการตอบกลับจาก AI ได้ความถูกต้องมากถึง 29% และสามารถระบุหัวข้อของการสนทนาได้ถึง 55%

จุดเริ่มต้นของการโจมตีนี้คือ “ช่องโหว่ความยาวของโทเค็น” (Token-length side-channel) ซึ่งในการประมวลผลภาษาธรรมชาติ โทเค็น (Token) คือหน่วยความหมายที่เล็กที่สุดของข้อความ ยกตัวอย่างเช่น ประโยคว่า “I have an itchy rash” หรือ “ผมมีผื่นคัน” สามารถแบ่งเป็นโทเค็นได้คือ S = (k1, k2, k3, k4, k5) โดยที่ k1 = I, k2 = have, k3 = an, k4 = itchy, and k5 = rash

ทำให้รู้ว่า แม้ว่าการสื่อสารจะเข้ารหัส แต่ขนาดของแพ็กเก็ตข้อมูลสามารถเผยความยาวของโทเค็นได้ ซึ่งอาจช่วยให้แฮกเกอร์สามารถอ่านการสนทนาได้เหมือนกัน

แต่การถอดรหัสจากความยาวโทเค็นนั้นไม่ง่าย เพราะการตอบกลับอาจยาวหลายประโยค ทำให้เกิดประโยคที่ถูกต้องทางไวยกรณ์ได้หลายล้านรูปแบบ นักวิจัยจึงแก้ปัญหานี้ด้วย (1) การใช้ LLM อีกตัวแปลความลำดับความยาวของโทเค็น (2) ป้อนบริบทของประโยคก่อนหน้าเพื่อจำกัดขอบเขตการค้นหา และ (3) ใช้การโจมตีแบบ known-plaintext attack (ใช้ข้อมูลที่มีอยู่เพื่อหาข้อมูลอื่นๆ มากขึ้น)

ทั้งนี้นักวิจัยได้เสนอแนะวิธีป้องกันด้วยการสุ่มเติมข้อมูล (padding) ลงในทุกข้อความ เพื่อเพิ่มความยาวของโทเค็น ช่วยลดความเสี่ยงในการอนุมานข้อมูลจากขนาดของแพ็กเก็ตข้อมูลครับ

ที่มา
techspot