ต้องยอมรับว่า ปัจจุบัน AI นั้นเกิดขึ้นเยอะมาก ๆ และการทดสอบ LLM ว่าใช้งานได้จริง ก็มีความซับซ้อนกว่าซอฟต์แวร์ทั่วไป
เพราะ AI พวกนี้ไม่ใช่ระบบที่ให้คำตอบตายตัว มันสามารถให้คำตอบที่แตกต่างกันได้แม้จะใช้คำสั่งเดิม ทำให้การวัดผลเรื่องความสม่ำเสมอทำได้ยาก
ที่ผ่านมา นักพัฒนามักใช้การวัดผลมาตรฐาน หรือดูอันดับบน Leaderboard ซึ่งแม้จะบอกภาพรวมกว้างๆ ได้ดี แต่ก็ไม่สามารถสะท้อนประสิทธิภาพในการใช้งานเฉพาะทางได้ เช่น
โมเดลที่เก่งเรื่องการให้เหตุผลทั่วไป อาจทำงานได้ไม่ดีเมื่องานนั้นต้องการความเฉพาะเจาะจงสูงอย่างการสรุปเอกสารทางกฎหมาย หรือการตอบคำถามเกี่ยวกับข้อมูลภายในองค์กร
Stax จึงถูกสร้างขึ้นมาเพื่อแก้ปัญหานี้โดยเฉพาะ โดยช่วยให้นักพัฒนาสามารถกำหนดเกณฑ์การประเมินที่ตรงกับความต้องการของตัวเองได้ โดย Stax มาพร้อมฟีเจอร์ที่ออกแบบมาเพื่อทำให้การ ทดสอบ LLM เป็นระบบและง่ายขึ้น เช่น
– Quick Compare ฟีเจอร์นี้ช่วยให้นักพัฒนาสามารถทดลองใช้ prompt ที่แตกต่างกันกับโมเดลหลายๆ ตัวพร้อมกันได้แบบเทียบข้างต่อข้าง ทำให้เห็นผลลัพธ์ได้ชัดเจนว่าการ ปรับปรุง prompt หรือการเลือกใช้โมเดลที่ต่างกันส่งผลต่อคำตอบอย่างไร ช่วยลดเวลาการลองผิดลองถูกได้มหาศาล
– Projects & Datasets สำหรับการทดสอบที่จริงจังกว่าแค่ prompt เดียว นักพัฒนาสามารถสร้างชุดข้อมูลทดสอบที่มีโครงสร้างชัดเจน และใช้เกณฑ์การประเมินเดียวกันกับข้อมูลจำนวนมาก ทำให้การวัดผลมีความน่าเชื่อถือและทำซ้ำได้
Custom Evaluators หัวใจสำคัญของ Stax คือ Autoraters หรือตัวประเมินอัตโนมัติ นักพัฒนาสามารถสร้างเกณฑ์การประเมินของตัวเองขึ้นมา หรือจะใช้เกณฑ์ที่ Google AI เตรียมไว้ให้ก็ได้ ซึ่งครอบคลุมหัวข้อสำคัญๆ เช่น
1.Fluency ความสละสลวยของภาษาและความถูกต้องตามหลักไวยากรณ์
2.Groundedness ความถูกต้องของข้อมูลโดยเทียบกับแหล่งอ้างอิง
3.Safety การตรวจสอบว่าเนื้อหาที่ AI สร้างขึ้นไม่เป็นอันตรายหรือไม่เหมาะสม
4.Analytics โดย Stax มีแดชบอร์ดที่ช่วยสรุปผลการทดสอบให้ดูง่าย นักพัฒนาสามารถเห็นแนวโน้มประสิทธิภาพ เปรียบเทียบโมเดล AI หลายๆ ตัวบนชุดข้อมูลเดียวกันได้ ทำให้เข้าใจพฤติกรรมของโมเดลในเชิงลึก แทนที่จะได้เห็นแค่คะแนนตัวเลขลอยๆ
ใครเป็นนักพัฒนา AI ไปลองใช้ Google Stax กันครับ
ที่มา
Google AI Introduces Stax: A Practical AI Tool for Evaluating Large Language Models LLMs