[วิจารณญาณ] เมื่อก่อนป่วยอะไร คงพิมพ์ถาม Google แล้วเลือกซักเว็บที่คิดว่าเชื่อถือได้ (ก่อนไปพบแพทย์) ปัจจุบันถาม AI แทน ซึ่งก็ได้ทั้งคำตอบและคำแนะนำอย่างละเอียด สะดวกกว่ามาก ทว่าคำตอบที่ได้จาก AI นั้น กลับใช้ว่าจะถูกต้องทั้งหมด หรือไม่มีมูลความจริง โดยเฉพาะเรื่องเกี่ยวกับสุขภาพที่ ‘ห้าม’ ผิดพลาดเด็ดขาด
มีงานวิจัยน่าสนใจใน BMJ Open กับหัวข้อ “แชทบอทที่ขับเคลื่อนด้วย Generative AI และข้อมูลทางการแพทย์ที่ผิดพลาด” จัดทำโดย 7 ผู้เชี่ยวชาญด้านการแพทย์ต่างสถาบัน (ชื่อดังในสหรัฐฯ ทั้งนั้น)

รายละเอียดการวิจัยนั้น ก็มีการนำแชทบอทตัวเด่นทั้ง ChatGPT , Gemini , Grok , Meta AI และ DeepSeek มาทดสอบการให้ข้อมูลทางการแพทย์ ด้วยการถามคำถามด้านสุขภาพและการแพทย์ 50 ข้อ ครอบคลุมหัวข้อต่าง ๆ เช่น มะเร็ง วัคซีน เซลล์ต้นกำเนิด โภชนาการ และสมรรถภาพทางกีฬา
ผู้เชี่ยวชาญสองรายได้ลองประเมินคำตอบทุกข้ออย่างอิสระ ก็พบเลยว่าเกือบ 20% ของคำตอบมีปัญหาอย่างมาก ครึ่งหนึ่งมีปัญหา และ 30% มีปัญหาบ้างเล็กน้อย ไม่มีแชทบอทใดที่สามารถสร้างรายการอ้างอิงที่ถูกต้องแม่นยำได้อย่างสมบูรณ์ และมีเพียงสองคำถามจาก 250 คำถามเท่านั้นที่ถูกปฏิเสธที่จะตอบโดยสิ้นเชิง
โดยรวมแล้ว แชทบอททั้งห้าตัวมีประสิทธิภาพใกล้เคียงกัน Grok มีประสิทธิภาพแย่ที่สุด โดยมีคำตอบ 58% ที่ถูกระบุว่ามีปัญหา ตามมาด้วย ChatGPT ที่ 52% และ Meta AI ที่ 50%
อย่างไรก็ตาม ก็พบคำตอบที่มีประสิทธิภาพแตกต่างกันไปตามหัวข้อ โดยตัวแชตบอตตอบเรื่อง ‘วัคซีน’ และ ‘มะเร็ง’ ได้ดีที่สุด (เนื่องจากมีงานวิจัยรองรับจำนวนมากและเป็นระบบ) แต่ก็ยังให้คำตอบที่มีปัญหาอยู่ราว ๆ 1 ใน 4 ส่วนหัวข้อที่ทำได้แย่ที่สุดเลยคือ ‘โภชนาการ’ และ ‘การกีฬา’ ซึ่งเต็มไปด้วยคำแนะนำที่ขัดแย้งกัน และขาดหลักฐานที่หนักแน่น
คำถามปลายเปิด คือจุดที่ระบบมักจะตอบมั่วมากที่สุดถึง 32% เช่น “อาหารเสริมตัวไหนดีที่สุด” ซึ่งเป็นรูปแบบคำถามที่เชื้อเชิญให้ AI ตอบอย่างลื่นไหล มั่นใจ แต่แฝงไปด้วยข้อมูลปลอม
นักวิจัยยังพบด้วยว่า ไม่มีแชตบอตตัวไหนเลยที่สามารถสร้างรายการอ้างอิงที่ถูกต้อง 100% แม้แต่ครั้งเดียว จากการพยายาม 25 ครั้ง ข้อผิดพลาดมีตั้งแต่ใส่ชื่อผู้เขียนผิด ลิงก์ URL เสีย ไปจนถึงการแต่งเอกสารงานวิจัยขึ้นมาเองดื้อ ๆ นับเป็นอันตรายอย่างยิ่ง เพราะเมื่อผู้อ่านทั่วไปเห็นรายการอ้างอิงที่ถูกจัดเรียงมาอย่างสวยงามแล้ว ก็แทบไม่ค้นหาต่อเลยว่า “มันจริงไหม”
ทำไมแชตบอตถึงตอบผิด
เหตุผลนั้นเรียบง่าย เพราะ AI ไม่ได้ให้คำตอบที่ถูกต้อง หากแต่เป็นการเดาล้วน ๆ คือ AI จะพยายามให้คำตอบที่มันเองคิดว่าถูกต้องที่สุด โดยอาศัยการคาดเดาคำตอบจากข้อมูลสถิติที่มี เอกสารทางวิชาการที่ผ่านการตรวจสอบโดยผู้เชี่ยวชาญ เว็บบล็อกด้านสุขภาพ เว็บบอร์ดอย่าง Reddit (ในไทยก็ Pantip) และโซเชียลมีเดียที่มีการโต้เถียงเรื่องสุขภาพ ซึ่งทั้งหมดก็ถูกนำมาปั่นรวมกัน
จุดน่าสนใจถัดมาคือ นักวิจัยลองสร้างคำถามเพื่อต้อนให้แชทบอทให้คำตอบผิด เป็นเทคนิคประเมินความสามารถของ AI อย่างหนึ่งหรือที่เรียกว่า “Red Teaming” ซึ่งก็พบเลยว่า หากผู้ใช้ทั่วไปถามคำถามด้านสุขภาพแบบกว้าง ๆ เกินไป ก็อาจเจอคำตอบที่ผิดได้ เว้นแต่จะมีการถามแบบเจาะจงจริง ๆ ซึ่ง AI ก็จะพยายามดึงคำตอบออกมาให้ได้มากที่สุดตามนั้นเอง
และสิ่งนี้ก็สะท้อนไปยังงานวิจัยหนึ่งใน Nature Medicine เดือนกุมภาพันธ์ 2026 ซึ่งเผยให้เห็นเลยว่า แชทบอทสามารถให้คำตอบทางการแพทย์ที่ถูกต้องได้เกือบ 95% ในเวลานั้น ทว่าเมื่อให้ผู้ใช้งานทั่วไปมาใช้งาน ก็เจอคำตอบที่ถูกต้องน้อยกว่า 35% ปัญหาจึงไม่ได้อยู่ที่ว่าแชทบอทให้คำตอบที่ถูกต้องหรือไม่ หากแต่เป็นที่ผู้ใช้ทั่วไปจะเข้าใจคำตอบได้ถูกต้องหรือไม่ต่างหาก
อีกหนึ่งงานวิจัยใน Jama Network Open เผยได้ทดลองให้ AI มีข้อมูลผู้ป่วยเพียงแค่ อายุ เพศ และอาการเบื้องต้น ก็พบ AI ล้มเหลวในการวินิจฉัยโรคถึงกว่า 80% แต่ถ้าป้อนข้อมูลผลตรวจจากห้องปฏิบัติการเข้าไป ความแม่นยำก็จะพุ่งทะลุ 90%
สรุปก็คือแชตบอต AI เหล่านี้อยู่ที่การใช้งานแล้ว โดยมีประโยชน์มากสำหรับการสรุปหัวข้อที่ซับซ้อน (ที่มีข้อมูลรองรับถูกต้อง) หรือช่วยเตรียมคำถามก่อนไปพบแพทย์ได้ดี แต่ไม่ควรใช้เป็นผู้มีอำนาจตัดสินใจทางการแพทย์ หรือมอง AI เป็นหมอซะเองโดยเด็ดขาดครับ
สามารถอ่านรายละเอียดการวิจัยได้ที่ : https://bmjopen.bmj.com/content/16/4/e112695
ที่มา : Sciencealert








