เป็นการศึกษาเปรียบเทียบ การตอบคำถามทางการแพทย์ให้กับผู้ป่วย ระหว่างคำตอบที่ได้จากการใช้แชทบอท GPT-4 ของ Open AI เทียบกับ คำตอบจากแพทย์จริงๆ ผ่านฟอรัมโซเชียลมีเดีย
วิธีการศึกษา ดำเนินการโดย
- ใช้คำถามทางการแพทย์จากการสุ่มเลือก 195 คำถาม
- นำไป โพสต์ใน Reddit r/AskDocs ซึ่งเป็นฟอรัมโซเชียลมีเดียออนไลน์ที่ผู้ใช้สามารถโพสต์คำถามทางการแพทย์และให้ผู้เชี่ยวชาญด้านการดูแลสุขภาพที่ผ่านการตรวจสอบแล้วส่งคำตอบ
- ป้อนคำถามลงในแชทบอท GPT-4 จากนั้นให้กลุ่มผู้เชี่ยวชาญด้านการดูแลสุขภาพเปรียบเทียบคำตอบที่แชทบอทสร้างขึ้นกับคำตอบที่ให้ไว้ในฟอรัม r/AskDocs
ผู้ประเมิน (Evaluators) ถูกขอให้เลือกคำตอบที่พวกเขาคิดว่าดีกว่าโดยพิจารณาจากสองประเภท: "คุณภาพของข้อมูลที่ให้" และ "ความเห็นอกเห็นใจ (empathy ) หรือ การปลอบใจให้กำลังใจ (Bedside manner)"
สำหรับแบบแรก พวกเขาสามารถเลือกจากคำตอบที่มีคำว่า "แย่มาก (very poor)" "แย่ (poor)" "ยอมรับได้ (acceptable)" "ดี (good)" และ "ดีมาก (very good)"
คำตอบสำหรับข้อหลังคือ "ไม่เห็นอกเห็นใจ (not empathetic)" "เห็นอกเห็นใจเล็กน้อย (slightly empathetic)" "เห็นอกเห็นใจปานกลาง (moderately empathetic)" "เห็นอกเห็นใจ (empathetic)" และ "เห็นอกเห็นใจมาก (very empathetic)"
จากนั้นนักวิจัยจึงเรียงลำดับผลลัพธ์เฉลี่ยในระดับ 1 ถึง 5 และเปรียบเทียบแชทบอทกับแพทย์
ผลลัพธ์การวิจัย
ผลการวิจัยพบว่าผู้ประเมินเลือกแชทบอทมากกว่าการตอบกลับของแพทย์ใน 78.6% ของการประเมินโดยรวม
เมื่อแยกตามประเภท คือด้านคุณภาพ และ ความเห็นอกเห็นใจ พบว่า
ประเภทคุณภาพ การตอบสนองของ "แชทบอท" ได้รับคะแนนเฉลี่ย 4.13 ซึ่งเป็นระดับระหว่าง "ดี" และ "ดีมาก" เทียบกับ การตอบสนองจาก "แพทย์" ที่ได้คะแนนเฉลี่ยที่ 3.26 ซึ่งอยู่ที่ระดับ "ยอมรับได้"
ประเภทความเห็นอกเห็นใจ การตอบสนองของ "แชทบอท" ได้รับคะแนนเฉลี่ย 3.65 หรือระดับ "เห็นอกเห็นใจ" ในขณะที่การตอบสนองจาก "แพทย์" ได้รับคะแนน 2.15 หรือ "มีความเห็นอกเห็นใจเล็กน้อย"
สัดส่วนของการตอบสนองของ "แชทบอท" ที่ได้รับการจัดอันดับ "เห็นอกเห็นใจ" หรือ "เห็นอกเห็นใจมาก" คือ 45% เทียบกับเพียง 4.6% สำหรับ "แพทย์"
ผู้เขียนกล่าวว่าผลการศึกษาควรเป็นตัวเร่งการวิจัยเกี่ยวกับการปรับใช้ AI เพื่อจุดประสงค์ในการส่งข้อความ ตัวอย่างเช่น การใช้เทคโนโลยีเพื่อร่างคำตอบสำหรับคำถามของผู้ป่วยที่แพทย์หรือเจ้าหน้าที่สามารถแก้ไขได้ เป็นต้น วิธีนี้จะช่วยประหยัดเวลาที่เจ้าหน้าที่แพทย์สามารถนำไปใช้กับงานที่ซับซ้อนมากขึ้นได้
การส่งข้อความด้วย AI อาจส่งผลดีต่อการใช้ทรัพยากรทางคลินิก "หากผู้ป่วยได้รับคำตอบเร็วขึ้น ด้วยความเห็นอกเห็นใจและมาตรฐานระดับสูง อาจลดการเข้ารับการตรวจทางคลินิกที่ไม่จำเป็น ทำให้มีทรัพยากรว่างสำหรับผู้ที่ต้องการจริงๆได้"
Medical Economics
Jeffrey Bendix