แชทบอท AI ดีกว่าแพทย์ ในการตอบคำถามของผู้ป่วยหรือไม่?

การแพทย์เป็นหนึ่งในเป้าหมายหลักที่จะมีการนำเอาปัญญาประดิษฐ์ AI มาใช้ ซึ่งมีการนำมาใช้เพิ่มมากขึ้นในอัตราเร่ง ในทุกๆ สาขา ทุกแขนงที่สามารถประยุกต์ใช้ได้ สิ่งหนึ่งที่เป็นที่จับตาของการนำเอา AI มาใช้ในทางการแพทย์ คือ คำถามที่ว่า AI ดีกว่าแพทย์ในการตอบคำถามผู้ป่วยหรือไม่

มีการศึกษาเรื่อง "การเปรียบเทียบการตอบสนองของแพทย์และปัญญาประดิษฐ์ Chatbot กับคำถามของผู้ป่วยที่โพสต์ในฟอรัมโซเชียลมีเดียสาธารณะ" (Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum) เผยแพร่ทางออนไลน์เมื่อวันที่ 28 เมษายนใน JAMA Internal Medicine ให้คำตอบกับคำถามข้างต้นไว้แล้ว

เป็นการศึกษาเปรียบเทียบ การตอบคำถามทางการแพทย์ให้กับผู้ป่วย ระหว่างคำตอบที่ได้จากการใช้แชทบอท GPT-4 ของ Open AI เทียบกับ คำตอบจากแพทย์จริงๆ ผ่านฟอรัมโซเชียลมีเดีย

วิธีการศึกษา ดำเนินการโดย

- ใช้คำถามทางการแพทย์จากการสุ่มเลือก 195 คำถาม

- นำไป โพสต์ใน Reddit r/AskDocs ซึ่งเป็นฟอรัมโซเชียลมีเดียออนไลน์ที่ผู้ใช้สามารถโพสต์คำถามทางการแพทย์และให้ผู้เชี่ยวชาญด้านการดูแลสุขภาพที่ผ่านการตรวจสอบแล้วส่งคำตอบ

- ป้อนคำถามลงในแชทบอท GPT-4 จากนั้นให้กลุ่มผู้เชี่ยวชาญด้านการดูแลสุขภาพเปรียบเทียบคำตอบที่แชทบอทสร้างขึ้นกับคำตอบที่ให้ไว้ในฟอรัม r/AskDocs

ผู้ประเมิน (Evaluators) ถูกขอให้เลือกคำตอบที่พวกเขาคิดว่าดีกว่าโดยพิจารณาจากสองประเภท: "คุณภาพของข้อมูลที่ให้" และ "ความเห็นอกเห็นใจ (empathy ) หรือ การปลอบใจให้กำลังใจ (Bedside manner)"

สำหรับแบบแรก พวกเขาสามารถเลือกจากคำตอบที่มีคำว่า "แย่มาก (very poor)" "แย่ (poor)" "ยอมรับได้ (acceptable)" "ดี (good)" และ "ดีมาก (very good)"

คำตอบสำหรับข้อหลังคือ "ไม่เห็นอกเห็นใจ (not empathetic)" "เห็นอกเห็นใจเล็กน้อย (slightly empathetic)" "เห็นอกเห็นใจปานกลาง (moderately empathetic)" "เห็นอกเห็นใจ (empathetic)" และ "เห็นอกเห็นใจมาก (very empathetic)"

จากนั้นนักวิจัยจึงเรียงลำดับผลลัพธ์เฉลี่ยในระดับ 1 ถึง 5 และเปรียบเทียบแชทบอทกับแพทย์

แชทบอท AI ดีกว่าแพทย์ ในการตอบคำถามของผู้ป่วยหรือไม่? HealthServ

ผลลัพธ์การวิจัย

ผลการวิจัยพบว่าผู้ประเมินเลือกแชทบอทมากกว่าการตอบกลับของแพทย์ใน 78.6% ของการประเมินโดยรวม

เมื่อแยกตามประเภท คือด้านคุณภาพ และ ความเห็นอกเห็นใจ พบว่า

ประเภทคุณภาพ การตอบสนองของ "แชทบอท" ได้รับคะแนนเฉลี่ย 4.13 ซึ่งเป็นระดับระหว่าง "ดี" และ "ดีมาก" เทียบกับ การตอบสนองจาก "แพทย์" ที่ได้คะแนนเฉลี่ยที่ 3.26 ซึ่งอยู่ที่ระดับ "ยอมรับได้"

ประเภทความเห็นอกเห็นใจ การตอบสนองของ "แชทบอท" ได้รับคะแนนเฉลี่ย 3.65 หรือระดับ "เห็นอกเห็นใจ" ในขณะที่การตอบสนองจาก "แพทย์" ได้รับคะแนน 2.15 หรือ "มีความเห็นอกเห็นใจเล็กน้อย"

สัดส่วนของการตอบสนองของ "แชทบอท" ที่ได้รับการจัดอันดับ "เห็นอกเห็นใจ" หรือ "เห็นอกเห็นใจมาก" คือ 45% เทียบกับเพียง 4.6% สำหรับ "แพทย์"

ผู้เขียนกล่าวว่าผลการศึกษาควรเป็นตัวเร่งการวิจัยเกี่ยวกับการปรับใช้ AI เพื่อจุดประสงค์ในการส่งข้อความ ตัวอย่างเช่น การใช้เทคโนโลยีเพื่อร่างคำตอบสำหรับคำถามของผู้ป่วยที่แพทย์หรือเจ้าหน้าที่สามารถแก้ไขได้ เป็นต้น วิธีนี้จะช่วยประหยัดเวลาที่เจ้าหน้าที่แพทย์สามารถนำไปใช้กับงานที่ซับซ้อนมากขึ้นได้

การส่งข้อความด้วย AI อาจส่งผลดีต่อการใช้ทรัพยากรทางคลินิก "หากผู้ป่วยได้รับคำตอบเร็วขึ้น ด้วยความเห็นอกเห็นใจและมาตรฐานระดับสูง อาจลดการเข้ารับการตรวจทางคลินิกที่ไม่จำเป็น ทำให้มีทรัพยากรว่างสำหรับผู้ที่ต้องการจริงๆได้"

Medical Economics
Jeffrey Bendix

May 3, 2023