[ad_1]
در زمان افزایش علاقه به نقش بالقوه فناوری هوش مصنوعی (AI) در پزشکی و مراقبت های بهداشتی، مطالعه جدیدی در تمرین اورولوژی دریافت که چت ربات پیشگامانه ChatGPT در یک ابزار اصلی خود ارزیابی تخصصی عملکرد ضعیفی دارد.
ChatGPT کمتر از 30 درصد از پاسخهای صحیح را در برنامه مطالعاتی خودارزیابی اورولوژی (SASP) در AUA به دست آورد. Christopher M. Deibert، MD، MPH، و همکاران از دانشگاه میگویند: «ChatGPT نه تنها نرخ پایینی از پاسخهای صحیح در مورد سؤالات بالینی در عمل اورولوژی دارد، بلکه انواع خاصی از خطاها را ایجاد میکند که خطر انتشار اطلاعات نادرست پزشکی را به همراه دارد». مرکز پزشکی نبراسکا
آیا چت بات آموزش دیده با هوش مصنوعی می تواند آزمون دانش اورولوژی بالینی را پشت سر بگذارد؟
پیشرفتهای اخیر در مدلهای زبان بزرگ (LLM) فرصتهایی را برای تطبیق فناوری هوش مصنوعی بهعنوان ابزاری برای میانجیگری تعامل انسانی فراهم میکند. نویسندگان خاطرنشان میکنند: «با آموزش و کاربرد کافی، این سیستمهای هوش مصنوعی میتوانند اطلاعات پیچیده را پردازش کنند، روابط بین ایدهها را تجزیه و تحلیل کنند و پاسخهای منسجمی به یک پرسش ایجاد کنند».
ChatGPT (Chat Generative Pre-trained Transformer) یک ربات چت نوآورانه LLM است که علاقه به استفاده در طیف وسیعی از تنظیمات از جمله بهداشت و پزشکی را برانگیخته است. در یک مطالعه اخیر، ChatGPT در هر سه مرحله از آزمون مجوز پزشکی ایالات متحده (USMLE)، بدون هیچ آموزش یا بازخورد خاصی در مورد موضوعات پزشکی، در سطوح یا نزدیک به گذراندن امتیاز کسب کرد. آیا این ابزار نوآورانه آموزشدیده با هوش مصنوعی میتواند در یک آزمون پیشرفتهتر دانش بالینی در یک تخصص جراحی عملکرد مشابهی داشته باشد؟
برای یافتن این موضوع، دکتر دیبرت و همکارانش عملکرد ChatGPT را در برنامه مطالعاتی خودارزیابی AUA (SASP) ارزیابی کردند – یک امتحان تمرینی 150 سوالی که به برنامه درسی اصلی دانش پزشکی در اورولوژی می پردازد. SASP یک آزمون ارزشمند از دانش بالینی برای متخصصان اورولوژی در آموزش و تمرین متخصصانی است که برای صدور گواهینامه هیئت مدیره آماده می شوند. این مطالعه 15 سوال حاوی اطلاعات بصری مانند تصاویر یا نمودارها را حذف کرد.
ChatGPT در SASP با توضیحات “زائد و چرخه ای” امتیاز پایینی دارد
به طور کلی، ChatGPT به کمتر از 30 درصد از سؤالات SASP پاسخ صحیح داد: 28.2 درصد از سؤالات چند گزینه ای و 26.7 درصد از سؤالات باز. چت بات پاسخ های “نامشخص” به چندین سوال ارائه کرد. در مورد این سوالات، زمانی که از مدل LLM خواسته شد تا پاسخهای خود را بازسازی کند، دقت کاهش یافت.
برای اکثر سوالات باز، ChatGPT توضیحی برای پاسخ انتخاب شده ارائه کرد. به گفته نویسندگان، توضیحات ارائه شده توسط ChatGPT طولانی تر از توضیحات ارائه شده توسط SASP بود، اما به گفته نویسندگان “معمولا ماهیت اضافی و دوره ای دارد.”
دکتر دیبرت و همکارانش می نویسند: «به طور کلی، ChatGPT اغلب توجیهات مبهمی با اظهارات گسترده ارائه می کرد و به ندرت در مورد جزئیات اظهارنظر می کرد. حتی زمانی که بازخورد داده شد، “ChatGPT به طور مداوم توضیحات اصلی را با وجود نادرست بودن آن تکرار می کرد.”
دقت ضعیف ChatGPT در SASP با عملکرد آن در USMLE و سایر آزمونهای سطح فارغالتحصیل در تضاد است. نویسندگان پیشنهاد میکنند که در حالی که ChatGPT ممکن است در آزمایشهایی که نیاز به یادآوری حقایق دارند، خوب عمل کند، به نظر میرسد در مورد سؤالهای مربوط به پزشکی بالینی که نیاز به «سنجیدن همزمان حقایق، موقعیتها و پیامدهای چندگانه دارند» کوتاهی میکند.
دکتر دیبرت و همکارانش نتیجه میگیرند: «با توجه به اینکه LLMها توسط آموزش انسانی محدود شدهاند، تحقیقات بیشتری برای درک محدودیتها و قابلیتهای آنها در رشتههای مختلف قبل از اینکه برای استفاده عمومی در دسترس قرار گیرد، مورد نیاز است». همانطور که هست، استفاده از ChatGPT در اورولوژی احتمال زیادی برای تسهیل اطلاعات نادرست پزشکی برای کاربر آموزش ندیده دارد.
اطلاعات بیشتر:
لیندا مای هوین و همکاران، ChatGPT جدید هوش مصنوعی در برنامه مطالعاتی خودارزیابی 2022 برای اورولوژی ضعیف عمل میکند، تمرین اورولوژی (2023). DOI: 10.1097/UPJ.0000000000000406
ارائه شده توسط Wolters Kluwer Health
نقل قول: تست خودارزیابی flunks ChatGPT برای متخصصان اورولوژی (2023، 6 ژوئن) در 6 ژوئن 2023 از https://medicalxpress.com/news/2023-06-chatgpt-flunks-self-assessment-urologists.html بازیابی شده است.
این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.
[ad_2]