ChatGPT امتحان بورد رادیولوژی را قبول می کند


chatgpt

اعتبار: Unsplash/CC0 دامنه عمومی

بر اساس دو مطالعه تحقیقاتی جدید منتشر شده در، آخرین نسخه ChatGPT در آزمونی به سبک تخته رادیولوژی گذرانده شد و پتانسیل مدل‌های زبان بزرگ را برجسته کرد اما همچنین محدودیت‌هایی را آشکار کرد که مانع از قابلیت اطمینان می‌شوند. رادیولوژی.

ChatGPT یک چت ربات هوش مصنوعی (AI) است که از یک مدل یادگیری عمیق برای شناسایی الگوها و روابط بین کلمات در داده‌های آموزشی گسترده خود استفاده می‌کند تا پاسخ‌های شبیه به انسان را بر اساس یک اعلان ایجاد کند. اما از آنجایی که هیچ منبعی از حقیقت در داده‌های آموزشی آن وجود ندارد، این ابزار می‌تواند پاسخ‌هایی ایجاد کند که در واقع نادرست هستند.

راجش بایانا، MD، FRCPC، رادیولوژیست شکم و سرپرست فناوری در دانشگاه پزشکی تصویربرداری تورنتو، بیمارستان عمومی تورنتو در تورنتو، کانادا، می‌گوید: «استفاده از مدل‌های زبان بزرگ مانند ChatGPT در حال افزایش است و فقط افزایش خواهد یافت». “تحقیق ما بینشی در مورد عملکرد ChatGPT در زمینه رادیولوژی ارائه می دهد و پتانسیل باورنکردنی مدل های زبان بزرگ را به همراه محدودیت های فعلی که آن را غیرقابل اعتماد می کند، برجسته می کند.”

دکتر Bhayana خاطرنشان کرد که ChatGPT اخیراً به عنوان سریع ترین برنامه مصرف کننده در حال رشد در تاریخ نامگذاری شده است و چت ربات های مشابه در موتورهای جستجوی محبوبی مانند Google و Bing گنجانده شده اند که پزشکان و بیماران برای جستجوی اطلاعات پزشکی از آنها استفاده می کنند.

دکتر Bhayana و همکارانش برای ارزیابی عملکرد آن در مورد سوالات آزمون هیئت رادیولوژی و بررسی نقاط قوت و محدودیت‌ها، ابتدا ChatGPT را بر اساس GPT-3.5، که در حال حاضر رایج‌ترین نسخه استفاده می‌شود، آزمایش کردند. محققان از 150 سوال چند گزینه ای برای مطابقت با سبک، محتوا و دشواری آزمون های کالج سلطنتی کانادا و هیئت رادیولوژی آمریکا استفاده کردند.

سوالات شامل تصاویر نبودند و بر اساس نوع سوال گروه بندی شدند تا بینشی در مورد عملکرد بدست آورند: تفکر مرتبه پایین (یادآوری دانش، درک پایه) و مرتبه بالاتر (اعمال، تجزیه و تحلیل، ترکیب کردن). سوالات تفکر مرتبه بالاتر بر اساس نوع (توضیح یافته های تصویربرداری، مدیریت بالینی، محاسبه و طبقه بندی، ارتباط بیماری) زیر طبقه بندی شدند.

عملکرد ChatGPT به طور کلی و بر اساس نوع سوال و موضوع مورد ارزیابی قرار گرفت. اعتماد زبان در پاسخ ها نیز مورد ارزیابی قرار گرفت.

محققان دریافتند که ChatGPT بر اساس GPT-3.5 به 69 درصد سؤالات (104 از 150) به درستی پاسخ می دهد که نزدیک به نمره قبولی 70 درصدی است که توسط کالج سلطنتی در کانادا استفاده می شود. این مدل در مورد سؤالاتی که نیاز به تفکر مرتبه پایین تر داشتند (84٪، 51 از 61)، عملکرد نسبتاً خوبی داشت، اما با سؤالات مربوط به تفکر مرتبه بالاتر (60٪، 53 از 89) مبارزه کرد.

به طور خاص، با سؤالات مرتبه بالاتر شامل شرح یافته های تصویربرداری (61٪، 28 از 46)، محاسبه و طبقه بندی (25٪، 2 از 8)، و کاربرد مفاهیم (30٪، 3 از 10) مبارزه کرد. عملکرد ضعیف آن در سؤالات تفکر مرتبه بالاتر با توجه به فقدان پیش آموزش خاص رادیولوژی، تعجب آور نبود.

GPT-4 در مارس 2023 به شکل محدود برای کاربران پولی منتشر شد، به طور خاص ادعا می کند که قابلیت های استدلال پیشرفته را نسبت به GPT-3.5 بهبود بخشیده است.

در یک مطالعه بعدی، GPT-4 به 81% (121 از 150) سوالات مشابه به درستی پاسخ داد، عملکرد بهتری از GPT-3.5 داشت و از آستانه عبور از 70% فراتر رفت. GPT-4 در سؤالات تفکر مرتبه بالاتر (81٪)، به ویژه آنهایی که شامل توصیف یافته های تصویربرداری (85٪) و کاربرد مفاهیم (90٪) بودند، بسیار بهتر از GPT-3.5 عمل کرد.

یافته‌ها نشان می‌دهد که GPT-4 قابلیت‌های استدلال پیشرفته بهبود یافته به عملکرد بهبود یافته در زمینه رادیولوژی ترجمه می‌شود. آنها همچنین درک زمینه‌ای بهتر از اصطلاحات خاص رادیولوژی، از جمله توصیفات تصویربرداری را پیشنهاد می‌کنند، که برای فعال کردن برنامه‌های پایین دستی آینده بسیار مهم است.

دکتر Bhayana گفت: “مطالعه ما بهبود قابل توجهی را در عملکرد ChatGPT در رادیولوژی در یک دوره زمانی کوتاه نشان می دهد، که پتانسیل رو به رشد مدل های زبانی بزرگ را در این زمینه برجسته می کند.”

GPT-4 هیچ بهبودی در سؤالات تفکر مرتبه پایین نشان نداد (80٪ در مقابل 84٪) و به 12 سؤال اشتباه پاسخ داد که GPT-3.5 به درستی پاسخ داد، و سؤالات مربوط به قابلیت اطمینان آن برای جمع آوری اطلاعات را ایجاد کرد.

دکتر Bhayana گفت: “ما در ابتدا از پاسخ های دقیق و مطمئن ChatGPT به برخی از سوالات چالش برانگیز رادیولوژی شگفت زده شدیم، اما سپس به همان اندازه از اظهارات بسیار غیرمنطقی و نادرست شگفت زده شدیم.” البته، با توجه به نحوه عملکرد این مدل‌ها، پاسخ‌های نادقیق نباید تعجب‌آور باشد.»

تمایل خطرناک ChatGPT برای ایجاد پاسخ‌های نادرست، که توهم نامیده می‌شود، در GPT-4 کمتر دیده می‌شود، اما در حال حاضر هنوز قابلیت استفاده در آموزش و تمرین پزشکی را محدود می‌کند.

هر دو مطالعه نشان دادند که ChatGPT به طور مداوم از زبان مطمئن استفاده می‌کرد، حتی اگر نادرست باشد. دکتر بایانا خاطرنشان می کند که این به ویژه برای افراد تازه کار که ممکن است پاسخ های نادرست مطمئن را نادرست تشخیص ندهند، اگر صرفاً برای اطلاعات به آن تکیه شود خطرناک است.

دکتر “به نظر من، این بزرگترین محدودیت آن است. در حال حاضر، ChatGPT بهترین استفاده را برای جرقه زدن ایده ها، کمک به شروع فرآیند نوشتن پزشکی و خلاصه سازی داده ها دارد. اگر برای یادآوری سریع اطلاعات استفاده شود، همیشه نیاز به بررسی واقعیت دارد.” بهیانا گفت.

اطلاعات بیشتر:
راجش بایانا و همکاران، عملکرد ChatGPT در یک آزمایش به سبک هیئت رادیولوژی: بینش در مورد نقاط قوت و محدودیت‌های فعلی، رادیولوژی (2023). DOI: 10.1148/radiol.230582

ارائه شده توسط انجمن رادیولوژی آمریکای شمالی

نقل قول: ChatGPT با موفقیت در آزمون هیئت رادیولوژی (2023، 16 مه) بازیابی شده در 16 مه 2023 از https://medicalxpress.com/news/2023-05-chatgpt-radiology-board-exam.html

این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.