اعتبار: Unsplash/CC0 دامنه عمومی
بر اساس دو مطالعه تحقیقاتی جدید منتشر شده در، آخرین نسخه ChatGPT در آزمونی به سبک تخته رادیولوژی گذرانده شد و پتانسیل مدلهای زبان بزرگ را برجسته کرد اما همچنین محدودیتهایی را آشکار کرد که مانع از قابلیت اطمینان میشوند. رادیولوژی.
ChatGPT یک چت ربات هوش مصنوعی (AI) است که از یک مدل یادگیری عمیق برای شناسایی الگوها و روابط بین کلمات در دادههای آموزشی گسترده خود استفاده میکند تا پاسخهای شبیه به انسان را بر اساس یک اعلان ایجاد کند. اما از آنجایی که هیچ منبعی از حقیقت در دادههای آموزشی آن وجود ندارد، این ابزار میتواند پاسخهایی ایجاد کند که در واقع نادرست هستند.
راجش بایانا، MD، FRCPC، رادیولوژیست شکم و سرپرست فناوری در دانشگاه پزشکی تصویربرداری تورنتو، بیمارستان عمومی تورنتو در تورنتو، کانادا، میگوید: «استفاده از مدلهای زبان بزرگ مانند ChatGPT در حال افزایش است و فقط افزایش خواهد یافت». “تحقیق ما بینشی در مورد عملکرد ChatGPT در زمینه رادیولوژی ارائه می دهد و پتانسیل باورنکردنی مدل های زبان بزرگ را به همراه محدودیت های فعلی که آن را غیرقابل اعتماد می کند، برجسته می کند.”
دکتر Bhayana خاطرنشان کرد که ChatGPT اخیراً به عنوان سریع ترین برنامه مصرف کننده در حال رشد در تاریخ نامگذاری شده است و چت ربات های مشابه در موتورهای جستجوی محبوبی مانند Google و Bing گنجانده شده اند که پزشکان و بیماران برای جستجوی اطلاعات پزشکی از آنها استفاده می کنند.
دکتر Bhayana و همکارانش برای ارزیابی عملکرد آن در مورد سوالات آزمون هیئت رادیولوژی و بررسی نقاط قوت و محدودیتها، ابتدا ChatGPT را بر اساس GPT-3.5، که در حال حاضر رایجترین نسخه استفاده میشود، آزمایش کردند. محققان از 150 سوال چند گزینه ای برای مطابقت با سبک، محتوا و دشواری آزمون های کالج سلطنتی کانادا و هیئت رادیولوژی آمریکا استفاده کردند.
سوالات شامل تصاویر نبودند و بر اساس نوع سوال گروه بندی شدند تا بینشی در مورد عملکرد بدست آورند: تفکر مرتبه پایین (یادآوری دانش، درک پایه) و مرتبه بالاتر (اعمال، تجزیه و تحلیل، ترکیب کردن). سوالات تفکر مرتبه بالاتر بر اساس نوع (توضیح یافته های تصویربرداری، مدیریت بالینی، محاسبه و طبقه بندی، ارتباط بیماری) زیر طبقه بندی شدند.
عملکرد ChatGPT به طور کلی و بر اساس نوع سوال و موضوع مورد ارزیابی قرار گرفت. اعتماد زبان در پاسخ ها نیز مورد ارزیابی قرار گرفت.
محققان دریافتند که ChatGPT بر اساس GPT-3.5 به 69 درصد سؤالات (104 از 150) به درستی پاسخ می دهد که نزدیک به نمره قبولی 70 درصدی است که توسط کالج سلطنتی در کانادا استفاده می شود. این مدل در مورد سؤالاتی که نیاز به تفکر مرتبه پایین تر داشتند (84٪، 51 از 61)، عملکرد نسبتاً خوبی داشت، اما با سؤالات مربوط به تفکر مرتبه بالاتر (60٪، 53 از 89) مبارزه کرد.
به طور خاص، با سؤالات مرتبه بالاتر شامل شرح یافته های تصویربرداری (61٪، 28 از 46)، محاسبه و طبقه بندی (25٪، 2 از 8)، و کاربرد مفاهیم (30٪، 3 از 10) مبارزه کرد. عملکرد ضعیف آن در سؤالات تفکر مرتبه بالاتر با توجه به فقدان پیش آموزش خاص رادیولوژی، تعجب آور نبود.
GPT-4 در مارس 2023 به شکل محدود برای کاربران پولی منتشر شد، به طور خاص ادعا می کند که قابلیت های استدلال پیشرفته را نسبت به GPT-3.5 بهبود بخشیده است.
در یک مطالعه بعدی، GPT-4 به 81% (121 از 150) سوالات مشابه به درستی پاسخ داد، عملکرد بهتری از GPT-3.5 داشت و از آستانه عبور از 70% فراتر رفت. GPT-4 در سؤالات تفکر مرتبه بالاتر (81٪)، به ویژه آنهایی که شامل توصیف یافته های تصویربرداری (85٪) و کاربرد مفاهیم (90٪) بودند، بسیار بهتر از GPT-3.5 عمل کرد.
یافتهها نشان میدهد که GPT-4 قابلیتهای استدلال پیشرفته بهبود یافته به عملکرد بهبود یافته در زمینه رادیولوژی ترجمه میشود. آنها همچنین درک زمینهای بهتر از اصطلاحات خاص رادیولوژی، از جمله توصیفات تصویربرداری را پیشنهاد میکنند، که برای فعال کردن برنامههای پایین دستی آینده بسیار مهم است.
دکتر Bhayana گفت: “مطالعه ما بهبود قابل توجهی را در عملکرد ChatGPT در رادیولوژی در یک دوره زمانی کوتاه نشان می دهد، که پتانسیل رو به رشد مدل های زبانی بزرگ را در این زمینه برجسته می کند.”
GPT-4 هیچ بهبودی در سؤالات تفکر مرتبه پایین نشان نداد (80٪ در مقابل 84٪) و به 12 سؤال اشتباه پاسخ داد که GPT-3.5 به درستی پاسخ داد، و سؤالات مربوط به قابلیت اطمینان آن برای جمع آوری اطلاعات را ایجاد کرد.
دکتر Bhayana گفت: “ما در ابتدا از پاسخ های دقیق و مطمئن ChatGPT به برخی از سوالات چالش برانگیز رادیولوژی شگفت زده شدیم، اما سپس به همان اندازه از اظهارات بسیار غیرمنطقی و نادرست شگفت زده شدیم.” البته، با توجه به نحوه عملکرد این مدلها، پاسخهای نادقیق نباید تعجبآور باشد.»
تمایل خطرناک ChatGPT برای ایجاد پاسخهای نادرست، که توهم نامیده میشود، در GPT-4 کمتر دیده میشود، اما در حال حاضر هنوز قابلیت استفاده در آموزش و تمرین پزشکی را محدود میکند.
هر دو مطالعه نشان دادند که ChatGPT به طور مداوم از زبان مطمئن استفاده میکرد، حتی اگر نادرست باشد. دکتر بایانا خاطرنشان می کند که این به ویژه برای افراد تازه کار که ممکن است پاسخ های نادرست مطمئن را نادرست تشخیص ندهند، اگر صرفاً برای اطلاعات به آن تکیه شود خطرناک است.
دکتر “به نظر من، این بزرگترین محدودیت آن است. در حال حاضر، ChatGPT بهترین استفاده را برای جرقه زدن ایده ها، کمک به شروع فرآیند نوشتن پزشکی و خلاصه سازی داده ها دارد. اگر برای یادآوری سریع اطلاعات استفاده شود، همیشه نیاز به بررسی واقعیت دارد.” بهیانا گفت.
اطلاعات بیشتر:
راجش بایانا و همکاران، عملکرد ChatGPT در یک آزمایش به سبک هیئت رادیولوژی: بینش در مورد نقاط قوت و محدودیتهای فعلی، رادیولوژی (2023). DOI: 10.1148/radiol.230582
ارائه شده توسط انجمن رادیولوژی آمریکای شمالی
نقل قول: ChatGPT با موفقیت در آزمون هیئت رادیولوژی (2023، 16 مه) بازیابی شده در 16 مه 2023 از https://medicalxpress.com/news/2023-05-chatgpt-radiology-board-exam.html
این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.