هوش مصنوعی واقعاً میتواند جایگزین پزشکان شود؟ یافتههای تازه چیز دیگری میگویند
هوش مصنوعی واقعاً میتواند جایگزین پزشکان شود؟ یافتههای تازه چیز دیگری میگویند
ماه گذشته، جد تاریفی، از پیشگامان هوش مصنوعی گوگل، با اظهارنظری جنجالی خبرساز شد. او در گفتوگو با بیزنس اینسایدر اعلام کرد که تحصیل در رشته پزشکی دیگر منطقی نیست، زیرا به باور وی، زمانی که دانشجویان امروز به مرحله طبابت برسند، هوش مصنوعی آموزش پزشکی را بیارزش کرده است.
سالهاست که شرکتهای فناوری، هوش مصنوعی را بهعنوان ابزاری معرفی میکنند که میتواند با تحلیل تصاویر پزشکی برای تشخیص تومور یا انجام امور اداری، به پزشکان کمک کند و فشار مسئولیتهایشان را کاهش دهد. بسیاری از بیمارستانها نیز همین حالا از این فناوری بهره میبرند.
بااینحال، محدودیتهای فعلی هوش مصنوعی، از جمله تولید اطلاعات نادرست یا همان «توهمزایی» و افت مهارت پزشکانی که بیشازحد به آن متکی میشوند، باعث شده کارشناسان تأکید کنند که دانشجویان پزشکی باید مسیر تحصیلی خود را ادامه دهند.
بیشتر بخوانید
بهگزارش فیوچریزم، نتایج پژوهشی جدید برخلاف دیدگاه تاریفی، نشان میدهد که نیاز به پزشکان انسانی نهتنها کاهش نیافته، بلکه بیشازپیش ضروری است. پژوهشگران دریافتهاند که مدلهای پیشرفته هوش مصنوعی با کوچکترین تغییر در قالب آشنای آزمونهای پزشکی دچار افت شدید عملکرد میشوند. این ضعف، توانایی آنها در کمک به بیماران در شرایط واقعی را زیر سؤال میبرد و خطر ارائهی توصیههای اشتباه در موقعیتهای بالینی حساس را نیز افزایش میدهد.
براساس یافتههای مطالعه، مدلهایی مانند GPT-4o اوپنایآی و Claude 3.5 Sonnet آنتروپیک تنها با تغییر اندک در صورتسؤالهای یک آزمون مرجع، دچار مشکل شدند. دلیل اصلی این ضعف در ماهیت عملکرد آنهاست: مدلهای زبانی بزرگ پاسخها را با پیشبینی واژههای بعدی تولید میکنند و فاقد درک انسانی از مفاهیم پزشکی هستند.
سوهانا بدی، دانشجوی دکتری دانشگاه استنفورد و نویسنده همکار پژوهش، توضیح داد که مدلهای هوش مصنوعی در آزمونهای چندگزینهای استاندارد پزشکی نمرات نزدیک به عالی کسب میکنند، اما این نتایج، واقعیت بالینی را منعکس نمیکند. کمتر از پنج درصد پژوهشها عملکرد این مدلها را روی دادههای واقعی بیماران بررسی میکنند، در حالی که دادههای بیماران پراکنده و پیچیده است.
مدلهای زبانی بزرگ فاقد درک انسانی از مفاهیم پزشکی هستند
نتایج بهدستآمده چندان امیدوارکننده نبود. بهگفتهی بدی، بیشتر مدلها حتی در وظایف سادهتری مانند پشتیبانی تصمیمگیریهای بالینی و اداری دچار مشکل شدند. پژوهشگران توضیح دادند که سناریوهای استدلال پیچیده در آزمون باعث شد مدلها سردرگم شوند؛ زیرا نمیتوان این مسائل را فقط از طریق تطبیق الگو حل کرد؛ درحالیکه همین نوع استدلالها است که در عمل واقعی اهمیت حیاتی دارد.
برای بررسی دقیقتر، تیم پژوهشی تغییری کوچک در آزمون اعمال کرد. آنها گزینهی درست پرسشهای چندگزینهای را با «هیچکدام از پاسخهای دیگر درست نیست» جایگزین کردند. این تغییر مدلها را مجبور میکرد به جای تشخیص الگوهای زبانی، واقعاً استدلال کنند. اما نتایج نشان داد عملکرد آنها بهشدت افت کرده است: دقت GPT-4o حدود ۲۵ درصد کاهش یافت و مدل Llama متا نزدیک به ۴۰ درصد افت داشت.
براساس یافتهها، مدلهای فعلی هوش مصنوعی به دلیل وابستگی بیشازحد به تشخیص الگوهای زبانی، برای استفاده واقعی در پزشکی مناسب نیستند. پژوهشگران میگویند هوش مصنوعی مانند دانشجوییست که در آزمونهای تمرینی عالی عمل میکند، اما وقتی سؤالها کمی تغییر کنند، شکست میخورد. فعلاً هوش مصنوعی باید در خدمت پزشکان باشد، نه جایگزین آنها.
پژوهش اخیر اهمیت طراحی روشهای نوین برای ارزیابی توانایی مدلهای هوش مصنوعی را آشکار میکند. این امر بهویژه در محیطهای حساس و پرخطر مانند بیمارستانها اهمیت دارد. پژوهشگران در مقاله خود نوشتند: «تا زمانی که سیستمها توانایی خود را در سناریوهای جدید حفظ نکنند، کاربردهای بالینی آنها باید صرفاً محدود به نقشهای حمایتی و تحت نظارت انسانی باشد.»
مطالعه در نشریه JAMA Network Open منتشر شده است.
منبع : زومیت