BitcoinWorld
دقت تشخیص هوش مصنوعی در مطالعه پیشگامانه هاروارد از پزشکان اورژانس پیشی گرفت
یک مطالعه پیشگامانه هاروارد نشان میدهد که هوش مصنوعی در برخی سناریوهای بالینی تشخیصهای دقیقتری نسبت به پزشکان اورژانس ارائه میدهد و این امر نقطه عطف مهمی در هوش مصنوعی پزشکی به شمار میرود. این تحقیق که در مجله Science منتشر شده، نشان میدهد مدلهای زبانی بزرگ OpenAI میتوانند در تشخیص بیماران در موارد واقعی اورژانس از پزشکان انسانی پیشی بگیرند.
محققان دانشکده پزشکی هاروارد و مرکز پزشکی Beth Israel Deaconess یک سری آزمایشها انجام دادند تا ارزیابی کنند مدلهای OpenAI در مقایسه با پزشکان انسانی چه عملکردی دارند. این مطالعه بر روی ۷۶ بیمار که به اورژانس Beth Israel مراجعه کرده بودند تمرکز داشت. دو پزشک متخصص تشخیصهایی ارائه دادند، در حالی که مدلهای o1 و 4o متعلق به OpenAI نیز تشخیصهای خود را تولید کردند. سپس دو پزشک متخصص دیگر تمام تشخیصها را بدون اطلاع از اینکه کدامیک از انسان و کدامیک از هوش مصنوعی صادر شده، ارزیابی کردند.
نتایج چشمگیر بود. در هر نقطه تشخیصی، مدل o1 یا اندکی بهتر از دو پزشک متخصص عمل کرد یا با آنها برابری نمود. مدل 4o نیز عملکرد قوی نشان داد. تفاوتها در مرحله تریاژ اولیه اورژانس بیشترین میزان بود، جایی که اطلاعات اندک و فوریت بالاست.
در موارد تریاژ، مدل o1 در ۶۷٪ مواقع تشخیص دقیق یا بسیار نزدیک به دقیق ارائه داد. یکی از پزشکان این امر را در ۵۵٪ مواقع و دیگری در ۵۰٪ مواقع محقق کرد. این نتایج نشاندهنده بهبود ۱۲ تا ۱۷ درصدی در دقت تشخیص است.
تیم تحقیقاتی تأکید کرد که دادهها را پیشپردازش نکردهاند. مدلهای هوش مصنوعی همان اطلاعاتی را دریافت کردند که در زمان هر تشخیص در پروندههای پزشکی الکترونیکی موجود بود. این رویکرد مقایسهای منصفانه بین استدلال انسانی و ماشینی را تضمین کرد.
آرجون مانرای، که آزمایشگاه هوش مصنوعی دانشکده پزشکی هاروارد را رهبری میکند و یکی از نویسندگان اصلی مطالعه است، در یک بیانیه مطبوعاتی اعلام کرد: «ما مدل هوش مصنوعی را در برابر تقریباً تمام معیارها آزمودیم و این مدل هم مدلهای قبلی و هم سطح پایه پزشکان ما را پشت سر گذاشت.»
مدلهای زبانی بزرگ مانند o1 و 4o متعلق به OpenAI تواناییهای قابل توجهی در پردازش اطلاعات پزشکی مبتنی بر متن نشان دادهاند. با این حال، مطالعه ادعا نمیکند که هوش مصنوعی آماده اتخاذ تصمیمات مرگ و زندگی در اورژانس است. در عوض، نیاز فوری به کارآزماییهای آیندهنگر برای ارزیابی این فناوریها در محیطهای واقعی مراقبت از بیمار را برجسته کرد.
محققان همچنین به محدودیتهایی اشاره کردند. آنها تنها نحوه عملکرد مدلها با اطلاعات مبتنی بر متن را بررسی کردند. مطالعات موجود نشان میدهند مدلهای پایه فعلی در استدلال بر روی ورودیهای غیرمتنی، مانند تصاویر پزشکی یا علائم حیاتی بیمار، محدودیت بیشتری دارند.
آدام رودمن، پزشک Beth Israel و نویسنده مشترک اصلی، به Guardian گفت که هیچ چارچوب رسمی برای پاسخگویی در مورد تشخیصهای هوش مصنوعی وجود ندارد. او تأکید کرد که بیماران همچنان میخواهند انسانها آنها را در تصمیمات مرگ و زندگی و انتخابهای چالشبرانگیز درمانی راهنمایی کنند.
طب اورژانس نیازمند تصمیمات سریع و دقیق با اطلاعات محدود است. این مطالعه نشان میدهد هوش مصنوعی میتواند به عنوان ابزاری قدرتمند برای پشتیبانی از تصمیمگیری پزشکان اورژانس عمل کند. با ارائه پیشنهادات تشخیصی دقیق، هوش مصنوعی میتواند به کاهش خطاهای تشخیصی و بهبود نتایج بیماران کمک کند.
با این حال، ادغام هوش مصنوعی در گردشهای کاری بالینی چالشهایی به همراه دارد. پزشکان باید به این فناوری اعتماد کنند، محدودیتهای آن را درک کنند و مسئولیت نهایی مراقبت از بیمار را حفظ نمایند. این مطالعه خواستار ارزیابی دقیق پیش از پذیرش گسترده است.
این مطالعه دو مدل OpenAI را مقایسه کرد: o1 و 4o. مدل o1 در تمام نقاط تشخیصی به طور مداوم از 4o پیشی گرفت. این امر نشان میدهد مدلهای جدیدتر و پیشرفتهتر ممکن است دقت بیشتری در کاربردهای پزشکی ارائه دهند.
جدول: دقت تشخیصی در تریاژ اولیه
| منبع تشخیص | نرخ دقت |
|---|---|
| مدل OpenAI o1 | ۶۷٪ |
| پزشک ۱ | ۵۵٪ |
| پزشک ۲ | ۵۰٪ |
| مدل OpenAI 4o | قابل مقایسه با پزشکان |
این نتایج پیشرفت سریع هوش مصنوعی در مراقبتهای بهداشتی را برجسته میکند. با این حال، نویسندگان مطالعه نسبت به تفسیر بیش از حد یافتهها هشدار میدهند. حجم نمونه کوچک بود و زمینه بالینی محدود بود.
متخصصان پزشکی هم با اشتیاق و هم با احتیاط واکنش نشان دادند. برخی هوش مصنوعی را ابزاری تحولآفرین میبینند که میتواند دسترسی به تشخیص در سطح متخصص را دموکراتیک کند. برخی دیگر نگران اتکای بیش از حد به فناوری و کمرنگ شدن قضاوت بالینی هستند.
مطالعه هاروارد به مجموعه رو به رشدی از شواهد حمایت از پتانسیل هوش مصنوعی در مراقبتهای بهداشتی میافزاید. مطالعات قبلی نشان دادهاند هوش مصنوعی در رادیولوژی، پاتولوژی و درماتولوژی عملکرد خوبی دارد. این مطالعه شواهد را به طب اورژانس، یک محیط پرخطر، گسترش میدهد.
دکتر مانرای تأکید کرد که مدل هوش مصنوعی در برابر تقریباً تمام معیارها آزمایش شد و از مدلهای قبلی پیشی گرفت. این نشان میدهد هوش مصنوعی نه تنها با عملکرد انسانی برابری میکند، بلکه در زمینههای خاص از آن فراتر میرود.
این مطالعه سؤالات اخلاقی مهمی را مطرح میکند. وقتی تشخیص هوش مصنوعی اشتباه است، چه کسی مسئول است؟ چگونه باید هوش مصنوعی در تصمیمگیری بالینی ادغام شود بدون اینکه اعتماد بیمار را تضعیف کند؟ این سؤالات نیازمند بررسی دقیق از سوی تنظیمکنندگان، ارائهدهندگان مراقبتهای بهداشتی و توسعهدهندگان فناوری هستند.
در حال حاضر، هیچ چارچوب رسمی برای پاسخگویی در مورد تشخیصهای هوش مصنوعی وجود ندارد. رودمن خاطرنشان کرد که بیماران همچنان راهنمایی انسانی را برای تصمیمات مرگ و زندگی میخواهند. این نشان میدهد هوش مصنوعی باید تخصص انسانی را تقویت کند، نه جایگزین آن شود.
نویسندگان مطالعه خواستار کارآزماییهای آیندهنگر برای ارزیابی هوش مصنوعی در محیطهای واقعی مراقبت از بیمار هستند. چنین کارآزماییهایی شواهد قویتری درباره اثربخشی، ایمنی و تأثیر هوش مصنوعی بر نتایج بیماران ارائه خواهند داد.
کارآزماییهای آیندهنگر همچنین به شناسایی مشکلات احتمالی، مانند سوگیری الگوریتمی یا اتکای بیش از حد به هوش مصنوعی کمک خواهند کرد. آنها دادههایی درباره عملکرد هوش مصنوعی در جمعیتهای متنوع بیماران و سناریوهای بالینی مختلف ارائه خواهند داد.
محققان قصد دارند کار خود را ادامه دهند و مطالعه را با بیماران و مراکز بالینی بیشتری گسترش دهند. آنها همچنین قصد دارند مدلهای هوش مصنوعی را بر روی ورودیهای غیرمتنی، مانند تصاویر پزشکی و نتایج آزمایشگاهی آزمایش کنند.
برای بیماران، این مطالعه امید به تشخیصهای دقیقتر و بهموقعتر را به ارمغان میآورد. برای پزشکان، فرصتی برای استفاده از هوش مصنوعی به عنوان ابزار پشتیبانی تصمیمگیری فراهم میکند. با این حال، هر دو گروه باید با انتظارات واقعبینانه به هوش مصنوعی نزدیک شوند.
هوش مصنوعی جایگزین قضاوت انسانی نیست. ابزاری است که میتواند دقت تشخیصی را ارتقا دهد، بهویژه در موقعیتهای پرفشار مانند اورژانس. کلید اصلی ادغام مسئولانه هوش مصنوعی است تا مکمل تخصص بالینی باشد نه اینکه آن را تضعیف کند.
مطالعه هاروارد شواهد قانعکنندهای ارائه میدهد که نشان میدهد هوش مصنوعی در زمینههای خاص تشخیصهای دقیقتری نسبت به پزشکان اورژانس ارائه میدهد. مدل o1 متعلق به OpenAI از پزشکان انسانی در دقت تریاژ پیشی گرفت و پتانسیل مدلهای زبانی بزرگ در مراقبتهای بهداشتی را نشان داد. با این حال، مطالعه همچنین نیاز به ارزیابی دقیق، چارچوبهای اخلاقی و کارآزماییهای آیندهنگر را پیش از پذیرش گسترده هوش مصنوعی در محیطهای بالینی برجسته میکند. با ادامه تکامل هوش مصنوعی، نقش آن در پزشکی احتمالاً گسترش خواهد یافت، اما نظارت انسانی برای ایمنی و اعتماد بیماران ضروری باقی میماند.
س۱: مطالعه هاروارد چگونه هوش مصنوعی و پزشکان انسانی را مقایسه کرد؟
ج۱: محققان تشخیصهای مدلهای o1 و 4o متعلق به OpenAI را با تشخیصهای دو پزشک متخصص در ۷۶ مورد اورژانس مقایسه کردند. دو پزشک دیگر تشخیصها را بدون اطلاع از منبع ارزیابی کردند.
س۲: نرخ دقت مدل هوش مصنوعی در مطالعه چقدر بود؟
ج۲: مدل o1 در ۶۷٪ مواقع در موارد تریاژ تشخیص دقیق یا بسیار نزدیک ارائه داد، در مقایسه با ۵۵٪ و ۵۰٪ برای دو پزشک انسانی.
س۳: آیا هوش مصنوعی آماده جایگزینی پزشکان اورژانس است؟
ج۳: خیر. مطالعه ادعا نمیکند هوش مصنوعی آماده تصمیمات بالینی در دنیای واقعی است. خواستار کارآزماییهای آیندهنگر است و بر نیاز به نظارت و پاسخگویی انسانی تأکید میکند.
س۴: محدودیتهای هوش مصنوعی در تشخیص پزشکی چیست؟
ج۴: مدلهای هوش مصنوعی فعلی به اطلاعات مبتنی بر متن محدود هستند و ممکن است با ورودیهای غیرمتنی مانند تصاویر پزشکی یا علائم حیاتی بیمار عملکرد یکسانی نداشته باشند. مطالعه همچنین به فقدان چارچوبهای رسمی پاسخگویی اشاره دارد.
س۵: این یافتهها چه معنایی برای آینده مراقبتهای بهداشتی دارد؟
ج۵: هوش مصنوعی پتانسیل بهبود دقت تشخیصی و پشتیبانی از تصمیمگیری بالینی را دارد. با این حال، ادغام دقیق، دستورالعملهای اخلاقی و تحقیقات بیشتر پیش از پذیرش گسترده لازم است.
این مطلب با عنوان دقت تشخیص هوش مصنوعی در مطالعه پیشگامانه هاروارد از پزشکان اورژانس پیشی گرفت، برای اولین بار در BitcoinWorld منتشر شد.


