چالشهای ابزار یادداشتبرداری بیمارستانی مبتنی بر هوش مصنوعی OpenAI

چند ماه پیش، پزشک من یک ابزار هوش مصنوعی را به من نشان داد که از آن برای ضبط و خلاصهسازی ویزیتهای بیماران استفاده میکرد. در مورد من، خلاصهسازی و یادداشتبرداری بهخوبی انجام شد؛ اما بر اساس تحقیقاتی که پژوهشگران دانشگاه کرنل (Cornell University) و دانشگاه واشنگتن (University of Washington) انجام دادهاند، این ابزار همیشه نمیتواند یادداشتبرداریهای دقیقی ارائه دهد و گاهی اطلاعات ساختگی و نادرستی تولید میکند. این ابزار، که با نام ویسپر (Whisper) شناخته میشود و توسط شرکت OpenAI توسعه داده شده، توسط شرکت نابلا (Nabla) بهکار گرفته شده و در بسیاری از بیمارستانها برای یادداشتبرداری از مکالمات پزشکی استفاده میشود. برآورد شده که این ابزار تاکنون حدود ۷ میلیون مکالمه پزشکی را مستندسازی کتبی کرده است.
نابلا، بهعنوان شرکت توسعهدهنده این ابزار، از مشکل «هالوسیناسیون» (توهم) یا تولید اطلاعات ساختگی در ویسپر آگاه است و در تلاش است این چالش را حل کند. هالوسیناسیون یا تولید اطلاعات نادرست یکی از چالشهای شناختهشده در سیستمهای هوش مصنوعی مانند GPT-4 و ویسپر است که میتواند باعث اضافه شدن جملاتی شود که هرگز بیان نشدهاند و به ایجاد سوگیری و نادرستی در یادداشتبرداریهای پزشکی منجر شود. این نوع مشکلات بهویژه در زمینههای حساس مانند بهداشت و درمان اهمیت زیادی دارد، چرا که اطلاعات نادرست در این حوزه میتواند بر سلامت بیماران تأثیر منفی بگذارد.
بر اساس تحقیقی که گروهی از پژوهشگران دانشگاههای کرنل و واشنگتن انجام دادهاند، ویسپر در حدود ۱ درصد از مستندسازیهای کتبی دچار هالوسیناسیون یا تصورات ساختگی شده. این اطلاعات گاهی شامل جملات خشونتآمیز یا عباراتی بیمعنی بودند که در هنگام سکوت در ضبطها ظاهر میشدند. یکی از نکات کلیدی در این پژوهش، استفاده از نمونههای صوتی از منبعی به نام AphasiaBank است. این منبع شامل مجموعهای از مکالمات و نمونههای صوتی از افراد مبتلا به آفازیا (Aphasia)، اختلالی در زبان است که منجر به سکوتهای مکرر در صحبت میشود. پژوهشگران دریافتند که این سکوتها زمینهای برای بروز هالوسیناسیون در ابزار ویسپر ایجاد میکند.
یکی از پژوهشگران، آلیسون کونک (Allison Koenecke) از دانشگاه کرنل، نمونههایی از این خطاهای یادداشتبرداری را در شبکههای اجتماعی منتشر کرده است. این نمونهها شامل عباراتی مانند «ممنون که تماشا کردید!» بودهاند؛ عبارتی که به دلیل استفاده OpenAI از بیش از یک میلیون ساعت ویدئوی یوتیوب برای آموزش مدل GPT-4 در یادداشتبرداریها ظاهر شده است. چنین جملهای ممکن است در زمینههای غیرپزشکی بیخطر به نظر برسد، اما در مکالمات بیمارستانی یا پزشکی، اطلاعات ساختگی میتواند خطرات و نگرانیهای جدی ایجاد کند.
-------
علت و عوارض مشکل پزشکی از چیست؟
این تحقیق در ماه ژوئن ۲۰۲۳ در کنفرانس FAccT، انجمن ماشینهای محاسباتی (Association for Computing Machinery) در برزیل ارائه شد. تاکنون مشخص نیست که این تحقیق فرآیند داوری علمی را طی کرده یا خیر. از آنجا که دقت و صحت اطلاعات در حوزه پزشکی از اهمیت بالایی برخوردار است، استفاده از ابزارهای هوش مصنوعی که به تولید اطلاعات نادرست منجر میشوند، میتواند چالشهای مهمی را برای کارکنان پزشکی و درمانی ایجاد کند.
یکی از سخنگویان OpenAI به نام تایا کریستیانسون (Taya Christianson) در پاسخ به این تحقیق اعلام کرد که شرکت بهطور جدی به این مشکل توجه دارد و همواره در تلاش است تا کیفیت یادداشتبرداریها را بهبود بخشد و میزان هالوسیناسیون را کاهش دهد. ویسپر در پلتفرم API شرکت OpenAI در حوزههای حساس مورد استفاده قرار نمیگیرد و استفاده از این ابزار در زمینههای پرخطر محدودیت دارد. همچنین، در مستندات مربوط به استفاده منبعباز این مدل نیز توصیه شده که از آن در زمینههای حساس و پرخطر استفاده نشود. کریستیانسون از پژوهشگران بهخاطر اشتراکگذاری یافتههایشان قدردانی کرد.