وقتی هوش مصنوعی بیمار میسازد؛ Synthetic EHR چیست؟
به گزارش ایران۲۴، یکی از مقالات تولید شده در دانشگاه وست کلیف آمریکا درباره یک موضوع مهم در پزشکی و هوش مصنوعی صحبت میکند: ساخت دادههای پزشکی مصنوعی برای آموزش هوش مصنوعی. این دادهها که به آنها «پرونده الکترونیک سلامت مصنوعی» یا Synthetic EHR گفته میشود، نسخههای شبیه سازی شده از اطلاعات واقعی بیماران هستند، اما بدون این که اطلاعات واقعی یا شخصی یک فرد در آنها وجود داشته باشد.
در دنیای پزشکی امروز، بیشتر بیمارستانها اطلاعات بیماران را به صورت دیجیتال ذخیره میکنند. این اطلاعات شامل چیزهایی مثل بیماری ها، آزمایش خون، داروها، علائم حیاتی و حتی یادداشتهای پزشک است. این مجموعه دادهها برای آموزش سیستمهای هوش مصنوعی بسیار مهم هستند، چون به کمک آنها میتوان بیماریها را پیش بینی کرد، درمان مناسب پیشنهاد داد و مدیریت بیمارستان را بهتر انجام داد.
اما یک مشکل بزرگ وجود دارد. این دادهها خیلی حساس هستند و نمیتوان به راحتی آنها را در اختیار محققان قرار داد. قوانین سخت گیرانهای مثل قوانین حریم خصوصی در اروپا و آمریکا باعث میشود دسترسی به این دادهها محدود شود. از طرف دیگر، جمع آوری و اشتراک گذاری این اطلاعات بین بیمارستانها هم سخت و زمان بر است. نتیجه این میشود که هوش مصنوعی در پزشکی با کمبود دادههای مناسب روبه رو است.
اینجا ایده مهمی وارد میشود: استفاده از هوش مصنوعی برای ساخت دادههای مصنوعی. یعنی به جای استفاده از اطلاعات واقعی بیماران، دادههایی ساخته میشود که از نظر آماری و ساختاری شبیه دادههای واقعی هستند، اما به هیچ فرد واقعی تعلق ندارند. این کار باعث میشود هم مشکل کمبود داده حل شود و هم حریم خصوصی بیماران حفظ شود.
برای ساخت این دادههای مصنوعی، از مدلهای پیشرفته هوش مصنوعی استفاده میشود. سه مدل اصلی که در این مقاله بررسی شدهاند عبارتند از:
اول مدل GAN که میتواند دادههای بسیار واقعی و دقیق تولید کند، اما آموزش آن سخت است و گاهی دچار مشکل میشود.
دوم مدل VAE که آموزش آن پایدارتر است و کنترل بهتری روی دادههای تولیدی میدهد، اما خروجی آن گاهی کمی سادهتر است.
سوم مدل Diffusion که جدیدتر است و میتواند دادههای بسیار متنوع و واقعی تری تولید کند، اما به قدرت پردازشی زیادی نیاز دارد.
در این تحقیق این سه مدل با هم مقایسه شدهاند تا مشخص شود کدام یک بهتر میتواند دادههای پزشکی مصنوعی تولید کند.
محققان برای آزمایش، از چند مجموعه داده واقعی بیمارستانی استفاده کردند. این دادهها شامل اطلاعات بیماران آی سی یو، پروندههای درمانی و دادههای چند مرکز درمانی بودند. سپس این دادهها پاک سازی و آماده سازی شدند تا بتوانند وارد مدلهای هوش مصنوعی شوند. مثلا اطلاعات ناقص حذف شد، دادههای عددی استاندارد شدند و دادههای متنی به شکل قابل فهم برای کامپیوتر تبدیل شدند.
بعد از آموزش مدل ها، هر مدل شروع به ساخت پروندههای پزشکی مصنوعی کرد. این پروندهها شامل اطلاعات کامل بیماران فرضی بودند، مثل سن، بیماری، نتایج آزمایش و درمان ها. برای اینکه این دادهها منطقی باشند، قوانین پزشکی هم روی آنها اعمال شد. مثلا یک مرد نمیتواند نتیجه بارداری داشته باشد یا مقادیر آزمایشها باید در محدوده واقعی باشند.
برای بررسی کیفیت این داده ها، سه معیار اصلی استفاده شد:
اول شباهت آماری به دادههای واقعی
دوم توانایی این دادهها در آموزش مدلهای پیش بینی بیماری
سوم میزان حفظ حریم خصوصی و جلوگیری از شناسایی افراد واقعی
نتایج نشان داد که دادههای مصنوعی تولید شده بسیار شبیه دادههای واقعی هستند. در بسیاری از موارد، مدلهایی که با داده مصنوعی آموزش دیده بودند تقریبا به همان دقت مدلهای آموزش دیده با داده واقعی رسیدند. در بعضی موارد حتی ترکیب داده واقعی و مصنوعی باعث شد عملکرد بهتر هم شود.
از نظر حریم خصوصی هم نتایج بسیار امیدوارکننده بود. تقریبا امکان شناسایی بیماران واقعی از روی دادههای مصنوعی وجود نداشت. یعنی اگر کسی بخواهد از این دادهها سوء استفاده کند، نمیتواند به اطلاعات واقعی افراد برسد.
یک نکته مهم دیگر این بود که این دادههای مصنوعی میتوانند به کشورها و مراکز درمانی کم امکانات کمک کنند. خیلی از بیمارستانهای کوچک یا کشورهای در حال توسعه به دادههای پزشکی بزرگ و با کیفیت دسترسی ندارند. اما با استفاده از دادههای مصنوعی میتوانند مدلهای هوش مصنوعی پیشرفته بسازند و کیفیت خدمات درمانی را بهتر کنند.
با این حال، این فناوری بدون مشکل نیست. یکی از مشکلات این است که گاهی روابط پیچیده پزشکی به درستی در دادههای مصنوعی بازسازی نمیشود. مثلا ارتباط دقیق بین بیماریهای طولانی مدت و تغییرات بدن ممکن است کامل دقیق نباشد. همچنین ساخت این مدلها به قدرت پردازشی زیادی نیاز دارد و هزینه بالایی دارد.
از نظر آینده، این مقاله پیشنهاد میکند که این فناوری با سیستمهای دیگر مثل یادگیری فدرال و بلاک چین ترکیب شود. یادگیری فدرال یعنی هر بیمارستان مدل را روی دادههای خودش آموزش دهد بدون اینکه دادهها را خارج کند. بلاک چین هم میتواند برای ثبت و کنترل دادههای مصنوعی استفاده شود تا شفافیت و امنیت بیشتر شود.
در نهایت، نتیجه کلی مقاله این است که استفاده از هوش مصنوعی برای ساخت دادههای پزشکی مصنوعی یک راه حل بسیار امیدوارکننده است. این روش میتواند هم مشکل کمبود داده را حل کند، هم حریم خصوصی بیماران را حفظ کند و هم باعث شود هوش مصنوعی در پزشکی سریعتر پیشرفت کند.
اما هنوز نیاز به تحقیق بیشتر وجود دارد تا این دادهها دقیق تر، قابل اعتمادتر و منطبقتر با واقعیت شوند. اگر این مشکلات حل شود، دادههای مصنوعی میتوانند یکی از پایههای اصلی آینده هوش مصنوعی در پزشکی باشند.
منبع: عصرایران