يمكن أن يحل الانتشار المستقر فجوة في بيانات التصوير الطبي

تحقق من جميع الجلسات عند الطلب من قمة الأمن الذكي هنا.

يحصل الأطباء المتخصصون في الأمراض النادرة على الكثير من الفرص للتعلم أثناء تقدمهم. يعد نقص بيانات الرعاية الصحية المتنوعة لتدريب الطلاب تحديًا رئيسيًا في هذه المجالات.

قال كريستيان بلوثجن ، اختصاصي أشعة الصدر ومركز ستانفورد للذكاء الاصطناعي في الطب والتصوير (AIMI) ، “عندما تعمل في مكان به بيانات نادرة ، يرتبط أداؤك بالخبرة – فكلما شاهدت المزيد من الصور ، أصبحت أفضل”. الباحث الذي درس أمراض الرئة النادرة خلال السنوات السبع الماضية.

عندما أصدرت Stability AI ، Stable Diffusion ، نموذجها الأساسي لتحويل النص إلى صورة ، للجمهور في أغسطس ، كان لدى Bluethgen فكرة: ماذا لو تمكنت من الجمع بين حاجة حقيقية في الطب وسهولة إنشاء صور جميلة من مطالبات نصية بسيطة؟ إذا كان بإمكان الانتشار المستقر إنشاء صور طبية تصور بدقة السياق السريري ، فيمكن أن يخفف الفجوة في بيانات التدريب.

تعاونت Bluethgen مع Pierre Chambon ، وهو طالب دراسات عليا في جامعة ستانفورد في معهد الهندسة الحسابية والرياضية وباحث التعلم الآلي (ML) في AIMI ، لتصميم دراسة تسعى إلى توسيع قدرات الانتشار المستقر لتوليد النوع الأكثر شيوعًا من الصور الطبية – تصوير الصدر بالأشعة السينية.

حدث

قمة الأمن الذكي عند الطلب

تعرف على الدور الحاسم للذكاء الاصطناعي وتعلم الآلة في الأمن السيبراني ودراسات الحالة الخاصة بالصناعة. شاهد الجلسات عند الطلب اليوم.

مشاهدة هنا

وجدوا معًا أنه مع بعض التدريب الإضافي ، كان أداء نموذج الانتشار الكامن للأغراض العامة جيدًا بشكل مدهش في مهمة إنشاء صور لرئتين بشريتين مع وجود تشوهات يمكن التعرف عليها. إنه اختراق واعد يمكن أن يؤدي إلى مزيد من البحث على نطاق واسع ، وفهم أفضل للأمراض النادرة ، وربما حتى تطوير بروتوكولات علاجية جديدة.

من الأغراض العامة إلى المجال المحدد

حتى الآن ، لم تعمل نماذج الأساس المدربة على الصور واللغة الطبيعية بشكل جيد عند إعطاء مهام خاصة بالمجال. المجالات المهنية مثل الطب والتمويل لها المصطلحات الخاصة بها ، والمصطلحات ، والقواعد ، والتي لا يتم احتسابها في مجموعات بيانات التدريب العامة. لكن هناك ميزة واحدة قدمت نفسها لدراسة الفريق: يقوم اختصاصيو الأشعة دائمًا بإعداد تقرير نصي مفصل يصف النتائج التي توصلوا إليها في كل صورة يقومون بتحليلها. من خلال إضافة بيانات التدريب هذه إلى نموذج الانتشار المستقر ، كان الفريق يأمل في أن يتعلم النموذج إنشاء بيانات التصوير الطبي التركيبي عند المطالبة بالكلمات الرئيسية الطبية ذات الصلة.

قال شامبون: “لسنا أول من قام بتدريب نموذج لأشعة إكس على الصدر ، ولكن كان عليك في السابق القيام بذلك باستخدام مجموعات بيانات مخصصة ودفع ثمن باهظ للغاية مقابل قوة الحوسبة”. “تمنع هذه العوائق إجراء الكثير من الأبحاث المهمة. أردنا معرفة ما إذا كان يمكنك تمهيد النهج واستخدام نموذج الأساس مفتوح المصدر الحالي مع تعديلات طفيفة فقط. “

عملية من ثلاث خطوات

لاختبار قدرات Stable Diffusion ، قام Bluethgen و Chambon بفحص ثلاثة مكونات فرعية لبنية النموذج:

ال المتغير التلقائي (VAE) ، الذي يضغط الصور المصدر ويفك ضغط الصور التي تم إنشاؤها ؛
ال مشفر النص، والذي يحول مطالبات اللغة الطبيعية إلى متجهات يستطيع المشفر التلقائي فهمها ؛
ال يو نت، والذي يعمل كعقل لعملية توليد الصورة (تسمى الانتشار) في الفضاء الكامن.

أنشأ الباحثون مجموعة بيانات لدراسة مكونات برنامج التشفير التلقائي للصور ومُشفِّر النص. لقد اختاروا بشكل عشوائي 1000 صورة شعاعية أمامية من كل من مجموعتي بيانات عامتين كبيرتين ، تسمى CheXpert و MIMIC-CXR. ثم أضافوا خمس صور منتقاة يدويًا لأشعة سينية طبيعية للصدر وخمس صور تظهر شذوذًا واضحًا (في هذه الحالة ، تراكم السوائل بين الأنسجة ، يسمى الانصباب الجنبي).

تم إقران هذه الصور بمجموعة من المطالبات النصية البسيطة لاختبار طرق مختلفة لضبط المكونات. أخيرًا ، قاموا بسحب عينة من مليون مطالبة نصية عامة من مجموعة البيانات المفتوحة LAION-400M ، (مجموعة كبيرة الحجم وغير منظمة من أزواج نصوص الصور المصممة للتدريب على النموذج ولأغراض بحثية واسعة النطاق).

النتائج الرئيسية

إليكم ما طلبوه ووجدوه على مستوى عالٍ:

نص التشفير: باستخدام CLIP ، وهي شبكة عصبية عامة من Open AI تربط النص والصور ، هل يمكن للنموذج أن يولد نتيجة ذات مغزى عند إعطاء نص موجه مثل “الانصباب الجنبي” الخاص بمجال الأشعة؟ كانت الإجابة نعم – لقد وفر برنامج تشفير النص بمفرده سياقًا كافيًا لـ U-Net لإنشاء صور دقيقة طبيًا.

VAE: هل يمكن لجهاز التشفير التلقائي للانتشار المستقر الذي تم تدريبه على الصور الطبيعية أن يقدم صورة طبية بنجاح بعد فك ضغطها؟ النتيجة ، مرة أخرى ، كانت نعم. قال Bluethgen: “تم خلط بعض التعليقات التوضيحية في الصور الأصلية ، لذا لم تكن مثالية ، ولكن مع اتباع نهج المبادئ الأولى ، قررنا الإشارة إلى ذلك باعتباره فرصة لاستكشاف المستقبل.”

يو نت: بالنظر إلى الإمكانات الجاهزة للمكونين الآخرين ، هل يمكن لـ U-Net إنشاء صور صحيحة تشريحيًا وتمثل المجموعة الصحيحة من التشوهات ، اعتمادًا على الموجه؟ في هذه الحالة ، خلص Bluethgen و Chambon إلى أن هناك حاجة إلى ضبط إضافي. “في المحاولة الأولى ، لم تكن U-Net الأصلية تعرف كيفية إنشاء صور طبية ،” تقرير شامبون. “ولكن مع بعض التدريب الإضافي ، تمكنا من الوصول إلى شيء يمكن استخدامه.”

لمحة عما ينتظرنا

بعد تجربة المحفزات وقياس جهودهم باستخدام كل من مقاييس الجودة الكمية والتقييمات النوعية التي يقودها أخصائي الأشعة ، وجد العلماء أن النموذج الأفضل أداءً يمكن تكييفه لإدراج شذوذ واقعي المظهر على صورة الأشعة الاصطناعية مع الحفاظ على دقة 95٪ في نموذج التعلم العميق المُدرَّب على تصنيف الصور بناءً على التشوهات.

في أعمال المتابعة ، قام Chambon و Bluethgen بتوسيع جهود التدريب ، باستخدام عشرات الآلاف من الأشعة السينية على الصدر والتقارير المقابلة. يمكن للنموذج الناتج (الذي يُطلق عليه اسم RoentGen ، وهو منفذ لـ Roentgen and Generator) ، الذي تم الإعلان عنه في 23 نوفمبر ، إنشاء صور CXR بدقة أعلى وتنوع متزايد ، ويمنح تحكمًا أكثر دقة في ميزات الصورة مثل الحجم والأبعاد الجانبية للنتائج من خلال مطالبات النص بلغة طبيعية. (النسخة الأولية متوفرة هنا.)

بينما يعتمد هذا العمل على دراسات سابقة ، فهو الأول من نوعه الذي يبحث في نماذج الانتشار الكامنة للتصوير الصدري ، وكذلك أول من يستكشف نموذج الانتشار المستقر الجديد لتوليد الصور الطبية. من المسلم به أن العديد من القيود ظهرت على السطح عندما فكر الفريق في النهج:

كان قياس الدقة السريرية للصور التي تم إنشاؤها أمرًا صعبًا نظرًا لأن المقاييس القياسية لم توضح فائدة الصور ، لذلك أضاف الباحثون أخصائي أشعة مدربًا لإجراء تقييمات نوعية.
لقد رأوا نقصًا في التنوع في الصور التي تم إنشاؤها بواسطة النموذج الدقيق. كان هذا بسبب العدد الصغير نسبيًا من العينات المستخدمة لتهيئة وتدريب U-Net للمجال.
أخيرًا ، كانت المطالبات النصية المستخدمة لمزيد من تدريب U-Net لحالة استخدام الأشعة الخاصة بها عبارة عن كلمات مبسطة تم إنشاؤها للدراسة ولم يتم أخذها حرفيًا من تقارير أخصائي الأشعة الفعلية. أشار Bluethgen و Chambon إلى الحاجة إلى تكييف النماذج المستقبلية في تقارير الأشعة الكاملة أو الجزئية.

بالإضافة إلى ذلك ، حتى لو نجح هذا النموذج يومًا ما بشكل مثالي ، فمن غير الواضح ما إذا كان بإمكان الباحثين الطبيين استخدامه بشكل قانوني. تمنع اتفاقية الترخيص مفتوحة المصدر لـ Stable Diffusion حاليًا المستخدمين من إنشاء صور للاستشارة الطبية أو تفسير النتائج الطبية.

الفن أو الأشعة السينية المشروحة؟

على الرغم من القيود الحالية ، يقول Bluethgen و Chambon إنهم ذهلوا من نوع الصور التي تمكنوا من إنتاجها من هذه المرحلة الأولى من البحث.

قال Bluethgen: “إن كتابة رسالة نصية واستعادة كل ما كتبته في شكل صورة عالية الجودة هو اختراع مذهل – لأي سياق”. “كان من المذهل رؤية مدى جودة إعادة بناء صور الأشعة السينية للرئة. كانت واقعية وليست كاريكاتورية “.

من الآن فصاعدًا ، يخطط الفريق لاستكشاف كيف يمكن لنماذج الانتشار الكامن القوية أن تتعلم نطاقًا أوسع من التشوهات ، والبدء في الجمع بين أكثر من شذوذ واحد في صورة واحدة ، وفي النهاية توسيع نطاق البحث ليشمل أنواعًا أخرى من التصوير إلى جانب الأشعة السينية والمختلفة. أجزاء الجسم.

ويخلص شامبون إلى أن “هناك الكثير من الإمكانات في هذا النوع من العمل”. “باستخدام مجموعات بيانات طبية أفضل ، قد نتمكن من فهم الأمراض الحديثة وعلاج المرضى بالطرق المثلى.”

تم نشر “تكييف النماذج التأسيسية ذات الرؤية واللغة مع خلفية مجالات التصوير الطبي” في خادم ما قبل الطباعة ArXiv في أكتوبر. بالإضافة إلى Bluethgen و Chambon ، كيرت إلأنجلوتز، أستاذ الأشعة وكلية التدريس التابعة لـ HAI ، و أكشاي تشودري، أستاذ مساعد (بحث) في الأشعة ، نصح وشارك في تأليف الدراسة.

نيكي جوث إيتوي كاتب مساهم في معهد ستانفورد للذكاء الاصطناعي الذي يركز على الإنسان.

ظهرت هذه القصة في الأصل على Hai.stanford.edu. حقوق الطبع والنشر 2023

صانعي القرار

مرحبًا بك في مجتمع VentureBeat!

DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص الفنيون الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.

إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.

يمكنك حتى التفكير في المساهمة بمقال خاص بك!

قراءة المزيد من DataDecisionMakers

مرتبط

اكتشاف المزيد من نص كم

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

يمكن أن يحل الانتشار المستقر فجوة في بيانات التصوير الطبي

حدث

من الأغراض العامة إلى المجال المحدد

عملية من ثلاث خطوات

النتائج الرئيسية

لمحة عما ينتظرنا