15 آذر 1404
حبيب رستمي

حبیب رستمی

مرتبه علمی: دانشیار
نشانی: دانشکده مهندسی سیستم های هوشمند و علوم داده - گروه مهندسی کامپیوتر
تحصیلات: دکترای تخصصی / کامپیوتر
تلفن: 0773
دانشکده: دانشکده مهندسی سیستم های هوشمند و علوم داده

مشخصات پژوهش

عنوان
‫ﺗ‬‫ﻮ‬‫ﺻ‬‫ﯿ‬‫ﻒ‬‫ﺗ‬‫ﺼ‬‫ﺎ‬‫و‬‫ﯾ‬‫ﺮ‬‫ ر‫ا‬‫د‬‫ﯾ‬‫ﻮ‬‫ﮔ‬‫ﺮ‬‫ا‬‫ﻓ‬‫ﯽ‬‫ﻗ‫ﻔ‬‫ﺴ‬‫ﻪ‬‫ی‬‫ﺳ‬‫ﯿ‬‫ﻨ‬‫ﻪ‬‫ﺑ‫ﺎ‬‫ ا‫ﺳ‬‫ﺘ‬‫ﻔ‬‫ﺎ‬‫د‬‫ه ‬‫‬ ا‫ز ‬‫ر‫و‬‫ش‬‫ﻫ‬‫ﺎی ‬‫ﯾ‫ﺎ‬‫د‬‫ﮔ‬‫ﯿ‬‫ﺮ‬‫ی‬ عمیق‬
نوع پژوهش پارسا
کلیدواژه‌ها
رادیوگرافی، یادگیری عمیق
پژوهشگران محمد برزگر (دانشجو) ، حبیب رستمی (استاد راهنما اول) ، احمد کشاورز (استاد مشاور)

چکیده

تصویربرداری با اشعه ایکس از قفسه سینه (Chest X-ray) یکی از پرکاربردترین روش های تشخیصی در سراسر جهان است. با این حال، تفسیر این تصاویر همچنان یک کار پیچیده و زمان بر باقی مانده است. این مقاله به چالش تولید خودکار گزارش های اشعه ایکس قفسه سینه می پردازد و از پیشرفت های اخیر در مدل های بینایی-زبان (Vision-Language Models یا VLMs) بهره می برد. ما چارچوبی را پیشنهاد می دهیم که در آن از نظارت هدایت شده با «پرامپت» (prompt-guided supervision) و تکنیک های کاهش سوگیری (bias mitigation) در یک مدل VLM ریزتنظیم شده (BLIP) استفاده می شود تا هم دقت و هم قابلیت اعتماد گزارش های پزشکی تولیدشده افزایش یابد. در این مطالعه، روش هایی را برای بهبود انسجام متنی و کاهش سوگیری های میانبر (shortcut bias) در مدل های VLM با استفاده از پرامپت های آسیب شناسی (pathological prompts) بررسی می کنیم، بدون آنکه نیاز به تغییر در معماری مدل یا استفاده از آموزش چندهدفه (multi-objective training) باشد — دو رویکردی که در ادبیات موجود عمدتاً نادیده گرفته شده اند. ما از برچسب های آسیب شناسی به عنوان پرامپت های زبان طبیعی استفاده می کنیم تا مدل را هدایت کرده و با بهره گیری از یادگیری تدریجی (curriculum learning) و وارد کردن نویز کنترل شده در برچسب ها طی آموزش، تاب آوری مدل را افزایش دهیم. برای مقابله با یادگیری میانبر، که در آن همبستگی های سطحی بین تصویر و متن (مانند تجهیزات پشتیبانی در تصویر) ممکن است مدل را گمراه کند، یک استراتژی کاهش سوگیری چندوجهی ارائه می دهیم. این روش شامل حذف مصنوعی (artifact) های بصری با استفاده از یک مدل تولیدی انتشار (generative diffusion model) و اصلاح متن مربوطه با کمک یک مدل زبان بزرگ است تا مدل به نمایش های علی و معنادارتر گرایش یابد. ما رویکرد خود را بر روی مجموعه داده جدید **CheXpert Plus** آموزش داده و ارزیابی می کنیم و بهبودهایی در کیفیت و تاب آوری گزارش های تولیدشده مشاهده می کنیم. در برخی معیارهای ارزیابی، تا 63٪ بهبود روی مجموعه آزمایش حاصل شده است. علاوه بر این، روش ما برای کاهش سوگیری میانبر چندوجهی باعث بهبود انسجام بالینی گزارش های تولیدی شده و تمرکز مدل را به نواحی مرتبط تر در تصویر معطوف می سازد. یافته های ما به توسعه سیستم های هوش مصنوعی ایمن تر و قابل اعتمادتر د