محققان به کمک هوش مصنوعی ابزاری توسعه دادهاند که میتواند بیان ژن و توضیحات متنی زیستی را در یک فضای مشترک چندوجهی ترکیب کرده و تفسیر دادههای ترنسکریپتومی را از طریق گفتوگو با کاربر ممکن سازد. برای این منظور، پژوهشگران بیش از یک میلیون پروفایل RNA انسانی را از پایگاههای GEO و CELLxGENE گردآوری کرده و با کمک مدلهای زبانی بزرگ (LLM) دادههای متنی مرتبط با هر نمونه را استخراج و استانداردسازی کردند.
این مدل که CellWhisperer نام دارد در سه مرحله طراحی شده است. در مرحله اول، پژوهشگران یک مجموعه داده آموزشی بزرگ از رونوشتها (transcriptomes) ایجاد کردند که شامل پروفایلهای bulk RNA-seq و پروفایلهایscRNA-seq derived pseudo-bulk بود. برای هر نمونه، توضیحات متنی فشردهای مانند « نمونه بافتی کارسینومای سلول رنال از یک فرد مذکر، بدون متاستاز، نگهداریشده در پارافین و تثبیتشده با فرمالین» ساخته شد. به منظور هماهنگسازی دادههای (data harmonization) پایگاهGEO از پردازش یکنواخت (uniformly processed) دادههای GEO در چارچوب ARCHS4 استفاده کردند و یک فرایند گردآوری داده با کمک LLM (LLM-assisted curation procedure) توسعه دادند تا برای هر نمونه، بر اساس metadata آن نمونه، توضیحات متنی فشرده و منسجم ایجاد شود.
در مرحله دوم، پژوهشگران از مجموعهی ترکیبی ۱۰۸۲۴۱۳ رونوشت دارای توضیحات متنی (annotated transcriptomes) را برای آموزش یک مدل multimodal embedding استفاده کردند؛ مدلی که دو نوع داده ــ یعنی دادههای کمی بیان ژن و دادههای متنی زیستی ــ را در یک فضای مشترک (joint embedding space) ادغام میکند.
برای این منظور، از معماری CLIP (Contrastive Language–Image Pretraining) الهام گرفته شد؛ مدلی که در اصل برای یادگیری ارتباط بین متن و تصویر طراحی شده است. در این پژوهش بهجای تصویر از دادههای بیان ژن استفاده کردند. دادههای ترنسکریپتومی توسط مدل Geneformer (مدلی مبتنی بر ترنسفورمر برای تحلیل بیان ژن) و توضیحات متنی توسط مدلBioBERT (مدلی آموزشدیده بر متون زیستپزشکی) پردازش شدند.
در مرحله سوم برای پشتیبانی از گفتوگوهای زبان طبیعی مبتنی بر اطلاعات رونوشت، مدلMistral 7B که یکLLM (Large Language Model) است را سفارشیسازی (customize) و بازتنظیم (fine-tune) کردند.
ارزیابیها نشان دادند که CellWhisperer قادر است بدون آموزش اختصاصی (zero-shot)، انواع سلولها، بافتها و بیماریها را با دقت بالا پیشبینی کند. همچنین، این مدل توانست مفاهیم زیستی پیچیده را از طریق همبستگی بین نام مجموعههای ژنی و بیان واقعی آنها بیاموزد.
به طور خلاصه، این ابزار یک ارزیابی اولیه سریع از مجموعه دادههای scRNA-seq و یک رویکرد تعاملی برای کاوش دادهها و تولید فرضیه ارائه میدهد اگرچه نتایج کلیدی باید با رویکردهای بیوانفورماتیک مرسوم تأیید شوند.
نویسنده: مبینا دارابی
مرجع
https://doi.org/10.1038/s41587-025-02857-9

نمای کلی از CellWhisperer و چگونگی ایجاد مجموعهدادهی آموزشی، آموزش مدل (Model training) و کاربرد آن

