محققان به کمک هوش مصنوعی ابزاری توسعه داده‌اند که می‌تواند بیان ژن و توضیحات متنی زیستی را در یک فضای مشترک چندوجهی ترکیب کرده و تفسیر داده‌های ترنسکریپتومی را از طریق گفت‌وگو با کاربر ممکن سازد. برای این منظور، پژوهشگران بیش از یک میلیون پروفایل RNA  انسانی را از پایگاه‌های GEO و CELLxGENE  گردآوری کرده و با کمک مدل‌های زبانی بزرگ (LLM) داده‌های متنی مرتبط با هر نمونه را استخراج و استانداردسازی کردند.

این مدل که CellWhisperer نام دارد در سه مرحله طراحی شده است. در مرحله اول، پژوهشگران یک مجموعه ‌داده آموزشی بزرگ از رونوشت‌ها (transcriptomes) ایجاد کردند که شامل پروفایل‌های bulk RNA-seq و پروفایل‌هایscRNA-seq derived pseudo-bulk   بود. برای هر نمونه، توضیحات متنی فشرده‌ای مانند « نمونه بافتی کارسینومای سلول رنال از یک فرد مذکر، بدون متاستاز، نگهداری‌شده در پارافین و تثبیت‌شده با فرمالین» ساخته شد. به منظور هماهنگ‌سازی داده‌های (data harmonization) پایگاهGEO  از پردازش یکنواخت (uniformly processed) داده‌های GEO در چارچوب ARCHS4 استفاده کردند و یک فرایند گردآوری داده با کمک LLM (LLM-assisted curation procedure)  توسعه دادند تا برای هر نمونه، بر اساس metadata آن نمونه، توضیحات متنی فشرده و منسجم ایجاد شود.

در مرحله دوم، پژوهشگران از مجموعه‌ی ترکیبی ۱۰۸۲۴۱۳ رونوشت دارای توضیحات متنی (annotated transcriptomes)  را برای آموزش یک مدل multimodal embedding استفاده کردند؛ مدلی که دو نوع داده‌ ــ یعنی داده‌های کمی بیان ژن و داده‌های متنی زیستی ــ را در یک فضای مشترک (joint embedding space) ادغام می‌کند.

برای این منظور، از معماری CLIP (Contrastive Language–Image Pretraining)  الهام گرفته شد؛ مدلی که در اصل برای یادگیری ارتباط بین متن و تصویر طراحی شده است. در این پژوهش به‌جای تصویر از داده‌های بیان ژن استفاده کردند. داده‌های ترنسکریپتومی توسط مدل Geneformer (مدلی مبتنی بر ترنسفورمر برای تحلیل بیان ژن) و توضیحات متنی توسط مدلBioBERT  (مدلی آموزش‌دیده بر متون زیست‌پزشکی) پردازش شدند.

در مرحله سوم برای پشتیبانی از گفت‌وگوهای زبان طبیعی مبتنی بر اطلاعات رونوشت، مدلMistral 7B  که یکLLM (Large Language Model)  است را سفارشی‌سازی (customize) و بازتنظیم (fine-tune) کردند.

ارزیابی‌ها نشان دادند که CellWhisperer قادر است بدون آموزش اختصاصی (zero-shot)، انواع سلول‌ها، بافت‌ها و بیماری‌ها را با دقت بالا پیش‌بینی کند. همچنین، این مدل توانست مفاهیم زیستی پیچیده را از طریق همبستگی بین نام مجموعه‌های ژنی و بیان واقعی آنها بیاموزد.

به طور خلاصه، این ابزار یک ارزیابی اولیه سریع از مجموعه داده‌های scRNA-seq و یک رویکرد تعاملی برای کاوش داده‌ها و تولید فرضیه ارائه می‌دهد اگرچه نتایج کلیدی باید با رویکردهای بیوانفورماتیک مرسوم تأیید شوند.

نویسنده: مبینا دارابی

مرجع

https://doi.org/10.1038/s41587-025-02857-9

 

نمای کلی از CellWhisperer و چگونگی ایجاد مجموعه‌داده‌ی آموزشی، آموزش مدل (Model training) و کاربرد آن

تازه‌ترین‌ها