پیش بینی ژن
چارچوب قرائت باز (ORFs)
هنگام خواندن رمزها ازDNA این ابهام وجود دارد که موقعیت دقیق رمزهای آن کجاست . عبارتی که در زمینه شناسایی ژن خیلی کاربرد دارد ، چارچوب قرائت باز ایست . در حقیقت چارچوب قرائت باز شامل توالی هایی از DNA است که حد اقل 100 رمز طول دارند و بین یک رمز شروع و یک رمز خاتمه قرار داشته باشند. رمز شروع در پروکاریوتها اغلب ATG خواهد بود ، که اسید آمینه متیونین را رمز می کند( رمزهای ممکنه دیگرTTG،CTG ) و رمزهای پایانی شامل TGA،TAA هستند. برای هر توالی دو رشته ای DNA حداکثر شش ORF(یعنی سه تا در هر جهت )وجود دارد. باید متذکر شد که استفاده از ORF ها در جدا سازی ژنهای یوکاریوتی به دلیل وجود اینترونها و اگزونها در کنار همدیگر خطاهای فراوانی را به وجود می آورد.
در حقیقت ژنهای پروکاریوتی دارای چارچوب های قرائت باز به صورت پیوسته هستند که اغلب مجاور همدیگر قرار دارند. در حالیکه ژنهای یوکاریوت به وسیله DNA بین ژنی طویل جدا شده اند و توالی های رمز کننده آنها (اگزون ها ) به وسیله اینترونهای طویل غیر رمز کننده قطع شده اند.
تنظیم بیان ژن و عناصر کنترلی
ژنوم های موجودات مختلف دارای ژنهای بسیار زیادی هستند که فرآورده برخی از آنها در زمانهای خاص مورد نیاز است. در حالی که فرآورده ی برخی دیگر از ژنها که به ژنهای خانه دار معروف می باشند ، در همه ی دوران فعالیت سلول موجود زنده مورد نیاز هستند. برای کنترل فعالیت این ژنها عناصر کنترل کننده و عوامل رونویسی نقش دارند. عناصر کنترلی توالی های DNA در بالا دست و یا پایین دست ژن های مورد نظر هستند ، که با عوامل رونویسی اثر متقابل داشته و در اتصال و هدایت RNA پلیمراز برای رونویسی از ژن های مورد نظر نقش دارند.
در پروکاریوتها در پاسخ به یک سیگنال خاص ، معمولا چندین ژن رمز کننده پروتئین ها به طور هماهنگ بیان می شوند. به این ساختار و عناصر کنترلی آن اپران گفته می شود و RNA که از این اپران نسخه برداری می شود ( چون دارای ژنهای کد کننده پروتئین های متفاوت است ) پلی سیسترونی می گویند. در حالی که در یوکاریوتها ساختارهای اپرانی وجود ندارد. مدلی که برای بیان این ژن ها ی یوکاریوتی توسط بترین و دیوید سون ارائه گردید ، به این صورت است که عناصر کنترلی مختلف در بالا دست ژنهای متفاوت ( در نزدیک و یا داخل راه انداز ) با ترکیبی از عوامل رونویسی رمز شده ، اثر متقابل داشته و این اثر متقابل منجر به بیان ژن های پایین دست می شود
روشها و راهبردهای مختلف پیش بینی ژن
عمده ترین روش های پیش بینی ژن عبارتند از :
روشهای آزمایشگاهی
یکی از معمولترین روش شناسایی ژن ، دو رگ گیری با mRNA یا eDNA که بیشتر توسط نوردن بلاتینگ صورت می گیرد. در این روش از پروب نشاندار شده eDNA برای شناسایی ژن استفاده می شود . هم چنین از این روش می توان برای تشخیص اینترون ها از اگزو نها بابه کارگیری از پروبها ی خاص استفاده کرد. روش دیگر همسانه سازی cDNA با استفاده از mRNA های استخراج شده از سلول هدف است . تعیین توالی این cDNA و همردیفی آ نها با توالی های ژنومی می تواند محل قرار گرفتن ژنها و ساختار –اگزون- اینترون آن ها را مشخص کند. در واقع پژوهشگران به این کار از سال 1987 تا کنون به آن مشغول بوده اند و توالی حاصل را در genbank ذخیره می کرده اند
در دهه ی اخیر این روش در مقیاس انبوه با نام پروژه های est انجام می شود. برای این کار ، همسانه ها از یک کتابخانه cDNA تعییین می شود. انجام این عمل در مقیاس انبوه تولید اطلاعات بسیار زیادی می کند که در بخش EST پایگاه GENBANK ذخیره می شود
روش های غیر آزمایشگاهی
از جمله روش های غیر آزمایشگاهی ،شناسایی چارچوب قرائت باز با استفاده از نرم افزارهای مناسب می باشد. اما برای اطمینان از چارچوب قرائت باز می توان آن را به توالی پروتئینی ترجمه کرد ه و یا بررسی توالی ترجمه شده در پایگاههای اطلاعاتی و مشاهده توالی های مشابه دیگر به چارچوب قرائت باز اطمینان یافت
از جمله روشهای دیگر ، شناسایی نواحی رمز کننده استفاده از ابزارهای بررسی کننده تشابه است . برای این منظور می توان توالی مورد نظر را به 6 نوع چارچوب قرائت باز ترجمه کرده و جست و جوی تشابه این توالی ها با توالی های پروتئینی موجود در پایگاههای اطلاعاتی با استفاده از برنامه ی BLASTX را انجام داد.BLASTX به طور خودکار توالی DNA ناشناخته را ترجمه می کند و تشابه این توالی ترجمه شده را با توالی های پروتئینی موجود در پایگاهها ی اطلاعاتی انجام می دهد. اگر پروتئینی از پایگاههای اطلاعاتی با پروتئین ترجمه شده تطابق نشان داد . توالی DNA آن با توالی DNA ناشناخته همردیف می شود. از این راه می توان نواحی اینترون را نیز پیدا کرد.
البته روشهای آماری مختلف نیز برای شناسایی چارچوب قرائت باز در یک توالی DNA وجود دارد، که از جمله مهمترین آنها استفاده از شبکه های عصبی و مدل مخفی مارکوف هستند. همچنین با استفاده از توالی های رونویسی موجود در پایگاه های اطلاعاتی می توان به جایگاه های اتصال توالی های رو نویسی موجود در DNA نا شناخته پی برد. در کل سه راهبرد برای پیدا کردن ساختار اینترون – اگزون ژنها وجود دارند، که عبارتند از :
روشهای مبتنی بر محتوا
خصوصیاتی از قبیل تناوب تکرارها ، codon usage در این روش استفاده می شود. از آنجا که اکثر موجودات دارای رمزهای مشابهی با فراوانی های متفاوتند این مورد در شناسایی نواحی که احتمالا اگزون باشد مفید است
روشهای مبتنی بر جایگاه
در این روش ها بر اساس وجود یا عدم وجود توالی های خاص و یا توالی های توافقی برای شناسایی جایگاههای donor و acceptor جایگاههای tf-banding نواحی پلی A و هم چنین رمزهای شروع و خاتمه استفاده می شود.
روش های مقایسه ای
در این روش براسا س همولوژی توالی یک ژن با ژن های شناخته شده دیگر ساختار آن ژن تعیین می شود.
اگر چه بسیاری از روشهای پیش بینی ساختار بر اساس یکی از سه روش بالاست ، ولی براسای طبیعت داده ها ممکن است نتایج این روش ها تا حدی متفاوت با شد. به طور مثال برای موجوداتی ( مانند انسان ) که توالی کامل ژنوم آنها تعیین شده باشد، ممکن است روشی مناسب باشد و برای یک موجود دیگر با توالی ژنوم نامشخص ، مناسب نباشد.
پیش بینی و امتیاز دهی اگزون ها
به منظور پیش بینی دقیق اگزون ها ، علاوه بر توالی های سیگنالی ، نیاز به شناسایی نواحی رمز ( اگزونی) نیز وجود دارد . اگزون ها به سه صورت می توانند تقسیم شوند
الف – اگزون های ابتدایی : در این حالت محدوده ی چارچوبهای قرائت باز به وسیله یک جایگاه شروع و یک جایگاه 5 (donor) مشخص می شود
ب- اگزون های داخلی : در این حالت محدوده یچارچوب قرائت باز به وسیله یک جایگاه 3 (acceptor) و یک جایگاه 5 (donor) مشخص می شود.
ج- اگزون های انتهایی : در این حالت محدودهی چارچوب های قرائت باز به وسیله یک جایگاه 3 (acceptor) و یک جایگاه خاتمه مشخص می شود
برای تمایز نواحی رمز کننده پروتئین از نواحی غیر رمز کننده از روش های مبتنی بر محتوا استفاده می کنند که به وسیله آن ها احتمال این که یک توالی DNA یک پروتئین یا قطعه ای از یک پروتئین را رمز کند، بررسی می شود . همچنین نیاز است تا اگزون ها ی پیش بینی شده ، اساس ساختار ژن سر هم شوند. بی شک هر چه تعداد اگزونهای پیش بینی شده بیشتر باشد، سر هم کردن و تعیین ترتیب آن ها مشکل تر خواهد بود. برای این منظور از برنامه های مختلف دینامیک استفاده می شود. جور شدن متفاوت اگزون ها برای تولید محصولات پیرایش متفاوت نیز مشکل دیگری است که نیاز به راه حل دارد.
پیش بینی ژن براساس توالی های مشابه
ابزار جست و جوی BLASTX یکی از ساده ترین روش های پیش بینی ژن براساس توالی های مشابه به شمار می آید. البته این روش برای مقایسه چارچوب های قرائت باز در ژنوم های پروکاریوت مفید است . در حالی که برای ژن هایی که باید ویرایش شوند BLASTX نمی تواند مرزهای ویرایش اگزون را به خوبی شناسایی کند . توالی EST هم برای شناسایی ژن ها و هم برای تشخیص ساختارهای اگزونی آن ها مفید است . برای این منظور توالی های EST با استفاده از ابزار جست و جو ی BLASTN روی توالی های DNA ژنومی نقشه یابی می شوند. اما این روش نیز قادر به نقشه یابی دقیق مرزهای اگزون نیست.
یک روش بهتر ، همردیفی توالی تقاضا ژنومی در برابر یک پروتئین (یا cDNA) هدفی است که از قبل مشخص شده که با توالی رمز کننده پروتئینی همولوژی دارد. به این نوع از همردیفی ،همردیفی پیرایش شده گفته می شود.
پیش بینی مقایسه ای ژن
این روش بر این اصل استوار است که نواحی عملکردی ( نواحی رمز کننده پروتئین ها ) نسبت به نواحی غیر رمز کنده حفاظت شده تر هستند. بر این اساس می توان نواحی رمز کننده توالی جدید را با بهره گیری از توالی های رمز کننده ی موجودات مختلف شناسایی کرد.
ابزارهای پیش بینی ژن
تا کنون نرم افزارهای زیادی به نام کلی gene finder برای پیش بینی ژن طراحی شده و به وفور توسط پژوهشگران مختلف استفاده می شود ، برخی از مهمترین این ابزارها شامل GeneMark ، GRAIL ،FGENEH / FGENES ، GeneID ، GENSCAN ، GENEWISE می باشد.
مقایسه روشهای مختلف پیش بینی ژن
چنان که توضیح داده شد روشهای مختلفی برای پیش بینی ژن وجود دارد که در برخی موارد نتایج آ نها نیز متفاوت است . اما کدام روش دقیق تر عمل می کند؟ اگر چه عواملی مانند گونه مورد مطالعه ، دیرینه توالی و وجود مدارک آزمایشی می تواند در تعیین دقت روش مورد نظر موثر باشد ، ولی در کل ، پیش بینی هایی که براساس EST ها و یا براساس تشابه بال با توالی های رمز شناخته شده باشند ، قابل اطمینان تر هستند. دو معیار پایه ای برای تعیین دقت پیش بینی استفاده می شود
الف- حساسیت (Sn) : بیانگر بخشی از توالی های رمز کننده ، اگزون ها و یا ژن هایی است که به طور صحیح پیش بینی می شود
ب- اختصاصیت (Sp) : بخشی از توالی های رمز کننده ، اگزون ها و یا ژن ها ی پیش بینی شده که واقعی هستند
اختصاصیت و حساسیت می تواند بین صفر تا یک باشد و یک پیش بینی کامل دارای اختصاصیت و حساسیت برابر یک است.. البته هیچ کدام از دو معیار نمی تواند معیاری مناسب برای تعیین دقت کلی پیش بینی انجام شده باشد
تجزیه و تحلیل را ه انداز ها و عناصر تنظیمی
در موجودا ت پرو کاریوت تظاهر ژم در مراحل مختلف از جمله به هم فشردن کروماتین ، آغاز رو نویسی ، پای آدنیله شدن ، پیرایش ، آغاز ترجمه و کنترل فعالیت پروتئین تنظیم می شود. در این میان برای بیشتر ژن ها آغاز رونویسی به عنوان مهمترین نقطه کنترلی به شمار م یآید که تحت کنترل راه انداز ها است. راه اندازها به عنوان نواحی عملکردی به شمار می آیند که در فاصله بسیار نزدیک در بالا دست یا پایین دست جایگاه شروع نسخه برداری (TSS) قرار گرفته اند و در تنظیم رو نویسی نقش مهمی به عهده دارند. ناحیه راه انداز مجاورTSS با نام هسته راه انداز است و محل اتصال RNA پلیمراز 2 خواهد بود. علاوه بر آن ها ، تشدید کننده های رونویسی به عنوان نواحی هدایت کننده راه انداز هستند که می توانند قبل ، بعد و یا فاصله چند ده هزار نوکلئوتید از منطقه تنظیمی ژن قرار گیرند. شناسایی آزمایشگاهی نواحی راه انداز بسیار گران و پر زحمت است ، بنا بر این بیشتر از روش های کامپیوتری برای مشخص کردن این توالی ها استفاده می شود
ارتباط معناداری بین شناسایی ژن با پیش بینی راه انداز وجود دارد . چنان که اگر یک راه انداز را به درستی پیش بینی شود، مرزهای ژن نیز به خوبی پیش بینی خواهد شد و بنابراین کمک زیادی به پبش بینی ژن خواهد کرد . از طرف دیگر اگر یک ژن به صورت صحیحی پیش بینی شده باشد، شناسایی نواحی راه انداز پایین دست نیز راحت تر انجام خواهد شد . بر این اساس بسیاری از پژوهشگران معتقدند که شناسایی و مستند کردن کامل ژن در بر گیرنده هر دو مورد عناصر راه انداز و نواحی رمز کننده پرو تئین است.
اما تجزیه راه اندازها و عناصر تنظیمی از دو جنبه پیش بینی نواحی راه انداز در توالی ژنومی و تعیین خصوصیاتن نواحی راه انداز از راه شناسایی نگارههی متصل به عوامل رو نویسی مد نظر قرار گیرد. دو نوع الگوریتم برای این منظور وجود دارد که شامل
الف- الگوریتم های وابسته به الگو که شامل روش هایی است که مبتنی بر ab initio بوده و پیش بینی de novo را با اسکن کردن یک توالی انجام می دهند
ب- الگوریتم های وابسته به توالی که شامل روش های مبتنی بر تشابه می باشند که پیش بینی را براساس همردیفی توالی های همولوگ انجام میدهند و هم چنین روش های مبتنی برپروفایل بیان ژن می باشند که از پروفایل بیان ژنهایی که با همدیگر در همان موجود بیان می شود ، استفاده میکنند.
پیش بینی مبتنی بر تشابه را را انگشت نگاری فیلو ژنتیکی نیز می نامند. از الگوریتم های نوع اول برای جست و جو توالی های ژنومی برای شناسایی الگوهای تنظیم کننده شناخته شده ، استفاده می شود.در حالی که در الگوریتم های نوع دوم هدف کشف الگوهای ناشناخته در گروهی از توالی های است که از نظر عملکردی وابسته به همدیگرند . چون RNA پلیمراز 2 در یوکاریوت ها ژنهای mRNA را نسخه برداری می کند ، الگوریتم های پیشبینی کننده عناصر تنظیمی و راه اندازها ، روی راه انداز و عناصر تنظیمی این آنزیم تمرکز کرده اند.
نکات مهم در پیش بینی ژن
پوشاندن عناصر تکراری
یکی از کارهای اساسی قبل از جست و جوی ژن شناسایی عنصر تکراری است . در صورت پوشاندن عناصر تکراری توسط برنامه های مناسب مانند Masker Repeat برنامه های پیش بینی کننده ژن اگزون ها را با اشتباه مثبت کمتر پیشبینی خواهند کرد . برای مثال ، برنامه یgenescan در صورت عدم پوشاندن عناصر تکراری 1128 ژن و در صورت پوشاندن این عناصر ،789 ژن موجود در کروموزو م شماره 22 انسانی را پیش بینی خواهد کرد. به همین ترتیب در استفاده از برنامه ی GeneID این مقدار از 1119 به 730 تغییر خواهد کرد . البته در صورت شدید شدن پوشاندن عناصر تکراری ، برخی از اگزون ها ی واقعی از دست خواهند رفت . لذا توصیه می شود از اطلاعات بعد و قبل از پوشاندن عناصر تکراری استفاده شود
تفاوت ابزارها در پیش بینی ژن
ابزارهای مختلف پیش بینی ژن لزوما نتایج مشابهی را به همراه ندارند و در کل به دلیل کوتاه بودن بخش رمز کننده اگزون اول ، شناسایی نواحی مرزی ژن ها مشکل است . برای مثال ، چنان که در شکل مشاهده می شود تمامی روشها از نظر پیش بینی اگزون های داخلی با همدیگر توافق دارند. در حالیکه از نظر پیش بینی انتهای 5 تفاوت هایی دیده می شود. چنان که GeneID قسمتی از اگزون دوم را به عنوان اگزون اولیه پیش بینی کرده است در حالیکه GENESCAN هیچ گونه اگزون اولیه ای را شناسایی نکرده و به جای آن قسمتی از یک ژن که با یک اگزون داخلی آغاز شده ، را پیش بینی کرده است. همچنین FGENEH به اشتباه یک اگزون را در یک ناحیه غیر رمز کننده پیش بینی کرده است.
این مطلب بر گرفته از کتاب بیوانفورماتیک می باشد که متاسفانه الان نام نویسنده در خاطرم نیست.