Katalog

Yayınlar

Yıllar

2017

Aylar

Günler

Sayfalar

Abonelerimiz Orijinal Sayfayı Giriş Yapıp Okuyabilir Üye Olup Tüm Arşivi Okumak İstiyorum Sayfayı Satın Almak İstiyorum

27 Eylül 2017 Çarşamba Akademi 15 A T CG A T CG 0 1 2 3 4 5 6 7 8 A 1 1 0 1 2 3 4 5 6 T 2 0 2 1 0 1 2 3 4 C 3 1 1 3 2 1 0 1 2 G 4 2 0 2 4 3 2 1 0 T 5 3 1 1 3 3 4 3 2 C 6 4 2 0 2 2 3 5 4 G 7 5 3 1 1 1 2 4 6 A 8 6 4 2 0 2 1 3 5 Tablo 2 ATCGATCGATCGTCGA A T CGA T CG 000000000 A 0 1 0 1 1 1 0 1 1 T002100210 C 0 1 1 3 2 1 1 3 2 G 0 1 0 2 4 3 2 2 4 T 0 1 0 1 3 3 4 3 3 C 0 1 1 1 2 2 3 5 4 G 0 1 2 0 2 1 2 4 6 A 0 1 0 1 1 3 2 3 5 Tablo 3 ATCGATCG ATCGTCGA >> dizilerin tümü ne kadar benzerse o kadar yüksek çıkıyordu. Fakat merak ettiğimiz ilintili bir soru, elimizdeki DNA parçasının, genom veri tabanları gibi çok daha büyük bir dizide benzediği bölge(ler) olup olmadığı. Yukarıdaki yaklaşımla “ATCGATCG”yi bir insan kromozomunda ararken kromozomdaki nükleotit sayısı kadar boşluk ceza puanı yazacaktık ve son skor da çok düşük olacaktı. Benzer bir sorun insan ve maymun kromozomu gibi ikisi de uzun DNA’ları hizalarken de ortaya çıkabilir. Çünkü onca ortak geni paylaşmamıza karşın, genlerin arası doğrudan bir görevi olmayan rastgele nükleotit dizileriyle dolu, hatta bunların bir kısmı da hücrelerimizi istila etmiş yabancı genetik birimler. Böyle işlevsiz bölümlerde evrim baskısı az olacağından türler arası eşleşmeyebilir. DNA’ların tamamını hizalamak yerine benzer motifleri bulmak amacıyla ABD’li Temple Smith ve Michael Waterman’ın 1981’de önerdiği varyasyon, başlangıç noktasına uygulanılan cezayı ilk sütun ve satırı sıfırlar Canlı Makak Ked Tavşan Köpek İnek Bal na Karga T msah Kurbağa Palyaço balığı Tablo 4 la doldurarak kaldırıyor. Sonra tabloyu yine yukarıdaki kurala göre dolduruyor, her aşamada olabilecek en iyi skoru ve hangi senaryoyla elde edildiğini kaydediyoruz. Bu yeni yaklaşımla oluşturulmuş Tablo 3’te, hizalamaya sağ alt köşe yerine en yüksek değerli hücreden (6) başlayarak bitiş noktalarındaki farklılığa uygulanan cezayı da kaldırıyoruz. Bu kuralı 0’a varana kadar takip ederek eşleşen nükleotitleri listeliyoruz. Hâlâ bir sorun var: Bu dinamik programlama yaklaşımları ile genomlar kadar büyük veri setlerinde arama yapmak çok büyük hesap tabloları oluşturmak demek. Bu büyüklükteki verileri geçici de olsa saklamak terabaytlarca yer kaplar ve tüm hücreleri hesaplamak da saatler sürerdi. Üstelik her hücredeki hesaplama öncekilere bağlı olduğundan çok çekirdekli bir sistem ile bu hesaplamaları eşzamanlı olarak da yapamayız; hepsini sırayla çözmek zorundayız. l Hizalama sunucusu Kullanıcıların elinde çok farklı ara Benzerl k (%) 98 97 96 95 93 92 88 87 84 81 nacak diziler de olsa, bunları aradıkları veri tabanı aşağı yukarı aynı: Bilinen genler ve proteinler. Bu yüzden veri tabanını bir defaya mahsus işleyerek hızlı aranabilir hale getirirsek tüm hizalama taleplerini de hızla yanıtlayabiliriz. Bu amaçla bilinen her DNA ya da protein dizisini çok kısa parçalara bölüyor ve yukarıda belirlediğimiz ödülceza sistemine göre önemsiz bulduklarımızı eliyoruz. Sonra kalan listeyi, çok hızlı aranabilme özelliği olan bir formda bilgisayara kaydediyoruz. Aranacak bir dizilim verildiğinde, onu da aynı şekilde küçük parçalara bölüp bunları kayıtlı dosyada hızla arayarak elimizdeki yeni dizilimin genomdaki beklenen yerini buluyoruz. Bu sayede de sadece tespit ettiğimiz bu alana odaklı bir hizalama yapmakla yetinebiliyoruz. 1990 yılında ABD Ulusal Sağlık Enstitüsü’nde (NIH) geliştirilen BLAST adlı bu algoritma, sadece birkaç saniyede sonuç vermesi nedeniyle oldukça popüler. Bu kadar matematikten sonra iyi bir haberim var: Amerikan Ulusal Biyoteknolojik Bilgi Merkezi (NCBI) bu algoritma ile halka açık bir arama motoru oluşturmuş. blast.ncbi.nlm.nih. gov adresinden merak edilen herhangi bir DNA, RNA veya proteinin benzerlerine bir tık ile ulaşılabiliyor. Örneğin, gözünüzün ışığa duyarlılığını sağlayan rhodopsin proteinini seçelim. Proteinin kayıt numarasını (AAC31763) arama motorundaki kutucuğa yazmak, dizilimi benzeyen diğer proteinleri aramak için yeterli. Evrimsel benzerliğimizi çıplak gözle bile gözlemleyebildiğimiz şempanzelerin benzer fotoreseptörlere sahip olmasını zaten bekliyoruz; bulgularımız ise sadece memelilerle sınırlı değil, Tablo 4’te görüldüğü gibi tüm omurgalıları kapsıyor. lTesadüf mü, evrim mi? Primatlar köpekgillere, memeliler ise sürüngen ve kuşlara nazaran insanınkine daha benzer görme proteinlerine sahip. Yani bir bakıma eski biyoloji kitaplarındaki evrim ağacını doğrulamış olduk. Peki, bulduğumuz bu benzerlikler evrimsel bir akrabalığa işaret etmek yerine tamamen şans eseri olamaz mı? Olabilir! Çünkü hayvan genomları oldukça uzun, örneğin insan genomu 3 milyar bazdan oluşuyor. Bu da aranan nükleotit kombinasyonlarının kromozomlardan birinin bir yerinde bulunabileceği demek. Gel gelelim, tespit edilen benzer bölümün uzunluğu arttıkça, bu eşleşmenin rastlantısal olarak bulunma olasılığı da hızla düşüyor. Dört nükleotit 1/4 olasılıkla rastgele dağılmış olsaydı, n nükleotit uzunluğundaki herhangi bir motifin bulunma olasılığı (1/4)n olacaktı. Bu da 5, 10, 20 bazlık motiflerin karşımıza binde, milyonda ve trilyonda bir kez görülmesi demek. Yani kısa eşleşmeler önemsizken yüzlerce bazdan oluşan genler arası benzerliği, özellikle de birçok canlı türü arasında böyle bir ilişkinin varlığını rastlantıyla açıklamak akıl kârı değil. İstatistiksel jargonda sorumuz “en az gözlediğimiz kadar beklenmedik bir sonuç almanın sadece şans eseri gerçekleşme olasılığının” ne olduğu. İşte sonuç sayfasında gösterilen “Edeğeri”, veri tabanında bu uzunlukta parçalar arandığında, en az bu skoru verecek kaç rastlantısal eşleşme beklendiğini söylüyor. Kayda değer bulguların Edeğerleri düşük olmalı. Nitekim rhodopsinin ilk 100 aminoasidini aradığımızda Edeğerleri 1060 civarında, yani Milli Piyango’da 10 kere büyük ikramiye kazanma olasılığınız kadar. Proteinin tümünü kullanırsak 0 görüyoruz, çünkü bu sayı bilgisayarın hesaplayamayacağı kadar düşük. Benzer bir sorgulamayı başka proteinler için de yapabiliriz: Hücre iskeletinde yer alan aktin (NP001091), DNA’nın hücre çekirdeğine sığmasını sağlayan histonlar (NP003486) veya glikozun hücrede yıkımını başlatan heksokinaz enzimi (NP001309294) ilginç seçimler olabilir. Evrimsel bir bağlantı olmayıp tüm benzerliklerin bağımsız tesadüfler olması durumunda bu olasılıkları çarpmamız gerektiğini hatırlatmak isterim. n