Katalog
Yayınlar
- Anneler Günü
- Atatürk Kitapları
- Babalar Günü
- Bilgisayar
- Bilim Teknik
- Cumhuriyet
- Cumhuriyet 19 Mayıs
- Cumhuriyet 23 Nisan
- Cumhuriyet Akademi
- Cumhuriyet Akdeniz
- Cumhuriyet Alışveriş
- Cumhuriyet Almanya
- Cumhuriyet Anadolu
- Cumhuriyet Ankara
- Cumhuriyet Büyük Taaruz
- Cumhuriyet Cumartesi
- Cumhuriyet Çevre
- Cumhuriyet Ege
- Cumhuriyet Eğitim
- Cumhuriyet Emlak
- Cumhuriyet Enerji
- Cumhuriyet Festival
- Cumhuriyet Gezi
- Cumhuriyet Gurme
- Cumhuriyet Haftasonu
- Cumhuriyet İzmir
- Cumhuriyet Le Monde Diplomatique
- Cumhuriyet Marmara
- Cumhuriyet Okulöncesi alışveriş
- Cumhuriyet Oto
- Cumhuriyet Özel Ekler
- Cumhuriyet Pazar
- Cumhuriyet Sağlıklı Beslenme
- Cumhuriyet Sokak
- Cumhuriyet Spor
- Cumhuriyet Strateji
- Cumhuriyet Tarım
- Cumhuriyet Yılbaşı
- Çerçeve Eki
- Çocuk Kitap
- Dergi Eki
- Ekonomi Eki
- Eskişehir
- Evleniyoruz
- Güney Dogu
- Kitap Eki
- Özel Ekler
- Özel Okullar
- Sevgililer Günü
- Siyaset Eki
- Sürdürülebilir yaşam
- Turizm Eki
- Yerel Yönetimler
Yıllar
Günler
Abonelerimiz Orijinal Sayfayı Giriş Yapıp Okuyabilir
Üye Olup Tüm Arşivi Okumak İstiyorum
Sayfayı Satın Almak İstiyorum
14 Akademi 27 Eylül 2017 Çarşamba Nasıl yapılır: Hizaya sokmak Tunç Kayıkçıoğlu Genomları çok düşük maliyetlerle ve sadece birkaç günde dizileyebilen yeni teknolojiler sayesinde türler arası benzerlikler üzerine yapılan araştırmaların çoğu artık DNA ve proteinlerin kıyaslanmasına dayanıyor. Peki, bu uzun polimerlerin benzerliklerini nasıl buluyoruz? Yeni doğan bebeğin annesine mi babasına mı benzediği konusunda bile görüş ayrılığı olduğunu düşünürsek, objektif bir karşılaştırmayı resimlere bakarak yapamayız; matematiksel bir altyapı kullanmamız gerekir. Müfredattaki değişiklikler sonrası bu soruların artık okullarda sorulamayacağı ve Wikipedia gibi bir bilgi kaynağına da erişiminizin engellendiği gerçeklerini unutup bu hizalama problemini anlamaya çalışacağız. Daha sonra da güncel gereçlerden bahsedip büyük veri tabanlarında biraz gezineceğiz. l Denemeyanılma DNA art arda sıralanmış A, C, T ve G nükleotitlerinden oluşan uzun bir yazı. Dolayısıyla iki DNA’nın benzerliğini iki dizideki nükleotitleri sırayla karşılaştırınca kaçının farklı çıktığıyla ölçmeye çalışabiliriz. Örneğin, ATCGATCG ve ATCGTCGA arasında 4 baz uyuşmazlığı var: 5, 6, 7 ve 8. bazlar birbirinden farklı, bu yüzden aralarındaki uzaklık da 4. Buna matematikte Hamming uzaklığı deniyor. Fakat önemli bir sorunumuz var: Bir baz silinir veya araya yeni biri eklenirse takip eden tüm bölümleri tamamen farklıymış gibi değerlendiriyoruz. Halbuki eklenme/silinme mutasyonlarına canlılarda hiç de ender rastlanmadığı gibi, dizileme ünitelerinin de nükleotitlerin atlanmasına veya çift kaydedilmesine yol açan belli bir hata payı var. Dolayısıyla olası kayma senaryolarını da hesaba katmalı, bunlardan en düşük uzaklığı veren senaryoyu almalıyız. Nitekim yukarıdaki örnek çifti arasındaki uzaklık sadece 2 mutasyon olmalıydı: ATCGATCGATCGTCGA A TC 0 1 2 3 A 1 T 2 X C 3 G 4 T 5 C 6 G 7 A 8 Tablo 1 l Eşleme tablosu Olası tüm kaydırma senaryolarını bilgisayarla tek tek test ederek çok kısa örnekler belki hizalanabilir. Kromozomlar bir yana, genleri bile süperbilgisayar kullansak da eşleştiremezdik. Çünkü olası eşleşme senaryolarının sayısı, baz sayısından çok daha hızlı artıyor. Biyoinformatikçilerin çözümlerinden biri, her bazı eşlemeye karar verirken sadece o noktaya kadarki en iyi senaryoyu tutmak, diğerlerini ise sistematik olarak göz ardı etmek. Zor bir sorunun bütünü için ideal çözümü doğrudan aramak yerine, baş edilebilir alt sorucukların çözümlerini kullanan bu yaklaşıma “dinamik programlama” deniyor. Bu yönteme dayanan algoritmalardan biri 1970 yılında ABD’den Saul Needleman ve Christian Wunsch tarafından önerilmiş. Öncelikle eşleşmenin kalitesini yansıtan bir puan sistemi belirlemeliyiz. Örnek olarak her uyumlu baza +1 puan ödül; her uyumsuz baza veya bir kayma dolayısıyla eşleştiremeden bıraktığımız boşluklara ise 1 ceza puanı verelim. İkinci olarak her ikisi de 8 bazlı örneklerimiz için 10 sütun ve satırlı bir tablo oluşturuyor, DNA dizilerini baş hanelere yazıyor ve sol üst köşeye de 0 koyuyoruz. Bu tablonun her satır ve sütunundaki sayı, başlangıçtan o noktaya kadarki DNA parçalarının olabilecek en yüksek hizalanma skorunu temsil ediyor. Örneğin, 3. satır ve 4. sütun (X), AT ile ATC’nin en iyi hizalanmasıyla ilintili; ilk satır ve sütun da birinci dizinin ilk bazının diğerinin neresinde başladığını gösteriyor. Başlangıçta kalan bu boşluğu ilk satır ve sütunu Tablo 1’deki gibi boşluk ceza pua GA T C G 4 5 6 7 8 nının katları ile doldurarak cezalandırmalıyız. Tablonun kalanını sol üst köşeden başlayıp satır satır doldururken her hücre için şu üç senaryoyu ayrı ayrı değerlendiriyoruz: a) Karşılıklı yerleşme Sol üst çaprazdaki sayıyı alıyoruz. Eğer ilgili satır ve sütundaki bazlar aynı ise doğruluk ödülünü ekliyoruz, yanlış ise de hata ceza puanını bu sayıdan çıkarıyoruz. b) Eksik baz Soldaki dizide kaza eseri bir nükleotitin eksik olabileceğini düşünüyor ve bir haneyi eşleştirmeden atlıyoruz. Bunun için de sol komşudaki skordan boşluk ceza puanını çıkarıyoruz. c) Fazlalık baz Soldaki dizide yataydakinde karşılığı olmayan bir fazlalık olduğunu varsayıyoruz. Eşleştirmede yine bir atlamaya sebep olduğumuzdan, üst komşudaki skordan boşluk ceza puanını çıkarıyoruz. Bu üç senaryonun üçü de teorik olarak olası. Fakat 64 hücreli bu tablonun her hücresinde 3 senaryo olduğundan, uzaklık hesabını sona bırakırsak toplamda 364 kıyaslama gerekirdi ve çözemezdik. Onun yerine her basamakta sadece en uyumlu senaryoyu, yani yukarıdaki üç olasılıktan en yüksek skoru vereni tablonun ilgili kutucuğuna kaydediyor, diğer ikisini ise unutuyoruz. Tabloyu her dolduruşta ayrıca hangi senaryoyu kullandığımızı da not ediyoruz ki biz bunu renk koduyla ifade ettik. Altı çizili kutularda olduğu gibi, birden fazla senaryonun aynı skoru vermesi durumunda herhangi bir senaryo geçerli bir çözüm. Son hali Tablo 2’deki gibi olan tablonun sağ alt köşesinde gördüğünüz sayı (5) tüm bazların eşleş ?KİMDİR Tunç Kayıkçıoğlu, Boğaziçi Üniversitesi mezunu. ABD’de Johns Hopkins Üniversitesi’nde biyofizik üzerine doktora yapıyor. mesini hesaba kattıktan sonra bulabildiğimiz en yüksek skor, bu da iki DNA’nın birbirine ne kadar benzer olduğu ile orantılı. Bu skoru veren eşleştirme senaryosunu bulmak içinse renk kodunu kullanıyoruz. Sağ alt köşeden başlıyor ve bir sonraki adımda rengin karşılık geldiği yöndeki kutuya sol üst köşeye varana kadar ilerliyoruz. Bu kuralla oluşturulmuş sarı yoldaki baz çiftleri, olabilecek en iyi eşleşme senaryosunu veriyor. l Proteinler? Dört farklı nükleotit yerine 20 farklı aminoasitten oluşan bir alfabe kullanarak bu hizalama yöntemini proteinler için de kullanabiliriz; fakat ödül/ ceza parametrelerini daha sistematik olarak seçmeliyiz. Çünkü aminoasitler gerek elektrik yükleri gerekse boyutları bakımından farklı özelliklere sahip. Bambaşka kimyasal özelliklere sahip bir aminoaside dönüşüm, üretilen proteinin fonksiyonu üzerinde olumsuz etkilere sahipken türlerin evrimleşmesi sırasında kazayla oluşmuş bazı etkisiz değişimler tolere edilmiş olabilir. Çoban salatası, sivri biberin çarliston biber ile değiştirilmesini kaldırabilir, ama biber yerine şeftali doğrayamayız. Dolayısıyla kimyasal özellikleri bambaşka aminoasitler arası eşleşmelere uygulanan ceza daha yüksek olmalı. Ayrıca ender bulunan aminoasitlerin eşlemelerine çok daha yüksek ödül puanı vermeliyiz. Bir yemekte tuz bulunmasına dayanarak hangi yemek olduğunu söyleyemeyiz, ama asma yaprağı tespit edersek olsa olsa bu sarmadır. l Uzun DNA’lar Şimdiye kadar kullandığımız örneklerde hizalamaya çalıştığımız her iki DNA dizisi de kısa ve eşit uzunluktaydı. Sonuçta bulduğumuz skor da >>