封存 Archive
封存 Archive
科普系列 - 數學與基因排序(四)
- 取得連結
- X
- 電子郵件
- 其他應用程式
所以比較合理的,是我們需要看每一小段DNA頭尾兩到三個元素去進行比較。如果這樣, X連到Y是不合理的。因為在X裏面我們見到他的一端是4-3,可是在Y裏面,有3的一端應該是3-1。所以更合理的,是將X連到Z而得出
1-2-3-4-3-4-1。
然後我們將Y連到哪裏呢?一個合理的猜想,是將它放到最前面,我們就可以用「1-2」這個特徵將它跟X聯合起來。如果我們在「DNA排序」裏面得到X,Y和Z,我們猜想最終的組合將會是
3-1-2-3-4-3-4-1。
上面提到BGI在2011年給我們本科生進行的數學研究項目。由於我們根本不知道這堆DNA小塊來自於多少個不同物種,困難程度比剛剛提到的組合問題更高。如果再用拼圖作為例子,這就好像是我將不同圖案的拼圖混合在一起,再將所有原圖收起來,希望你將所有的拼圖還原一樣。
另外有一年BGI提供給我們同學另外一個非常有挑戰性的項目,裏面希望研究細胞突變跟發生癌症的關係。由於人類基因圖譜的完成,我們可以將病人的DNA排序跟這個基因圖譜的排序比較,看看不同基因位置會不會發生一點變化。從病人身上抽取的DNA會有兩個不同來源,一個是從血液裏面獲得的正常細胞,另外一個是癌細胞裏面組織的DNA。這裏有三個不同DNA排序。從病人身上抽取的DNA,有些位置可能跟基因圖譜有所不同,我們可以判別為自出世的時候從父母身上所獲得的基因突變特徵,叫做生髮突變(Germinal Mutation)。另外有些地方,可以見到從正常細胞的DNA排序跟基因圖譜的排序一樣,癌細胞內出現的DNA排序跟另外兩款不一樣,我們就可知道這個是病人由於癌細胞出現而導致的基因變化,這種突變叫做體細胞突變(Somatic Mutation)。聽起來好像很簡單,我們只需要將三條DNA排序比較就可以把所有體細胞突變的位置通通指出。可是,要記得這裏有30億個地方需要核對,而且在排序過程裏面都有可能發生計算錯誤。如何可以有一個快而且準確的方法解決這個問題就變得不太容易了。
又有一年,他們提供了我們同學一個有趣的項目。話說加拿大安大略省有兩個品種的水蚤(Daphnia pulex and pulicaria)。其中一款生長在Sudbury 附近Simon Lake的品種由於生長在長期受到金屬污染的環境,對重金屬鎘(Cadmium)已經有所適應。另外一個生長在Dorset的品種,由於並沒有接觸過這個污染物,並不能在這個受污染的環境生長。而這個研究項目的目的,就是比對這兩個品種生物的DNA排序,嘗試指出DNA上面那一個部份可以幫助物種對重金屬物質的適應。由於有海量的數據,同學就需要運用不同的數學方法去設計機械學習的程式,幫忙找出在DNA上面相應的位置。
同樣的技術在很多不同的生物科技問題上都可以見到。其中一個就是上文提到的基因測試去判別得到乳癌的機會。如果研究人員可以從DNA身上正確指出那一個部份可以幫助生物適應重金屬環境,研究員就可以運用同樣的技巧去指出DNA那一部份可能會令病人產生癌症。方法是找出好多患上乳癌的病人,然後將他們的基因作比對。如果有某一個基因突變的位置,頻繁出現在不同病人身上,這些地方就很可能跟這個基因疾病有所關連。研究員就可以從無數的基因位置裏面,挑選出少數個位置繼續進行研究。除了乳癌,其他基因相關的疾病,也可以運用同樣的數學或者計算技巧。
- 取得連結
- X
- 電子郵件
- 其他應用程式
留言
發佈留言