封存 Archive
封存 Archive
科普系列 - 數學與基因排序(三)
- 取得連結
- X
- 電子郵件
- 其他應用程式
在2011年科大開始跟UCLA Institute of Applied and Pure Mathematics(IPAM)合作,舉辦了一個本科生暑期研究活動叫做Research in Industrial Projects for Students (RIPS)。每年有大約八名美國不同地方的本科生會跟我們科大找來的八名本地本科生,分成四組去做一些我們找來的公司提供的本科生研究項目。起初頭幾年,我們都也找來華大基因(BGI)提供一些應用數學的項目。這些題目都非常有趣,他們都有着生物科技的「包裝」,內裏都是一些數學問題。我還記得2011年他們提供的問題,就跟剛剛提到的有關。他們提供的問題是這樣子的。在一些沼澤裏面,他們可能採集到不同細菌樣本。裏面有的細菌種類可能有很多,有一些是已知的,有一些可能是新品種,而且裏面有多少不同物種也不清楚。項目的目的,是希望把這些樣本做DNA分析,了解到他們是什麼種類的生物。這個項目的難處有以下兩個,第一,我們根本不清楚樣本裏面有多少不同種類的生物。第二,當我們進行NGS時,我們會將好幾種不一樣的DNA樣本同時進行剪碎以及混合起來。當我們將這些從不同生物裏面得來的DNA小段進行排序,我們如何可以將它們組合會多條完整的DNA排序呢?有興趣了解裏面解決辦法的讀者,可以看一下我們同學最後得出來的研究成果 [3]。我們下面會簡單介紹一下原來NGS將不同DNA小塊組合的想法,然後簡單介紹一下這個本科生研究問題的複雜之處。
簡單的來說,這個從一小段組合邊會整組DNA排序的過程,就跟我們拼湊拼圖的原理是一樣的。我猜想大部份讀者都有組合拼圖的經驗,一份剛開始的拼圖,我們只可以看見每一小塊拼圖上面的圖畫。遊戲目的是將所有不同的小塊組合還原為原本的圖畫。當然,我們在玩拼圖時,我們有一幅完整正確的圖畫去加以比較,幫助我們將不同組件組合在一起。儘管如此,我們在拼圖時就算不看答案,也可以從每一小塊邊緣的形狀測試他們是否能合在一起。
DNA排序過程的原理也差不多。 DNA每一小段的兩端還是有一些特徵的。我們可以(編寫電腦程式,幫助我們)比較不同小段兩端的特徵,看看他們會否能拼合在一起。舉一個很簡單的例子,我現在給你3段數字組合,希望將這3段數字可以連接在一起成為一整段。他們分別是
X: 1-2-3-4-3,
Y: 3-1-2,
Z: 4-3-4-1。
有其中一個可能性,我們會將X跟Y連起來。因為我們看見在X的最後一個數字和Y的第一個數目字一樣,所以我們猜想他們應該有關。可是如果我們單憑一個數目字就將不同「DNA小段」連繫起來,而且很多時候我們就會得到一些錯的答案。第一個原因,在真實DNA排序的應用上,這些12345數字就只有四個,代表着ACGT的DNA組合成份。所以這麼多的小段末端,我們會見到大約有¼是1,¼是2,¼是3,亦都有¼是4。如果只看每一段的末端數字就將不同線段黏合起來,得到的組合就會非常多。亦會組合了很多沒有意義的東西出來。最大的問題,是沒有人說「3就是黏合劑,看見一樣的就黏合起來」。因為我們得到的這些「DNA」小段並不一定都來源於唯一一條DNA。所以當我們將這對DNA隨機剪裁,根本不可能剛好看見一個元素重複出現在兩小段來。
- 取得連結
- X
- 電子郵件
- 其他應用程式
留言
發佈留言