C3. 生物資訊中心 Bioinformatics Center

實驗室主持人:楊永正
協同主持人: 劉德明


 

背景及設立緣由

背景資料
設立緣由
現有基礎
具體目標
執行方案
與其他計劃之互動
教學與國際交流
預期結果與成效

 

服務手冊

設置背景與緣由
規劃及特色
申請服務須知

 
 
 
 


背景資料

基因體分析在最開始時是採用由上而下 (top down) 之策略,先將各殖株的相對順序決定出來,再決定每一段的序列。因此世界上不同的定序中心可以根據其能力各自分一段區域慢慢決定其序列。1998 Venter (Venter et al., 1998) 宣佈要採用霰彈槍式的定序方法,在 2001 年就得到基因體序列的初稿,完全打亂了原有的佈局。因為霰彈槍式定序法不但在定序初期的速度快,而且可能會分佈到整個基因體的各部份,過去各定序中心所嚴守之疆界隨之而破。由美國政府支援的計畫立即做了相應的變化 (Collins et al., 1998),也要在 2001 年前完成初稿。
今年三月十九日發行的「Science」期刊 (Pennisi, 1999),報導美國將提供三個最具競爭力的基因體分析中心約八千萬美元之經費,希望在西元兩千年春,也就是約一年之後取得人類基因體的初稿,其總長度應可至少涵蓋人類基因體長度的 90 %,而在 2003 年全部完成。同時美國的癌症基因體分析計畫 (Cancer Genome Anatomy Project) 也繼默克-華盛頓大學表現序列標幟計畫 (Merck-WashU expressed sequence tag  project) 之後,大量產生表現序列標幟序列 (EST)。這兩個計畫雖未完成,目前卻已產生許多有用的資訊。誰能有效利用這些序列資訊,即能在未來生物科技上領先。


設立緣由

生物資訊之特點是它的量大,而且有用的資料是隱藏在許多雜訊之中。要如何管理與分析這大量的資訊,以加速生物與醫學研究,是後基因體世代 (post genomic era) 的重要課題。目前歐美各大藥廠與研究機構,爭相聘用生物資訊人才,顯示生物資訊乃是目前生物科技中重要的一環。
本校蔡世峰教授,劉德明主任,受國科會尖端計畫支援,已開始人類基因體定序。為配合定序計畫,楊永正副教授已開始在做「基因認定」之工作,並尋求更有效率之序列分析方法。此外,楊永正與謝世良副教授目前正在嘗試由 EST 序列資料庫中尋找和 TNF 有關的新基因。蕭廣仁教授與楊永正副教授分別受 NHRI 計畫支援,製作中國人突變資料庫與問題導向序列分析工具網頁 (http://binfo.ym.edu.tw/post/)。 因為在校園中有足夠的人對生物資訊有興趣,目前已成立資訊生物學討論群 (Information biology discussion group),並配合台北地區的生物資訊學活動,擇期舉辦學術活動,使隔週有一次學術活動 (http://binfo.ym.edu.tw/idg/idg_sch.htm)。楊永正副教授與陳文盛教授合開之生物資訊學,本年度亦有 40 多人修課 (http://binfo.ym.edu.tw/binfo/), 將為陽明培育出支援本計畫所需之研究人力。
目前國內各界已體會到生物技術將是 21 世紀的重要產業,而如何由序列資訊中開發寶藏又將是未來生技產業的決勝點。此外,在生物資訊學的技術普及後,未來的生物學可能會是先用序列分析評估策略,再設計實驗解決問題。因此本中心將致力以下三個方向:
1. 建立加值資料庫,加速研究之效率;
2. 尋找新的基因,或建議選用適當的 EST 做微陣列,作為與生技產業之連接點;
3. 開發分析微陣列結果之工具,以選擇最值得分析的基因或建議可能的機制。


現有基礎

為支援基因認定之工作,目前已利用 NFS 將不同之主機串接。不同主機分別擔任計算伺服器、檔案伺服器等功能,使工作能在不同主機上進行,以達最高之效率。目前已協助蔡世峰教授安裝序列組合軟體,更能將所有組合好的序列做第二級分析 (即用 Genotator 軟體將不同之分析結果匯整,以利基因認定)


具體目標

雖然國家高速電算中心與國家衛生院提供一般性的服務,但並不對特別的需求個別服務。以尋找 C. elegans中的重覆序列 (參閱 http://binfo.ym.edu.tw/idg/more_info/mol_medicine.htm) 以了解尋找重覆序列的重要性)為例,即使已利用運算法使計算時間降低為和序列長度成正比,在 2 cpu (2G Ram)UltraSparc 電腦上仍將計算約一個月。而人類基因體是 C.elegans的一百倍,相同的程式必須花約八年。事實上每個月左右,電腦必須重新起動以維持正常的運作,每次重新起動執行中的工作就要重新開始,若不在程式上做特別的處理,這個工作永遠都做不完。因此需求購買大型主機,才能做整個基因體的分析。事實上這主機除做基因體分析外,也將支援分子模擬的計算。若不談美國與歐洲,在日本東京大學的人類基因體分析中心有幾台 128 cpu 的大型主機 (http://www.hgc.ims.u-tokyo.ac.jp/announce/),分別做檔案、計算、資料庫伺服器。而加拿大的病童醫院 (http://www.bioinfo.sickkids.on.ca/) 最近也購買一 64 cpu 的大型主機。國內若沒有充份的計算資源,在生物技術上和國外的落差將逐漸加大。
在分析基因體序列初稿或 EST 序列時,需利用 FrameSearch 等方法檢測序列中的錯誤,否則不易得到有意義的結果。在未平行化的主機上,一個 1 kb 的序列約花 17 小時才能得到結果,可是在平行處理伺服器上只要 2 分鐘,由此可見其重要性。在初期將使用國家衛生院的 BioXL/PBioXL/G,可是這些伺服器也要對其它計劃提供服務,例如中研院植物所的水稻基因體分析計劃等,預期在本計劃第三年時將無法滿足我們的需求。因此在未來四年將需要達到以下的幾個目標:
  1. 建立初步架構,設立中國人突變資料庫伺服器、Blast 伺服器、Annotator 伺服器、運算法的發展伺服器。在第一年中,將在低階的電腦上發展方法,再在第二年將計算量大的工作移到將購買的 SGI 計算伺服器上。
  2. 第二年擴充計算能力, 購買 16 cpu 計算伺服器。
  3. 第三年,加強加值資料庫建置,並引入平行處理伺服器。
  4. 第四年增加資料庫內容,強化網頁介面。
在本計劃的第四年下半,計算資源又將面臨不足的窘境,可能需要未來由陽明或榮總支援另一台計算伺服器。


執行方案

    研究目標

  1. EST 與基因體資訊中找尋新的基因,未來四年內找到 15 (1+2+4+8) 個新的基因 (楊永正、謝世良、趙坤茂)
  2. 支援 S1 建立肝臟研究與研究資源資料庫,整合不同之資訊與資源 (楊永正、劉德明)
  3. 支援 S2 建立中國人突變資料庫 (蕭廣仁)
  4. 支援 S3 發現與老化相關的新基因 (楊永正、謝世良、趙坤茂)
  5. 配合 S5 做發現新藥之工作 (楊永正、許世宜)
    主要設備
  1. 第一年: 四台 UltraSparc workstation (2 cpu)
  2. 第二年:  SGI Origin 2000, 16 cpu
  3. 第三年: 平行處理伺服器 (Compugen Paracel)
  4. 在四年中亦將逐年添購軟體及其它電腦或周邊設備,以充份發揮主機的功能。在本計劃的第四年下半,計算資源又將面臨不足的窘境,可能需要未來由陽明或榮總支援另一台計算伺服器 (SGI Origin 2000, 16 cpu)
    空間
除「運算法的發展伺服器」置於生科系,Blast 伺服器、Annotator 伺服器、與大型印表機置於生化所,個人電腦分置各實驗室外,其它設備都置於本校「資訊與通訊中心」,因此需要修繕兩間電腦室與控制室。此外、為支援「資訊生物學」與「結構生物學」學程,需修繕大、小兩間電腦教室。
    人員
博士後研究員 (合計 8 人年)
  1. 具生物或資訊背景,分析基因體序列、並協調其他計畫,第一年起聘。
  2. 具生物或資訊背景,建立、並確保資料庫正確性,第一年起聘。
  3. 有醫師資格與資料庫製作經驗之講師一名,以協調與醫學相關計畫之協調與資料庫製作,並能支援生物資訊教學,第二年起聘。
助理 (合計 21 人年)
  1. 維護硬體、開發網頁介面壹名,第一年起聘。
  2. 運算法開發壹名,第一年起聘。
  3. 分析自動化壹名,第一年起聘。
  4. EST 序列分析壹名,第一年起聘。
  5. 維護資料庫壹名,第二年起聘。
  6. 開發網頁介面壹名,第三年起聘。
    經費 (單位:百萬)



與其它計劃之互動 (參閱圖 C-8)

    C1 定序中心 (Sequencing center)
    目前最佳的策略應是利用國內所產生的細部圖譜資訊 (例如染色體 4q22-24 ) 與部份序列資訊來填補國外所產序列的空隙,增加序列的品質。因為序列的品質越高就越容易得到可信的分析結果,找到有用的基因。換言之,結合國內、外的資訊,將使我們比國外更容易找出在染色體 4q22-24 附近有趣的基因。生物資訊中心將協助定序中心取得,並組合各定序中心產生的序列。一旦組合完成,即做進一步的基因認定 (gene identificaition)。具體工作項目包括:
    1. 分析基因組定序中心產生之基因體序列 (楊永正)
    2. 分析基因組定序中心產生之 EST 序列 (楊永正)
    3. 將分析結果建立為加值資料庫 (楊永正、劉德明)
    4. 支援基因體定序中心之電腦維護與資料庫更新 (劉德明)
    5. 改進基因體分析之方法 (楊永正、劉德明、趙坤茂)


    C2 基因表現分析中心 (Gene expression analysis center)
    目前製作與使用微陣列 (microarray) 的技術已逐漸成熟,可是分析與解釋微陣列數據卻是最困難之處。因此生物資訊中心將發展分析微陣列數據的方法,協助基因表現分析中心 (楊永正、趙坤茂) 。此外、也將整理生物資訊, 對 C2Scientific program 提供選用適當 EST 做微陣列之建議。

    L1  - L6, L8
    包括 Genotyping labMolecular cytogenetics labMolecular pathology labMouse genetics labAntibody/Phage display labYeast genetics labProtein production lab 等會將產生之資料製入加值資料庫 (楊永正),建立使用者介面 (劉德明)

L7 蛋白質分析實驗室 (Protein analysis lab)
收集並提供有關蛋白體分析所需之工具與資料庫 (楊永正)
教學與國際交流
  1. 加入 EMBNet,引入國外已建立之生物資訊資源 (謝世良、楊永正、劉德明)
  2. 加入 APBioNet 與其它亞洲國家合作 (蕭廣仁、楊永正、劉德明)
  3. 擬邀請數位知名之國際專家做短期訪問以增加交流之機會。例如日本理研 (RIKEN) 生命科學中心生物資訊實驗室主持人 Dr. Sarai 、慶應大學分子生物系突變資料庫整合軟體之負責人 Dr. Minoshima (參閱 http://biochem.ym.edu.tw/jp/)。再如 EMBNet 生物資訊負責人 Dr.    。其中 Dr.Sarai 也願意提供 fellowship,讓優秀之同學赴日作短期研究,甚至博士後研究。所邀請之國外專家可支援「資訊生物學學程」教學;所購設備可供國外專家使用,並支援「資訊生物學學程」教學需求。
  4. 將教學內容編輯出版國內第一本「生物資訊學」的專書 (楊永正、蕭廣仁、趙坤茂)
  5. 維護 POST (Problem-Oriented Sequence analysis Tools) (楊永正)
校園服務
  1. 開放 POST,提供陽明、榮總研究者使用;
  2. 開放加值資料庫,提供陽明、榮總研究者參考;
  3. 自行辦理或與暑期生技課程計劃、國衛院或高速電腦中心合辦各式資訊生物學訓練課程,每年至少壹次。
預期結果與成效
19996 月之前,將蔡教授實驗室產生之基因體序列做 Level 2 分析,選擇其中一個有趣的基因,做 Level 3 之分析,並評估分析方法之效率。計畫中所建議之項目,將為國內建立研究基因體之整套生物資訊學方法與加值資料庫。並利用所發展之方法,加速發現新基因或發現基因功能的速率。所建之加值資料庫將能加速其它生物學者研究之速率。

C-8:生物資訊中心 C3 之常規執行方案及與其他子計畫之互動情形。


設置緣由

世界性的人類基因體分析計畫 (Human Genome Project) 已於 2000 年完成初稿,而將在 2003 年全部完成。同時美國的癌症基因體分析計畫 (Cancer Genome Anatomy Project) 也繼默克表現序列標幟計畫 [Merck expressed sequence tag (EST) project] 之後,大量產生表現序列標幟序列。這兩個計畫雖未完成,目前卻已產生許多有用的資訊。誰能有效利用這些序列資訊,即能在未來生物科技上領先。
基因體研究的特色是以巨量 (high throughput) 分析為手段,達到整體性 (global) 分析的目標。而基因體序列的特徵是序列長、序列數目多,原始資料必須做許多前處理,才能找到相關。因此需要強大的計算能力、自動化分析工具、與使用方便的加值資料庫。建立核心實驗室,協助校內的生物資訊學研究是最有效率的方法。

核心技術簡介
生物資訊學核心實驗室已建立下列技術:

  1. PC 叢集: 增加計算能力。
  2. 資料庫: AceDB (有圖形界面)SRS (可一次搜尋多個資料庫)SQL
  3. 分析工具: 基因體註解 (處理定序核心實驗室所產生的序列資訊)、重複序列分析 (開啟新的研究領域)、圖譜資訊收集 [與基因體定型 (genotyping) 實驗室合作,發展醫學應用]。目前正與基因表現核心實驗室合作,建立分析微陣列 (microarray) 分析所需的資料庫與分析工具。服務相關之研究發展建立加值資料庫,加速生物學研究。請參閱 http://binfo.ym.edu.tw/yang/talks/promote_binfo.htm


規劃及特色

儀器 -- http://binfo.ym.edu.tw/core/comp_power.htm
空間 -- 需電腦室放置 PC 叢集與其它電腦。
人員 -- http://binfo.ym.edu.tw/core/team.htm


申請服務須知

一、服務名稱
  1. 推廣教育: 全國性課程、校內課程 (http://binfo.ym.edu.tw/binfo/)、核心實驗室推廣教育 (http://binfo.ym.edu.tw/core/basic_courses.htm)
  2. 諮詢服務: (http://binfo.ym.edu.tw/idg/)
  3. 資源網頁: 問題導向序列分析工具 (http://binfo.ym.edu.tw/post/)、全球生物資源導航網站 (http://webbio.ym.edu.tw/)
  4. 資料庫: SRS (http://srs.ym.edu.tw/srs5/)、重複序列資料 (http://binfo.ym.edu.tw/rsdb/)YMGC 序列資訊註解 (由核心實驗室網頁進入)
  5. 分析工具: Blast FastA 等。
  6. 鏡相站: AceDB, BioMirror, GeneCards, KEGG 等。
  7. 支援生物資訊學程 (第三分項計畫)
  8. 硬體設備支援 (核心實驗室計算能力之 10-20 %)
  9. 提供研究生修"實習"學分。
  10. 支援其他計算需求,例如「結構基因體學 (structural genomics)」、「基因體定型」研究等需要大量計算的領域。
二、服務須知 三、非常規服務之合作研究
  1. 分析服務 (使用方法參閱使用規則): 包括基因體序列分析、 微陣列數據分析、蛋白質資訊分析。
  2. 技術轉移: 對較成熟的技術,在生物資訊核心實驗室尚未提供使用者介面,或是需求比較特別,不適合提供為一般性服務者,將採用技術轉移的方式。在設備足夠的狀況下,申請人可使用生物資訊核心實驗室之設備做計算。
四、其他注意事項
請撥冗參加說明會與訓練課程。
五、負責教授:楊永正、劉德明。

六、連絡人及連絡方法

王聿泰 (分機 : 5666; E-mail: 參見網頁)
七、技術訓練及推廣活動
將由研究生同學或研究助理開設基礎課程,課程內容、時間、地點將公告於網頁
參考資料:http://binfo.ym.edu.tw/core/ (將隨時提供最新資訊)