X.NR-MS研究のための情報計算資源 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
2008.9.2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
5.1 情報計算資源とは何か? このサイトの姉妹サイトである「情報計算学的な課題の提示」のところでも述べているように、ヒトゲノムが解読されてより、米国ではNIHが中心となって、ゲノムの成果とITの進歩を、医療の重要問題の解決に結びつけようとする動きが顕著になってきている。その米国で最初に取り上げられたのはがんである。米国では、 (1)ゲノム解読とそれに随伴する研究や技術から生み出される大量データを扱える情報計算環境の整備 (2)研究組織に加わる、生物医学の大量データを扱える情報技術者と統計解析の専門家の養成 (3)実験研究者と理論や計算の研究者の双方が、遠隔地にいながら協力できるような情報計算のネットワークの整備 がプロジェクトとして行われている。 我々が提唱するNR-MS計画でも、こうした研究情報計算基盤の構築を目標にしている。そこでは当然、独自のソフトウエアやシステムや情報ネットワークの構築も視野に入れているが、現在はそれらのための予算がほとんどない。そこで最初の段階として、核内受容体と生活習慣病、および関連疾患の研究を支援する既存の情報計算資源を以下に紹介する。ただし、国家予算が投じられているサイトの内容は多岐にわたっており、専門的、個別的なサイトと同列に扱うことはできない。また、関連するサイトの数は膨大であり、常に変化している。 以下ではNR-MS計画の理念を理解してもらうのに適当なサイトをまず紹介する。それらの区分は、便宜的なものであり、重複がある。また、実際に研究では、さまざまな情報計算資源を組み合わせて対処することになる。 なお、問題領域によっては、まだ情報計算資源が整備されていないことも少なくない。これらは情報計算としての新しい挑戦課題である。こうした状況の場合は、データベース解析技法ではなく、論文を紹介することにする。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||
5.2 核内受容体の研究の支援 5.2.1 核内受容体研究情報資源 以下は核内受容体に特化した情報提供サイトである。 ・NURSA http://www.nursa.org/index.cfm ・NucleaRDB http://www.receptors.org/NR/ ・NuReBase http://www.ens-lyon.fr/LBMC/laudet/nurebase/nurebase.html ・NRR http://nrr.georgetown.edu/nrr/nrr1.html NURSA (the Nuclear Receptor Signaling Atlas)は、Ronald Evans, David Mangelsdorf ら核内受容体の著名な研究者らが組織しているNR関連の分子信号の経路地図づくりを目的として2002年8月に発足したconsortiumで、NIH傘下の複数の研究所、National Institute of Diabetes and Digestive & Kidney diseases (NIDDK), National Heart Lung and Blood Institute (NHLBI) and National Institute of Environmental Health Sciences (NIEHS)の財務的な支援を受けている。すでに第1期の5年が過ぎ、第2期 (2007-2012) に入っている。学会としては、The Endocrine Societyと連係している。第1期の研究は、Genomic and Metabolic Profiling of Orphan Nuclear Receptors、Proteomic Profiling of Corepressorsなど、脂質代謝に関わるかつてOrphan Receptorと呼ばれた核内受容体群の研究が行われ、その成果がデータベースづくりに反映されている。サイトの開発にはBioinfomraticsの専門家が参加している。Nuclear Receptor Signalingという、無料で閲覧できるオンラインの学術誌も刊行している。 NucleaRDBは、核内受容体の配列や構造に関する2次的なデータを提供しているサイトで、入門的、教育的な価値があるが、すでに2005年4月で更新が中止されている。 NuReBaseは、核内受容体の命名に関わる研究者に会合組織を基盤として、NRに関する情報をデータベース的に提供し始めたサイトであるが、最近の研究報告は乏しい。一時世界的な問題となった、内分泌かく乱物質Endocrine Disruptorsに関するリンク集も含まれている。 NRR (The Nuclear Receptor Resource) は、ステロイドとサイロイドホルモンに関する個別のデータベースを集めたもので、配列および構造データやグラフィックス、試薬や抗体などの情報をあり、入門的、教育的であるが、データは古い。 5.2.2 NRのComparative Genomics さまざまな生物のゲノムデータが蓄積されてくると、当然、それらを横断的に比較した研究が可能になってくる。核内受容体の場合、後生動物に特有の転写因子という視点から、そうした動物のゲノムが解読されるごとに、新しいデータを加えての比較分析が可能になる。こうした比較研究は、多細胞動物の祖先生物と考えられる単細胞の真核生物のゲノムが解読された場合にも、可能である。これらの単細胞生物のゲノムをしらべてみると、それらの生物の生涯では役に立っていない、多細胞動物に特徴的な遺伝子やタンパク質があることがわかってきている。このことは、転写因子と同時に転写の共役因子についても言えることであり、タンパク質同士の依存的な関係が進化の過程でどう保存され、どのように(共)進化してきたかをしらべることを可能にする。こうした比較ゲノム学の延長線上に、NR Superfamilyの起源と進化や、細胞の分化に関係する遺伝子調節機能の進化の問題を考えることができる。こうした研究は、これから盛んになってくるであろう。 5.2.3 NR Binding Site & Target Genesの探索 転写因子の標的遺伝子を網羅的に探索することは、ゲノム解読後のゲノム学の大きな挑戦課題である。この問題は、遺伝子発現の引き金になる転写因子のDNA配列への選択的な結合を網羅的にしらべることと、一つ転写因子あるいはリガンドにより、どれだけの(標的)遺伝子の発現が誘発されるかを探索するという、2つの課題に分解される。前者はChIP-chip、次世代シークエンサーを駆使したような実験技法の進歩で、ようやく研究が進むようになってきた。しかし、いずれも実験的な方法だけでは不十分でBioinformaitics的な予測技法も使われている。 5.2.3.1 Promoter database, Promoter Prediction TRANSFAC
5.2.3.2 標的遺伝子の予測Prediction of Target Genes
5.2.4 核内受容体の標的遺伝子と薬物代謝酵素 NR Target Genes/Drug Metabolic Enzymes 薬物代謝酵素Drug Metabolic Enzymes(DME)は、体の中の薬の動態ADMEに関与している。それらはPhase I, II and IIIに分類される。Phase Iはチトクロームcytochromes P450(CYP)であり、Phase IIは抱合酵素、Phase IIIはトランスポータTransporterである。これらの酵素の多くが核内受容体とその類縁転写因子であるAhR, Nrf2によって誘導される。AhRはCYP1A1を、Nrf2は抱合酵素類を誘導するが、核内受容体は薬物酵素の多くを誘導する。このうちCYPは、薬の効き方に関係する臨床薬理上注意すべき酵素としてよく知られている(Nebert02)。CYPをコードするヒトの遺伝子は57あり、その変異は薬への応答の個人差の原因になるとして、Pharmacogenomicsの立場から網羅的にしらべられている。しかし、DME遺伝子の多くが核内受容体、とくにOrphanと呼ばれていた受容体であることがわかってきたのは、比較的最近、2000年以後のことである(Handschin03、Handschin05)。 CYPは薬物相互作用にも関与している(Tang05)。 薬物代謝酵素のすべてを網羅的にしらべることは、核内受容体の研究から言えば、転写因子である核内受容体の標的遺伝子とその産物、さらにそれらの機能を網羅的にしらべることになる。また、薬理学的な立場から言えば、薬物代謝酵素を探索して、その遺伝子発現やSNPのような遺伝的な変異を網羅的にしらべることを意味する(Xu05)。さらにこのような後生動物特有の転写機構を網羅的にしらべることは、後生動物の進化と環境への適用を考える、比較ゲノム学の課題となる(Nelson03)。すでに上の一般論のところで述べたように、この課題に挑戦するにはBioinformaticsからの協力も不可欠である(Podvinec06)。 薬物代謝酵素の問題は、化学物質の毒性問題と表裏の関係にある。なぜなら、これらの酵素群の知見は、そのまま毒性評価法の基盤となるからである(Mattes04)。したがって薬物代謝酵素の包括的なデータベースは薬理学、薬物動態学の基盤となるだけでなく、毒性学の基盤ともなる情報計算資源であると言うことができる。米国ではそうした基盤知識を整備しようというCEBSのような計画がある。こうした知識基盤は、これまでのADMEデータベースの概念を拡張したものと言うことができる。
5.2.5 NR Transcriptional Network Yeast Two-hybridのような高速HighthroghputなProtein-Protein相互作用解析が可能となって、タンパク質相互作用のネットワークを網羅的に解析する、実験と計算の双方を動員した研究が盛んになってきた。同じように、遺伝子発現(調節)ネットワークGene Regulatory Networkを網羅的にしらべる研究も現実的な課題になってきている。自然な状態については、長年ウニを使った発生研究を進めてきたDavidsonらが、発生の初期にこうした遺伝子発現連鎖のネットワークがどのように形成されるかを解明し始めている(Davidson01, Levine05)。 最近、核内受容体の転写連鎖のネットワークに関するかなり網羅的な研究が発表された(Kininis08)。これによれば、NRへのリガンドが結合することによって発現する遺伝子のうち、直接転写されるものは、全体の一部だということである。すなわち、NRの影響は、転写の連鎖の形をとることがわかってきた。哺乳類のNRに関するこうした知見が、他の後生動物でどうなるのかは、比較ゲノム学の興味深い課題であろう。また、Bioinformaticsの立場から転写機構を解析する場合、Epigeneticな現象をどう扱うかが新しい問題であろう。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
5.3 一般的な情報計算資源 5.3.1 Genes/Genomes 生物医学研究のための情報計算資源を提供している機関の中でも最も一般的な性格を備えているのは、NCBIである。多くの研究機関で分散的に解読されている多様なゲノムデータを最も効率的に閲覧できるのは、Genome Browser機能を備えたUCSCとEnsemblが提供しているシステムである。Wellcome Trustもゲノム情報を提供している。
5.3.2 Genetic/Genomic Variation Data Human Genetic Variation: An NIH Curriculum Supplement A creative, inquiry-based instruction program, designed to promote active learning and stimulate student interest in medical topics SNPs: A Science Primer An introduction to single nucleotide polymorphisms, provided by the National Center for Biotechnology Information Single Nucleotid Polymorphisms(SNPs、一塩基多型)とは、ある塩基がある集団におけて数%程度(1%あるいは5%)違っている変化である。およそ1kbに1個の割合で存在すると推定すると、ヒトの30億塩基のゲノムでは、30万塩基で変化が見られると推定される。製薬企業GSK1997/8年に、こうした変化のデータ収集のためのConsortiumの結成を呼びかけた。 SNPedia A web site for sharing information about the effects of DNA variations on traits and disease. Copy Number Variation CNV: Copy Number Variationのデータが蓄積され、SNPsとともに、DNA塩基配列の多様性の指標として、遺伝学、疾患の理解、集団の遺伝的な特性把握などに重要であると考えられるようになった。
International HapMap Project A multi-country effort to identify and catalog genetic similarities and differences in human beings. HapMap計画
HapMap計画の成果の利用
5.3.3 Genotype-Phenotype Database NCBI Genes and Disease (www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=gnd&ref=sidebar) OMIM-Online Mendelian Inheritance in Man http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gap) NLM/NIH は genome wide association (GWA) studies のデータを収集、提供するためのデータベース構築に着手した。The database of Genotype and Phenotype (dbGaP) was developed to archive and distribute the results of studies that have investigated the interaction of genotype and phenotype. Such studies include genome-wide association studies, medical sequencing, molecular diagnostic assays, as well as association between genotype and non-clinical traits. The advent of high-throughput, cost-effective methods for genotyping and sequencing has provided powerful tools that allow for the generation of the massive amount of genotypic data required to make these analyses possible. 現在提供中のデータベース - the Age-Related Eye Diseases Study (AREDS) - Parkinsonism Study いわゆるCommon Diseaseの原因遺伝子のデータベースについては、がんと肥満ではまとめられているが、その他の疾患はまだのようである。 Caner Gene Census (www.sanger.ac.uk/genetics/CGP/Census) The Human Obesity Gene Map (obesitygene.pbrc.edu/) Genome Medicine Database of Japan (GeMDBJ) (gemdbj.nibio.go.jp/dgdb/SearchDisease.do;jsessionid=3D230E26A79BB4B49834962B6E4D496A) Genetic Association Information Network (GAIN) A public-private partnership that aims to understand the genetic factors influencing risk for complex diseases. |
||||||||||||||||||||||||||||||||||||||||||||||||||||
5.4 Protein
5.5 Carbohydrate, Sugar, Lipid Carbohydrate Glycoconjugate Data Bank http://www.glycostructures.jp/index/documents Sugar 糖鎖関連遺伝子データベース(GGDB)http://riodb.ibase.aist.go.jp/rcmg/ggdb/ Lipid LIPID MAP - Metabolites And Pathways Strategy Consortium http://www.lipidmaps.org このサイトは、NIH/NIGM(National Institute of General Medicine)に支援されたMetabolites And Pathways Strategy Consortiumによって構築されているlipidについても統合的な情報計算資源であり、脂質代謝物lipid metabolitesについてのあらゆる情報を網羅することをめざしている。これには脂質分子の名称、構造、標準脂質、脂質代謝の経路、分析装置、分析ソフトウエア、論文などが閲覧できるようになっている。 The GOLD.db https://gold.tugraz.at/ The GOLD.db was developed to address the need to integrate disparate information on the function and properties of genes and their protein products that are particularly relevant to the biology, diagnosis management, treatment, and prevention of lipid-associated disorders including non-insulin dependent diabetes, various hyperlipidemias, high blood pressure and atherosclerosis. |
||||||||||||||||||||||||||||||||||||||||||||||||||||
5.6 Omicsデータの解析と解釈のための情報計算資源Omics Data Analysis 核内受容体の研究でも、メタボリック症候群の研究でも、 いまやDNAチップやマイクロアレイMicroarrayを使ったTrancriptome解析や、プロテオミックスProteomics、メタボロミックスMetabolomicsが広く使われている。そうした実験で生成されるデータは膨大で、人手による扱いはもちろん、解釈でさえ計算機に頼らざるをえない状況になっている。そのために、そうしたデータの収集、解析、蓄積などのためのソフトウエアやパケージ・ソフトが多数開発されており、それらを使いこなすBioinformaticsの専門家も増えている。なお、このサイトの情報は、2005-2006年頃のものであり、新しい情報によって更新する予定である。 データ解析の全体構造 Omicsデータの解析に限らず、一般に科学的なデータ解析のための情報計算資源の区分と相互関係は、下記の図で表現できる。以下では、この区分にしたがって、情報計算資源を紹介する。したがって、一般にOmicsと呼ばれるDNAチップあるいはマイクロアレイデータ解析でも、Proteomicsでも、あるいはMetabolomicsでも、その処理は、統計解析の視点から見ると共通したところが多い。 5.6.2 代表的な解析ツール 5.6.3 オミックスデータの入手 5.6.3.1 Omics Data Repository site オミックスのデータは再現性に乏しいこと、解析よりも解釈が難しいことなどから、相互に比較して結果を検証する必要があることが広く認識されるようになってきた。これに伴い、オミックスデータをインターネット上の公開サイトに寄託Repositoryする試みが始まっている。このようなデータが公開されれば、実験家だけでなく、Algorithmの開発関心のある理論や計算の専門家にも有用な資料となる。こうした試みが先行しているのはMicroarrayであり、次に議論がされたのがProteomicsであり、多少遅れ気味なのがMetabolomicsである。 5.6.3.2 Microarray data 5.6.3.2.1 Microarray dataの寄託サイト案内 マイクロアレイデータの寄託サイトはすでに多数あるが、下記はそれらの案内サイトである。 ・Public Microarray Database and Gene Expression Database http://ihome.cuhk.edu.hk/~b400559/arraysoft_public.html#Definition%20of%20public%20microarray 特定の疾患領域ごとにデータを集めているサイトもある。もっとも多いのはがんであるが、他の疾患もある。 ・CardioGenomics : FVB benchmark data set for cardic deveropment, maturation, and aging : http://cardiogenomics.med.harvard.edu/home 研究論文によっては、元データが見られるものもある。こうした論文は教育的である。
5.6.3.2.2 マイクロアレイデータベースの例 これも多数あるが、以下のその例である。
5.6.3.3 Proteomicsのデータ登録システム これに関しては、総合的な案内サイトではないが、下記が参考になる。
5.6.3.4 Metabolomicsデータの登録
5.6.4 入手したデータの前処理と蓄積 公開サイトから入手したデータはそのままでは自らの解析や解釈に使えない。まず、自らの環境で扱えるように加工(前処理)を施す必要がある。この処理は、実験データがどのように記録されたかということと関係しているため、実験系に依存することなる。例えば、Affymetrix社のOligochipを使った実験データの場合には、同社特有のChip構築法(Probeの並べ方など)と統計的な処理方式に依存した前処理方式が専用のソフトとして用意されている。 前処理したデータは、標準的な形式(例えばEXCELL)のファイルや、データベース(例えばMySQL)などとして蓄積される。 5.6.5 普遍的な統計、データ解析技法 Omicsデータの解析には、統計学やパターン認識やデータ解析など、普遍的な思考支援技法としてすでに開発されている標準的な手法が多数使われている。これらは統計的な検定手法、パターン認識の特徴抽出や情報縮約法、クラスタリング、データマイニング Data Miningなどの技法である。これらの技法はとくに生物医学を目標として開発されたものでなく、さまざまな分野に応用されている。それゆえ、多くの技法は、統計やデータ解析、パターン認識の分野でよく知られたパケージ、SAS, S(最近はR)などに組み込まれている。Bio Conductorは、そのRを基礎にオミックスデータ解析のための開発された専用ソフトウエアで、無料で使える上に使い勝手がよく、更新もよく行われていることから、人気が高い。
技法に関するTutorial 以下は、上記の技法についての入門的な解説サイトや論文の例である。
5.6.6 専門領域の参照知識 Gene Ontology 解析Analysisにしても解釈Interpretationにしても,必要になるのが、遺伝子やタンパク質、代謝物などの名称、属性、相互関係など、生物医学の基礎的な知識である。とくに参照されるのがGene Ontologyである。 ・PubMed ・Genome Browser ・Locus Link ・Gene Ontology ・M. Ashburner et al., "Gene Ontology: tool for the unification of biology", Nature Genetics 25, 25 - 29, 2000 Pathway/Network 解析から解釈へというのが最近のオミックスデータに関する流れである。この目的で浮上していきたのが、Pathway/Network Modelである。後者に関しては、すでに別の項で紹介しているように、200を越えるデータベースの存在が知られている。よく参照されるのは、BioCarta、EcoCyc/MetaCyc、KEGGなどであるが、広く既存のデータベースを探すためには、案内データベースであるPathDBを参照するとよい。 5.6.7 データ解析 オミックスデータの解析に関しては、最初はSiliconGeneticsなど、商品パケージソフトが知られていたが、最近は無料で利用できる高機能のソフトも出てきた。TIGER MeVやBio Conductorはそうした例である。 5.6.8 Visualization 視覚化Visualization のツールは、多くのデータ解析のソフトウエア・システムに組み込まれている。最近は、OmicsデータをPathway/Network ModelにMappingすることが盛んになってきた。後者に関しては次の項に分類する。 5.6.9 解析と解釈機能を備えたソフト 解釈機能に重点を置く解析技法の基礎は、単一の遺伝子発現を比較するのではなく、複数の遺伝子あるいはある遺伝子の組setに注目することである。これらの組としては、遺伝子同士が位置的に近いとか、(Gene Ontologyの分類で)同じBiological functionを担っているとか、同じPathwayにmappingされる、などの知識に基づき選択される。以下はこれらの技法に関するサイトと論文である。 情報提供サイト 解説論文
5.6.10 自動的な知識を収集するシステム
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
5.7 Pathway/Network
**Protein Lounge Disease Genes Database (www.proteinlounge.com/disease_database.asp) 5.8 Digital Physiology & Pathology 経路網から疾患を理解し、医薬品開発を考える、という視点からすると、Metabolic Syndromeの研究にはさまざまな経路網が関与している。例えば、 Bioenergy Production Pathway in Mitochondria Adipokeine Pathway & Adipogenesis Food intake control in CNS Insulin Signaling & Longevity Pathway Bioenergy sensor-processor system Chemical sensor-processor system Epithelium cell model などに関しては、かなり詳細なPathwayがしらべられている。ただし、これら多くはまだ計算で扱えるような形式には整理されていない。これは焦眉の急と言えるBioinformaticsの課題である。 5.9 Animal Models Metabolic Syndrome関連疾患の研究においても、マウスなど哺乳類以外のモデル動物が使われる。もっともよく使われているのは、線虫C. elegansとショウジョウバエDrosophilaである。この2つのモデル動物は、それぞれ詳しい研究支援情報が整備されている。 modENCODE (Model Organism ENCyclopedia Of DNA Elements) Project http://www.genome.gov/26524507 Project for identification of all functional elements in selected model oganism geomes. C.elegans C.elegans WWW Server http://elegans.swmed.edu/ WormBook http://www.wormbook.org/ Drosophila Fly Base http://flybase.org/ FlyBrain http://flybrain.neurobio.arizona.edu/ 例えば、modENCODEは、ENCODE計画の線虫とショウジョウバエ版である。C.elegans WWW Serverは、線虫の研究コミュニティが提供している基盤知識であり、WormBookは、入門知識Tutoorialや、さらに具体的な実験研究に直結した知識が提供されている。ここにある、 Ashrafi, K. Obesity and the regulation of fat metabolism (March 9, 2007), WormBook, ed. The C. elegans Research Community, WormBook, doi/10.1895/wormbook.1.130.1, http://www.wormbook.org. は、線虫を材料としたMetabolic Syndromeの実験的研究の優れた案内になっている。 こうした無脊椎動物に関するより一般的な情報は下記にある。 Health Sciences Library System http://www.hsls.pitt.edu/guides/genetics/obrc/genomics/non_vertebrates/invertebrates 関連論文
5.10 その他の情報源 CASCADE http://www.cascadenet.org/ 核内受容体に関係した、内分泌ホルモンの健康影響、とくに食物の安全性に関する情報を提供しているサイト。本拠はBurussel。 ライフサイエンスデータベース統合 http://lifesciencedb.jp/MEXT_H18/ 我が国で始まったライフサイエンスの知識を統合する試み。 |