X.NR-MS研究のための情報計算資源
2008.9.2
5.1 情報計算資源とは何か?

 このサイトの姉妹サイトである「情報計算学的な課題の提示」のところでも述べているように、ヒトゲノムが解読されてより、米国ではNIHが中心となって、ゲノムの成果とITの進歩を、医療の重要問題の解決に結びつけようとする動きが顕著になってきている。その米国で最初に取り上げられたのはがんである。米国では、
(1)ゲノム解読とそれに随伴する研究や技術から生み出される大量データを扱える情報計算環境の整備
(2)研究組織に加わる、生物医学の大量データを扱える情報技術者と統計解析の専門家の養成
(3)実験研究者と理論や計算の研究者の双方が、遠隔地にいながら協力できるような情報計算のネットワークの整備
がプロジェクトとして行われている。
 我々が提唱するNR-MS計画でも、こうした研究情報計算基盤の構築を目標にしている。そこでは当然、独自のソフトウエアやシステムや情報ネットワークの構築も視野に入れているが、現在はそれらのための予算がほとんどない。そこで最初の段階として、核内受容体と生活習慣病、および関連疾患の研究を支援する既存の情報計算資源を以下に紹介する。ただし、国家予算が投じられているサイトの内容は多岐にわたっており、専門的、個別的なサイトと同列に扱うことはできない。また、関連するサイトの数は膨大であり、常に変化している。
以下ではNR-MS計画の理念を理解してもらうのに適当なサイトをまず紹介する。それらの区分は、便宜的なものであり、重複がある。また、実際に研究では、さまざまな情報計算資源を組み合わせて対処することになる。
 なお、問題領域によっては、まだ情報計算資源が整備されていないことも少なくない。これらは情報計算としての新しい挑戦課題である。こうした状況の場合は、データベース解析技法ではなく、論文を紹介することにする。

5.2 核内受容体の研究の支援


5.2.1 核内受容体研究情報資源

以下は核内受容体に特化した情報提供サイトである。

・NURSA  http://www.nursa.org/index.cfm
・NucleaRDB   http://www.receptors.org/NR/
・NuReBase http://www.ens-lyon.fr/LBMC/laudet/nurebase/nurebase.html
・NRR http://nrr.georgetown.edu/nrr/nrr1.html

 NURSA (the Nuclear Receptor Signaling Atlas)は、Ronald Evans, David Mangelsdorf ら核内受容体の著名な研究者らが組織しているNR関連の分子信号の経路地図づくりを目的として2002年8月に発足したconsortiumで、NIH傘下の複数の研究所、National Institute of Diabetes and Digestive & Kidney diseases (NIDDK), National Heart Lung and Blood Institute (NHLBI) and National Institute of Environmental Health Sciences (NIEHS)の財務的な支援を受けている。すでに第1期の5年が過ぎ、第2期 (2007-2012) に入っている。学会としては、The Endocrine Societyと連係している。第1期の研究は、Genomic and Metabolic Profiling of Orphan Nuclear Receptors、Proteomic Profiling of Corepressorsなど、脂質代謝に関わるかつてOrphan Receptorと呼ばれた核内受容体群の研究が行われ、その成果がデータベースづくりに反映されている。サイトの開発にはBioinfomraticsの専門家が参加している。Nuclear Receptor Signalingという、無料で閲覧できるオンラインの学術誌も刊行している。

 NucleaRDBは、核内受容体の配列や構造に関する2次的なデータを提供しているサイトで、入門的、教育的な価値があるが、すでに2005年4月で更新が中止されている。

 NuReBaseは、核内受容体の命名に関わる研究者に会合組織を基盤として、NRに関する情報をデータベース的に提供し始めたサイトであるが、最近の研究報告は乏しい。一時世界的な問題となった、内分泌かく乱物質Endocrine Disruptorsに関するリンク集も含まれている。

 NRR (The Nuclear Receptor Resource) は、ステロイドとサイロイドホルモンに関する個別のデータベースを集めたもので、配列および構造データやグラフィックス、試薬や抗体などの情報をあり、入門的、教育的であるが、データは古い。


5.2.2 NRのComparative Genomics

 さまざまな生物のゲノムデータが蓄積されてくると、当然、それらを横断的に比較した研究が可能になってくる。核内受容体の場合、後生動物に特有の転写因子という視点から、そうした動物のゲノムが解読されるごとに、新しいデータを加えての比較分析が可能になる。こうした比較研究は、多細胞動物の祖先生物と考えられる単細胞の真核生物のゲノムが解読された場合にも、可能である。これらの単細胞生物のゲノムをしらべてみると、それらの生物の生涯では役に立っていない、多細胞動物に特徴的な遺伝子やタンパク質があることがわかってきている。このことは、転写因子と同時に転写の共役因子についても言えることであり、タンパク質同士の依存的な関係が進化の過程でどう保存され、どのように(共)進化してきたかをしらべることを可能にする。こうした比較ゲノム学の延長線上に、NR Superfamilyの起源と進化や、細胞の分化に関係する遺伝子調節機能の進化の問題を考えることができる。こうした研究は、これから盛んになってくるであろう。


5.2.3 NR Binding Site & Target Genesの探索

 転写因子の標的遺伝子を網羅的に探索することは、ゲノム解読後のゲノム学の大きな挑戦課題である。この問題は、遺伝子発現の引き金になる転写因子のDNA配列への選択的な結合を網羅的にしらべることと、一つ転写因子あるいはリガンドにより、どれだけの(標的)遺伝子の発現が誘発されるかを探索するという、2つの課題に分解される。前者はChIP-chip、次世代シークエンサーを駆使したような実験技法の進歩で、ようやく研究が進むようになってきた。しかし、いずれも実験的な方法だけでは不十分でBioinformaitics的な予測技法も使われている。


5.2.3.1 Promoter database, Promoter Prediction

TRANSFAC
**Edgar Wingender, The TRANSFAC project as an example of framework technology that supports the analysis of genomic regulation, Briefings in Bioinformatics 9(4):326-332, 2008.
JASPAR
JASPAR is a collection of transcription factor DNA-binding preferences, modelled as matrices. These can be converted into Position Weight Matrices (PWMs or PSSMs), used for scanning genomic sequences.
Vlieghe D, Sandelin A, De Bleser PJ, Vleminckx K, Wasserman WW, van Roy F, Lenhard B. A new generation of JASPAR, the open-access repository for transcription factor binding site profiles. Nucleic Acids Res, 34:D95-D97, 2006.
DBTBS http://dbtbs.hgc.jp/
Makita Y, Nakao M, Ogasawara N, Nakai K. DBTBS: database of transcriptional regulation in Bacillus subtilis and its contribution to comparative genomics. Nucleic Acids Res, 32:D75-D77, 2004.

Xin Chenet al, W-AlignACE: an improved Gibbs sampling algorithm based on more accurate position weight matrices learned from sequence and gene expression/ChIP-chip data, Bioinformatics 2008 24(9):1121-1128
Mikael Boden and Timothy L. Bailey, Associating transcription factor-binding site motifs with target GO terms and target genes, Nucleic Acids Res. 36:4108-4117, 2008
**Won et al., Modeling promoter grammars with evolving hidden Markov models, Bioinformatics.2008; 24: 1669-1675
Thomas R. Gingeras, Origin of phenotypes: Genes and transcripts, Genome Res. 17:682-690, 2007

5.2.3.2 標的遺伝子の予測Prediction of Target Genes
Xinbin Dai, Ji He and Xuechun Zhao, A new systematic computational approach to predicting target genes of transcription factors, Nucleic Acids Res. 35:4433-4440, 2007
T. Okumura et al, Melina II: a web tool for comparisons among several predictive algorithms to find potential motifs from promoter regions, Nucleic Acids Res. 35:227-231, 2007.

5.2.4 核内受容体の標的遺伝子と薬物代謝酵素 NR Target Genes/Drug Metabolic Enzymes

 薬物代謝酵素Drug Metabolic Enzymes(DME)は、体の中の薬の動態ADMEに関与している。それらはPhase I, II and IIIに分類される。Phase Iはチトクロームcytochromes P450(CYP)であり、Phase IIは抱合酵素、Phase IIIはトランスポータTransporterである。これらの酵素の多くが核内受容体とその類縁転写因子であるAhR, Nrf2によって誘導される。AhRはCYP1A1を、Nrf2は抱合酵素類を誘導するが、核内受容体は薬物酵素の多くを誘導する。このうちCYPは、薬の効き方に関係する臨床薬理上注意すべき酵素としてよく知られている(Nebert02)。CYPをコードするヒトの遺伝子は57あり、その変異は薬への応答の個人差の原因になるとして、Pharmacogenomicsの立場から網羅的にしらべられている。しかし、DME遺伝子の多くが核内受容体、とくにOrphanと呼ばれていた受容体であることがわかってきたのは、比較的最近、2000年以後のことである(Handschin03、Handschin05)。 CYPは薬物相互作用にも関与している(Tang05)。
 薬物代謝酵素のすべてを網羅的にしらべることは、核内受容体の研究から言えば、転写因子である核内受容体の標的遺伝子とその産物、さらにそれらの機能を網羅的にしらべることになる。また、薬理学的な立場から言えば、薬物代謝酵素を探索して、その遺伝子発現やSNPのような遺伝的な変異を網羅的にしらべることを意味する(Xu05)。さらにこのような後生動物特有の転写機構を網羅的にしらべることは、後生動物の進化と環境への適用を考える、比較ゲノム学の課題となる(Nelson03)。すでに上の一般論のところで述べたように、この課題に挑戦するにはBioinformaticsからの協力も不可欠である(Podvinec06)。
 薬物代謝酵素の問題は、化学物質の毒性問題と表裏の関係にある。なぜなら、これらの酵素群の知見は、そのまま毒性評価法の基盤となるからである(Mattes04)。したがって薬物代謝酵素の包括的なデータベースは薬理学、薬物動態学の基盤となるだけでなく、毒性学の基盤ともなる情報計算資源であると言うことができる。米国ではそうした基盤知識を整備しようというCEBSのような計画がある。こうした知識基盤は、これまでのADMEデータベースの概念を拡張したものと言うことができる。

Daniel W Nebert, David W Russell, Clinical importance of the cytochromes P450, Lancet, 360: 1155-62, 2002.
C. Handschin , U.A. Meyer, Induction of Drug Metabolism: The Role of Nuclear Receptors, Pharmacol Rev 55:649-673, 2003
** C. Handschin , U.A. Meyer, Regulatory network of lipid-sensing nuclear receptors: roles for CAR, PXR, LXR, and FXR, Arch Biochem Biophys, 15: 433(2): 387-96, 2005.
C. Tang, J. H. Lin, and A. Y. H. Lu, METABOLISM-BASED DRUG-DRUG INTERACTIONS: WHAT DETERMINES INDIVIDUAL VARIABILITY IN CYTOCHROME P450 INDUCTION?, DRUG METABOLISM AND DISPOSITION, 33:603-613, 2005
C. Xu, Christina Y-T Li, and A-N T. Kong, Induction of Phase I, II and III Drug Metabolism/Transport by Xenobiotics, Arch Pharm Res 28(3): 249-268, 2005
**David R. Nelson, Comparison of P450s from human and fugu: 420 million years of vertebrate P450 evolution, Archives of Biochemistry and Biophysics, 409(1): 18-24, 2003.
**M. Podvinec, U. A. Meyer, Prediction of cis-regulatory elements for drug-activated transcription factors in the regulation of drug-metabolising enzymes and drug transporters
Expert Opinion on Drug Metabolism & Toxicology, 2(3): 367-379, 2006
W. B. Mattes et al., Database Development in Toxicogenomics: Issues and Efforts, Environmental Health Perspectives, 112(4): 495-505, 2004
Chemical Effects in Biological Systems (CEBS)
http://www.niehs.nih.gov/research/resources/databases/cebs/index.cfm
PharmGED http://bidd.cz3.nus.edu.sg/phg/
Pharmacogenetic Effect Database (PharmGED), for providing sequence, function, polymorphism, affected drugs and pharmacogenetic effects
C. J. Zheng et al., PharmGED: Pharmacogenetic Effect Database, Nucleic Acids Res. 35:794-799, 2007
ADME Database
http://jp.fujitsu.com/group/fqs/services/lifescience/asp/adme-database/

5.2.5 NR Transcriptional Network

 Yeast Two-hybridのような高速HighthroghputなProtein-Protein相互作用解析が可能となって、タンパク質相互作用のネットワークを網羅的に解析する、実験と計算の双方を動員した研究が盛んになってきた。同じように、遺伝子発現(調節)ネットワークGene Regulatory Networkを網羅的にしらべる研究も現実的な課題になってきている。自然な状態については、長年ウニを使った発生研究を進めてきたDavidsonらが、発生の初期にこうした遺伝子発現連鎖のネットワークがどのように形成されるかを解明し始めている(Davidson01, Levine05)。
 最近、核内受容体の転写連鎖のネットワークに関するかなり網羅的な研究が発表された(Kininis08)。これによれば、NRへのリガンドが結合することによって発現する遺伝子のうち、直接転写されるものは、全体の一部だということである。すなわち、NRの影響は、転写の連鎖の形をとることがわかってきた。哺乳類のNRに関するこうした知見が、他の後生動物でどうなるのかは、比較ゲノム学の興味深い課題であろう。また、Bioinformaticsの立場から転写機構を解析する場合、Epigeneticな現象をどう扱うかが新しい問題であろう。

Eric H. Davidson, Genomic Regulatory System, Academic Press, 2001
M. Levine, and E. H. Davidson, Gene regulatory networks for development, PNAS, 102(14): 4936-4942, 2005
M. Kininis and W. Kraus (2008) A global view of transcriptional regulation by nuclear receptors: gene expression, factor localization, and DNA sequence analysis. Nucl Recept Signal 6, e005.
D. A. Kleinjan, V. van Heynigen, Long-range control of Gene Expression: Emerging Mechanism and Disruption in Disease, Am. J. Hum. Genet., 76: 8-32, 2005
C. Bock and T. Lengauer, Computational epigenetics, Bioinformatics, 24(1): 1-10, 2008.

5.3 一般的な情報計算資源

5.3.1 Genes/Genomes

 生物医学研究のための情報計算資源を提供している機関の中でも最も一般的な性格を備えているのは、NCBIである。多くの研究機関で分散的に解読されている多様なゲノムデータを最も効率的に閲覧できるのは、Genome Browser機能を備えたUCSCとEnsemblが提供しているシステムである。Wellcome Trustもゲノム情報を提供している。

NCBI http://www.ncbi.nlm.nih.gov/
The Human Genome: Your Genes, Your Health, Your Futurehttp://www.gate2biotech.com/human-genome-your-genes-your-health-your/
A comprehensive resource on the human genome, its role in health and medicine, and the broader social impact of unravelling its mysteries; produced by the Wellcome Trust.
UCSC Genome Browser http://genome.ucsc.edu/cgi-bin/hgGateway
Ensembl http://www.ensembl.org/
ENCODE (Encyclopedia of DNA Elements)  http://www.genome.gov/10005107
Project launched by the National Human Genome Research Institute (NHGRI) that aims to identify all functional elements in the human genome sequence.

その他の参考サイト
GeneCards http://nciarray.nci.nih.gov/cards/
Bioinformatic Harvester http://harvester.embl.de/
AceView http://www.ncbi.nih.gov/IEB/Research/Acembly/index.html
Sanger Mitochondrion genome www.mitomap.org/
Human Genome Resources (NCBI) http://www.ncbi.nlm.nih.gov/projects/genome/guide/human/
GenBank (NCBI) http://www.ncbi.nlm.nih.gov/Genbank
Map Viewer(NCBI) human
http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=9606
DDBJ http://www.ddbj.nig.ac.jp/Welcome-j.html
GeneNet http://wwwmgs.bionet.nsc.ru/mgs/gnw/genenet/
Human-Mouse Homology Map http://www.ncbi.nlm.nih.gov/Homology/
Mouse Genome Database http://mgd.informatics.jax.org/
MITOMAP http://www.mitomap.org/
KEGG GeneDatabase http://www.genome.jp/kegg/docs/upd_genes.html

H-InvDB; http://www.h-invitational.jp/
a comprehensive annotation resource for human genes and transcripts

Tool
THE MEME/MAST SYSTEM http://meme.nbcr.net/meme/
The MEME/MAST system allows you to discover motifs (highly conserved regions) in groups of related DNA or protein sequences using MEME and, search sequence databases using motifs using MAST


5.3.2 Genetic/Genomic Variation Data

Human Genetic Variation: An NIH Curriculum Supplement
A creative, inquiry-based instruction program, designed to promote active learning and stimulate student interest in medical topics
SNPs: A Science Primer
An introduction to single nucleotide polymorphisms, provided by the National Center for Biotechnology Information
Single Nucleotid Polymorphisms(SNPs、一塩基多型)とは、ある塩基がある集団におけて数%程度(1%あるいは5%)違っている変化である。およそ1kbに1個の割合で存在すると推定すると、ヒトの30億塩基のゲノムでは、30万塩基で変化が見られると推定される。製薬企業GSK1997/8年に、こうした変化のデータ収集のためのConsortiumの結成を呼びかけた。

SNPedia
A web site for sharing information about the effects of DNA variations on traits and disease.

Copy Number Variation
CNV: Copy Number Variationのデータが蓄積され、SNPsとともに、DNA塩基配列の多様性の指標として、遺伝学、疾患の理解、集団の遺伝的な特性把握などに重要であると考えられるようになった。
R. Redon, et al. Global variation in copy number in the human genome. Nature 444, 444-454, 2006.
M.Skipper Genomics, Copy number variation map, Nature Reviews Genetics 8: 2, January 2007

International HapMap Project
A multi-country effort to identify and catalog genetic similarities and differences in human beings.

HapMap計画
The International HapMap Consortium, The International HapMap Project, Nature, 426(18): 789-796, 2003.
The International HapMap Consortium, A haplotype map of the human genome, Nature, 437(27): 1299-1320, 2005.

HapMap計画の成果の利用
A. Helgadottir et al., A variant of the gene encoding leukotriene A4 hydrolase confers ethnicity-specific risk of myocardial infarction, Nature Genetics, 38: 68-74, 2006
M.J. Rieder et al. Effect of VKORC1 Haplotypes on Transcriptional Regulation and Warfarin Dose, NEJM 352: 2285-2293, 2005.

5.3.3 Genotype-Phenotype Database

NCBI Genes and Disease
(www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=gnd&ref=sidebar)

OMIM-Online Mendelian Inheritance in Man

http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim
Human Mutation Database (www.hgmd.org)
Human Gene Mutation Database(http://www.hgmd.org/)
HUGO Mutation Database Initiative (www.genomic.unimelb.edu.au/mdi/HGMD)

Database of Genotype and Phenotype (dbGaP)
(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gap)
NLM/NIH は genome wide association (GWA) studies のデータを収集、提供するためのデータベース構築に着手した。The database of Genotype and Phenotype (dbGaP) was developed to archive and distribute the results of studies that have investigated the interaction of genotype and phenotype. Such studies include genome-wide association studies, medical sequencing, molecular diagnostic assays, as well as association between genotype and non-clinical traits. The advent of high-throughput, cost-effective methods for genotyping and sequencing has provided powerful tools that allow for the generation of the massive amount of genotypic data required to make these analyses possible.
現在提供中のデータベース
- the Age-Related Eye Diseases Study (AREDS)
- Parkinsonism Study

いわゆるCommon Diseaseの原因遺伝子のデータベースについては、がんと肥満ではまとめられているが、その他の疾患はまだのようである。

Caner Gene Census (www.sanger.ac.uk/genetics/CGP/Census)
The Human Obesity Gene Map (obesitygene.pbrc.edu/)

Genome Medicine Database of Japan (GeMDBJ)
(gemdbj.nibio.go.jp/dgdb/SearchDisease.do;jsessionid=3D230E26A79BB4B49834962B6E4D496A)

Genetic Association Information Network (GAIN)
A public-private partnership that aims to understand the genetic factors influencing risk for complex diseases.

5.4 Protein
・PDB http://www.rcsb.org/pdb/
・CATH Protein Structure Classification Database (UCL) http://www.cathdb.info/
・PROSITE(ExPASy) http://au.expasy.org/prosite/
・InterPro http://www.ebi.ac.uk/interpro/
・BLOCKS http://blocks.fhcrc.org/
・Pfam http://pfam.sbc.su.se:43210/
The Pfam database is a large collection of protein families, each represented by multiple sequence alignments and hidden Markov models (HMMs).
F. M. G. Pearl et al., The CATH database: an extended protein family resource for structural and functional genomics, Nucleic Acids Research, Vol. 31, No. 1: 452-455、2003.
FSS
Liisa Holm and Chris Sander、The FSSP database of structurally aligned protein fold
Families, 3600-3609 Nucleic Acids Research, 1994, Vol. 22, No. 17
Liisa Holm and Chris Sander, Dali/FSSP classification of three-dimensional protein Folds, Nucleic Acids Research, 1997, Vol. 25, No. 1 231-234

5.5 Carbohydrate, Sugar, Lipid

Carbohydrate

Glycoconjugate Data Bank http://www.glycostructures.jp/index/documents

Sugar
糖鎖関連遺伝子データベース(GGDB)http://riodb.ibase.aist.go.jp/rcmg/ggdb/

Lipid

LIPID MAP - Metabolites And Pathways Strategy Consortium
http://www.lipidmaps.org

このサイトは、NIH/NIGM(National Institute of General Medicine)に支援されたMetabolites And Pathways Strategy Consortiumによって構築されているlipidについても統合的な情報計算資源であり、脂質代謝物lipid metabolitesについてのあらゆる情報を網羅することをめざしている。これには脂質分子の名称、構造、標準脂質、脂質代謝の経路、分析装置、分析ソフトウエア、論文などが閲覧できるようになっている。

The GOLD.db https://gold.tugraz.at/
The GOLD.db was developed to address the need to integrate disparate information on the function and properties of genes and their protein products that are particularly relevant to the biology, diagnosis management, treatment, and prevention of lipid-associated disorders including non-insulin dependent diabetes, various hyperlipidemias, high blood pressure and atherosclerosis.
5.6 Omicsデータの解析と解釈のための情報計算資源Omics Data Analysis

 核内受容体の研究でも、メタボリック症候群の研究でも、 いまやDNAチップやマイクロアレイMicroarrayを使ったTrancriptome解析や、プロテオミックスProteomics、メタボロミックスMetabolomicsが広く使われている。そうした実験で生成されるデータは膨大で、人手による扱いはもちろん、解釈でさえ計算機に頼らざるをえない状況になっている。そのために、そうしたデータの収集、解析、蓄積などのためのソフトウエアやパケージ・ソフトが多数開発されており、それらを使いこなすBioinformaticsの専門家も増えている。なお、このサイトの情報は、2005-2006年頃のものであり、新しい情報によって更新する予定である。

データ解析の全体構造
 Omicsデータの解析に限らず、一般に科学的なデータ解析のための情報計算資源の区分と相互関係は、下記の図で表現できる。以下では、この区分にしたがって、情報計算資源を紹介する。したがって、一般にOmicsと呼ばれるDNAチップあるいはマイクロアレイデータ解析でも、Proteomicsでも、あるいはMetabolomicsでも、その処理は、統計解析の視点から見ると共通したところが多い。


5.6.2 代表的な解析ツール
ArrayMaker : Jaseph Derisi Lab. http://derisilab.ucsf.edu/arraymaker.shtml
・BioConductor : open source and open software http://www.bioconductor.org/
・BRB ArrayTools(NCI)   http://linus.nci.nih.gov/BRB-ArrayTools.html
・dCHIP : w. H. Wong Lab. http://biosun1.harvard.edu/complab/dchip/
・Functional Genomics : My Microarray Software comparison http://ihome.cuhk.edu.hk/~b400559/arraysoft.html・GENECLUSTER http://www.broad.mit.edu/cancer/software/genecluster2/gc2.html
・GenePattern http://www.broad.mit.edu/cancer/software/genepattern/
・GeneRnge http://www.ebi.ac.uk/research/cgg/services/rage/
・GeneX http://www.ncgr.org/research/genex/
・guide for microarray : Pat Brown Lab.  http://cmgm.stanford.edu/pbrown/
・Software for microarrays : Michael Eisen Lab. http://rana.lbl.gov/
・NIH Microarray Project http://research.nhgri.nih.gov/microarray/
・TIGR functional genomics http://www.tigr.org/microarray/
・TIGR MeV http://www.tm4.org/mev.html
・Microarray Resources : Software & Toolshttp://genome-www5.stanford.edu/resources/restech.shtml

5.6.3 オミックスデータの入手

5.6.3.1 Omics Data Repository site
 オミックスのデータは再現性に乏しいこと、解析よりも解釈が難しいことなどから、相互に比較して結果を検証する必要があることが広く認識されるようになってきた。これに伴い、オミックスデータをインターネット上の公開サイトに寄託Repositoryする試みが始まっている。このようなデータが公開されれば、実験家だけでなく、Algorithmの開発関心のある理論や計算の専門家にも有用な資料となる。こうした試みが先行しているのはMicroarrayであり、次に議論がされたのがProteomicsであり、多少遅れ気味なのがMetabolomicsである。

5.6.3.2 Microarray data
5.6.3.2.1 Microarray dataの寄託サイト案内
 マイクロアレイデータの寄託サイトはすでに多数あるが、下記はそれらの案内サイトである。
・Public Microarray Database and Gene Expression Database
http://ihome.cuhk.edu.hk/~b400559/arraysoft_public.html#Definition%20of%20public%20microarray

特定の疾患領域ごとにデータを集めているサイトもある。もっとも多いのはがんであるが、他の疾患もある。

・CardioGenomics : FVB benchmark data set for cardic deveropment, maturation, and aging : http://cardiogenomics.med.harvard.edu/home

研究論文によっては、元データが見られるものもある。こうした論文は教育的である。
Simon X. Liang et al., "Gene Expression Profiling and Localization of Hoechst-effluxing CD45- and CD45+ Cells in the Embryonic Mouse Lung", Physiol. Genomics 23: 172-181, 2005
Bina Joe et al., "Transcriptional profiling with a blood pressure QTL interval-specific oligonucleotide array ", Physiol. Genomics 23: 318-326, 2005

5.6.3.2.2 マイクロアレイデータベースの例
 これも多数あるが、以下のその例である。
・Arrayexpress : (EBI)         http://www.ebi.ac.uk/arrayexpress/
・GEO (Gene Expression Omnibus) : NCBI        http://www.ncbi.nlm.nih.gov/geo/
・MAD (Microarray Database) : The Jackson Laboratory   http://mad.jax.org/
・MGED (Microarray Gene Expression Data) Society        http://www.mged.org/
・SMD (Stanford Microarray Database              http://genome-www5.stanford.edu/
・YMD (Yale Microarray Database)     http://info.med.yale.edu/microarray/

5.6.3.3 Proteomicsのデータ登録システム
これに関しては、総合的な案内サイトではないが、下記が参考になる。
The Proteios Project: http://www.proteios.org/more.shtml
Bina Joe et al., "Transcriptional profiling with a blood pressure QTL interval-specific oligonucleotide array ", Physiol. Genomics 23: 318-326, 2005

5.6.3.4 Metabolomicsデータの登録

・LIPID Metabolites and Pathway Strategy (Lipid Maps), www.lipidmaps.org/
・Biological magnetic resonance database, www.brmb.wisc.edu/metabolomics/
・Lipid Bank, lipidbank.jp/
European Nutrigenomics Organization, www.nugo.org/metabolomics/

5.6.4 入手したデータの前処理と蓄積
 公開サイトから入手したデータはそのままでは自らの解析や解釈に使えない。まず、自らの環境で扱えるように加工(前処理)を施す必要がある。この処理は、実験データがどのように記録されたかということと関係しているため、実験系に依存することなる。例えば、Affymetrix社のOligochipを使った実験データの場合には、同社特有のChip構築法(Probeの並べ方など)と統計的な処理方式に依存した前処理方式が専用のソフトとして用意されている。
 前処理したデータは、標準的な形式(例えばEXCELL)のファイルや、データベース(例えばMySQL)などとして蓄積される。


5.6.5 普遍的な統計、データ解析技法
 Omicsデータの解析には、統計学やパターン認識やデータ解析など、普遍的な思考支援技法としてすでに開発されている標準的な手法が多数使われている。これらは統計的な検定手法、パターン認識の特徴抽出や情報縮約法、クラスタリング、データマイニング Data Miningなどの技法である。これらの技法はとくに生物医学を目標として開発されたものでなく、さまざまな分野に応用されている。それゆえ、多くの技法は、統計やデータ解析、パターン認識の分野でよく知られたパケージ、SAS, S(最近はR)などに組み込まれている。Bio Conductorは、そのRを基礎にオミックスデータ解析のための開発された専用ソフトウエアで、無料で使える上に使い勝手がよく、更新もよく行われていることから、人気が高い。
・Bio Conductor Project  http://www.bioconductor.org/
・R packages, etc : R. Irizarry http://biosun01.biostat.jhsph.edu/~ririzarr/
・MAANOVA 2.0 : G. Churchill   http://www.jax.org/staff/churchill/labsite/software/anova/index.html
・GeneTS : K. Strimmer http://www.stat.uni-muenchen.de/~strimmer/software/genets/
・SMA Statistics for Microarray Analysis/ affy Affymetrix data analysis : B. Bolstad
              http://www.stat.berkeley.edu/users/bolstad/index.html
・Statsci.org/macroarray, S-Plus, R-Plus : G. Smyth    http://www.statsci.org/smyth/
・SAM: Significance Analysis of Microarrays : R. Tibshirani     http://www-stat.stanford.edu/~tibs/SAM/
・Smartpred etc: T. Hastie    http://www-stat.stanford.edu/~hastie/
・Microarray/Analysis and Software : D. Allison  http://www.soph.uab.edu/ssg_content.asp?id=1290
・R package, S-Plus, Z-Image, etc.     http://www.stat.berkeley.edu/~terry/zarray/Html/soft.html

技法に関するTutorial
 以下は、上記の技法についての入門的な解説サイトや論文の例である。
W. S. Noble, Support vector machine application in computational biology,
2003. On-line.
T. Mary-Huard et al., Introduction to statistical methods for microarray
data analysis, on-line.
I. Levner, Proteomic Pattern Recognition, on-line
I. Levner, Feature selection and nearest centroid classification for
protein mass spectrometry, BMC Bioinformatics, 6(68): 2005.
R. Goodacre Metabolomics by numbers:acquiring and understanding global
metabolite data, TRENDS in Biotechnology, 22(5): 245-252, 2004
M. Brown A metabolome pipeline: from concept to data to knowledge,
Metabolomics 1(1): 39-50, 2005

5.6.6 専門領域の参照知識

Gene Ontology
 解析Analysisにしても解釈Interpretationにしても,必要になるのが、遺伝子やタンパク質、代謝物などの名称、属性、相互関係など、生物医学の基礎的な知識である。とくに参照されるのがGene Ontologyである。

・PubMed
・Genome Browser
・Locus Link
・Gene Ontology

・M. Ashburner et al., "Gene Ontology: tool for the unification of biology", Nature Genetics 25, 25 - 29, 2000

Pathway/Network
 解析から解釈へというのが最近のオミックスデータに関する流れである。この目的で浮上していきたのが、Pathway/Network Modelである。後者に関しては、すでに別の項で紹介しているように、200を越えるデータベースの存在が知られている。よく参照されるのは、BioCarta、EcoCyc/MetaCyc、KEGGなどであるが、広く既存のデータベースを探すためには、案内データベースであるPathDBを参照するとよい。


5.6.7 データ解析
 オミックスデータの解析に関しては、最初はSiliconGeneticsなど、商品パケージソフトが知られていたが、最近は無料で利用できる高機能のソフトも出てきた。TIGER MeVやBio Conductorはそうした例である。


5.6.8 Visualization
 視覚化Visualization のツールは、多くのデータ解析のソフトウエア・システムに組み込まれている。最近は、OmicsデータをPathway/Network ModelにMappingすることが盛んになってきた。後者に関しては次の項に分類する。


5.6.9 解析と解釈機能を備えたソフト
 解釈機能に重点を置く解析技法の基礎は、単一の遺伝子発現を比較するのではなく、複数の遺伝子あるいはある遺伝子の組setに注目することである。これらの組としては、遺伝子同士が位置的に近いとか、(Gene Ontologyの分類で)同じBiological functionを担っているとか、同じPathwayにmappingされる、などの知識に基づき選択される。以下はこれらの技法に関するサイトと論文である。
情報提供サイト
・Onto-Express     http://vortex.cs.wayne.edu/ontoexpress/
・GoMiner http://discover.nci.nih.gov/gominer/
・DAVID              http://apps1.niaid.nih.gov/david/
・EASEonline http://prtl.uhcl.edu/portal/page?_pageid=417,418658&_dad=portal&_schema=PORTALP
・GeneMerge http://www.oeb.harvard.edu/hartl/lab/publications/GeneMerge/GeneMerge.html
・FuncAssociate  http://llama.med.harvard.edu/cgi/func/funcassociate
・GOTM  http://genereg.ornl.gov/gotm/
・FatiGO  http://fatigo.bioinfo.cipf.es/
・CLENCH http://www.personal.psu.edu/faculty/n/h/nhs109/Clench/
・GOstat             http://gostat.wehi.edu.au/
・GOToolBox http://crfb.univ-mrs.fr/GOToolBox/index.php
・GoSurfer http://bioinformatics.bioen.uiuc.edu/gosurfer/
・eGOn http://www.genetools.no/
・FunSpec http://www.esat.kuleuven.ac.be/~saerts/software/go4g.html
・ProToGo http://www.protogo
・goTermFinder  http://genome-www4.stanford.edu/cgi-bin/SGD/GO/goTermFinder
・GenMAPP http://www.genmapp.org/
・MAPPFinder http://www.genmapp.org/MAPPFinder-specs.html
・GeneXplorer http://www.gmod.org/?q=node/32
・BRIGEP-the BRIDGE-based genome-transcriptome-proteome browser https://www.cebitec.uni-bielefeld.de/groups/brf/software/brigep/cgi-bin/bridge.cgi
・ChipInfo http://www.biostat.harvard.edu/complab/chipinfo/
・Pathway miner   http://www.biorag.org

解説論文
P. Khatri, S. Draghici, Ontological analysis of gene expression data: current tools, limitations, and open problems, Bioinformatics, 21(18): 3587-3595, 2005
K. D. Dahlquist et al., "GenMAPP, a new tool for viewing and analyzing microarray data on biological pathways", Nature Genetics 31, 19 - 20, 2002
S. W. Doniger et al., "MAPPFinder: using Gene Ontology and GenMAPP to create a global gene-expression profile from microarray data", Genome Biology, 4, R7, 200
B. R. Zeeberg et al., "GoMiner: a resource for biological interpretation of genomic and proteomic data", Genome Biology, 4, R28, 2003
C. A. Rees et al.,"GeneXplorer: an interactive web application for microarray data visualization and analysis", BMC Bioinformatics. 5, 141, 2004
A. Goesmann et al.,"BRIGEP-the BRIDGE-based genome-transcriptome-proteome browser", Nucleic Acids Research, 33, W710-W716, 2005
S. Zhong, C. Li, & W. H. Wong, (2003), ChipInfo: software for extracting gene annotation and gene ontology information for microarray analysis, Nucleic Acids Res. 31, 3483-3486.
S. Draghici, et al, Onto-Tools, the toolkit of the modern biologist: Onto-Express, Onto-Compare, Onto-Design and Onto-Translate Nucleic Acids Res. 31, 3775-3781, 2003
P. Khatri et al, Onto-Tools: an ensemble of web-accessible, ontology-based tools for the functional design and interpretation of high-throughput gene expression experiments, Nucleic Acids Research, Vol. 32, Web Server issue W449-W456, 2004.
G. F. Berriz, Characterizing gene sets with FuncAssociate, Bioinformatics 19, 2502-2504, 2003
S. Zhong et al., GoSurfer: a graphical interactive tool for comparative analysis of large gene sets in Gene Ontology space, Appl Bioinformatics 3, 261-4, 2004
A. Subramanian et al., Gene Set Enrichment Analysis: A Knowledge-Based Approach for Inetrpreting Genome-wide Expression Profiles, PNAS, 2005
Homin K Lee, ErmineJ: Tool for functional analysis of gene expression data sets, BMC Bioinformatics 6:269, 2005

5.6.10 自動的な知識を収集するシステム
A. Rzhetsky et al.,"GeneWays: a system for extracting, analyzing, visualizing, and integrating molecular pathway data", Journal of Biomedical Informatics, 33(1), 43-53, 2004

5.7 Pathway/Network
・Pathguide http://cbio.mskcc.org/prl/index.php
・KEGG Metabolic Pathways http://www.genome.jp/kegg/pathway.html
・BioCarta http://cgap.nci.nih.gov/Pathways/BioCarta_Pathways
・BioCyc: EcoCyc E..coli Genes and Metabolism http://www.ecocyc.org/
・BioCyc: HumanCyc Metabolic Pathway Database http://humancyc.org/
・BioCyc: MetaCyc Metabolic Pathway Database http://metacyc.org/
・CFG Glycosylation Pathways http://web.mit.edu/glycomics/gt/gtdb.shtml
・ExPASy: Biochemical Pathways http://www.expasy.org/cgi-bin/search-biochem-index
・Fukuoka Univ. Biochem. Lab.(Japanese) http://www.sc.fukuoka-u.ac.jp/~bc1/Biochem/index2.htm
・The Metabolic Pathways of Biochemistry http://www.gwu.edu/~mpb/
・UM-BBD http://umbbd.ahc.umn.edu/

**Protein Lounge Disease Genes Database
(www.proteinlounge.com/disease_database.asp)

5.8 Digital Physiology & Pathology

 経路網から疾患を理解し、医薬品開発を考える、という視点からすると、Metabolic Syndromeの研究にはさまざまな経路網が関与している。例えば、

Bioenergy Production Pathway in Mitochondria
Adipokeine Pathway & Adipogenesis
Food intake control in CNS
Insulin Signaling & Longevity Pathway
Bioenergy sensor-processor system
Chemical sensor-processor system
Epithelium cell model

などに関しては、かなり詳細なPathwayがしらべられている。ただし、これら多くはまだ計算で扱えるような形式には整理されていない。これは焦眉の急と言えるBioinformaticsの課題である。

5.9 Animal Models

Metabolic Syndrome関連疾患の研究においても、マウスなど哺乳類以外のモデル動物が使われる。もっともよく使われているのは、線虫C. elegansとショウジョウバエDrosophilaである。この2つのモデル動物は、それぞれ詳しい研究支援情報が整備されている。

modENCODE (Model Organism ENCyclopedia Of DNA Elements) Project
http://www.genome.gov/26524507
Project for identification of all functional elements in selected model oganism geomes.

C.elegans
C.elegans WWW Server  http://elegans.swmed.edu/
WormBook http://www.wormbook.org/ 

Drosophila
Fly Base http://flybase.org/
FlyBrain http://flybrain.neurobio.arizona.edu/

例えば、modENCODEは、ENCODE計画の線虫とショウジョウバエ版である。C.elegans WWW Serverは、線虫の研究コミュニティが提供している基盤知識であり、WormBookは、入門知識Tutoorialや、さらに具体的な実験研究に直結した知識が提供されている。ここにある、

Ashrafi, K. Obesity and the regulation of fat metabolism (March 9, 2007), WormBook, ed. The C. elegans Research Community, WormBook, doi/10.1895/wormbook.1.130.1,
http://www.wormbook.org.

は、線虫を材料としたMetabolic Syndromeの実験的研究の優れた案内になっている。

こうした無脊椎動物に関するより一般的な情報は下記にある。

Health Sciences Library System
http://www.hsls.pitt.edu/guides/genetics/obrc/genomics/non_vertebrates/invertebrates

関連論文
T. Kaletta, M. O. Hengartner, Finding function in novel targets: as a model organism, Nature Reviews Drug Discovery, online, April 2006.
N. Perrimon, Drug-target identification in cells: combining high-throughout RNAi and small-molecule screens, Drug Discovery Today, 12(1-2): 28-33, 2007.
D. Boffelli, COMPARATIVE GENOMICS AT THE VERTEBRATE EXTREMES, Nature Reviews Genetics 5: 456-465, 2004
A. Stathopoulos, M. Levine, Genomic Regulatory Networks and Animal Development, Developmental Cell, 9: 449-462, 2005.
E. H. Margulies et al., Identification and Characterization of Multi-Species Conserved Sequences, Genome Research 13:2507-2518, 2003

5.10 その他の情報源

CASCADE http://www.cascadenet.org/
核内受容体に関係した、内分泌ホルモンの健康影響、とくに食物の安全性に関する情報を提供しているサイト。本拠はBurussel。

ライフサイエンスデータベース統合 http://lifesciencedb.jp/MEXT_H18/
我が国で始まったライフサイエンスの知識を統合する試み。