Y.情報計算学的な課題の提示 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2008.8.31 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6.情報計算的な課題 6.1 医療の重要問題の解決にIT資源と研究者を集中するという戦略思想 ヒトゲノム計画のゴールが見えてきた2000年頃から、米国や欧州では、生物医学の重要問題に取り組むには、専門を異にする研究者たちがConsortiumのような協力体制を構築して集中的に取り組むのでなければ効率が悪いという考えが提唱されるようになった。例えばLeo02は、(米国の)内分泌学会としてそうした取り組みをすべきだと提唱している。その後、米国や欧州で実際にそうした共同研究組織が結成されるようになってきた。また、そこには情報計算の専門家も加わっており、また方法論としてもComputational Biologyなど情報計算からのApproachが重要視されるようになってきている。残念ながら、わが国にはまだこのような発想の計画はほとんど見当たらない。
上記のような考えをとくに明確に表明しているのは、米国の生物医学研究の司令塔の役を果たしているNIHである。ヒトゲノム計画解読完了宣言を行った米国では、NIHが新しい責任者(Elias Zerhouni)の着任と同時に、ゲノム解読の成果を円滑に実践医療に移行するとともに、高騰する医療費の抑制を視野に入れた行動計画、NIH Roadmapを発表した。そこでは、医学、医療の重要問題の解決に、IT資源を集中するという戦略がより明確に描かれている。そのような戦略の実践として、Biomedical Informatics Research Network (BIRN)やcaBIG計画が推進されている。 NCIの "caBIG?はがん研究のためのWorld Wide Webであるが、その目的はこれまでのような情報の共有や交換のやり方を革新しようというものであり、BIRNはそれを実施するための重要な基盤に位置づけられている。caBIGでは、国家規模で研究者の情報交換網を整備し、応用プログラムなどの情報資源を共同開発、共同使用しようという、行動目標が掲げられている。(BIRN とcaBIGについての会合のビデオを、NIHの研究集会の公開資料によって、視聴することができる、http://videocast.nih.gov/Summary.asp?File=14081) 神沼らは、2003年頃より、核内受容体Nuclear Receptor(NR)と生活習慣病Syndrome X (SX)問題に、情報計算の技法と研究者を集結するという計画を、NR-SX計画として、CBI学会に提唱した。(その後Syndrome Xは、我が国でもMetabolic Syndromeという言葉が定着したため、それを採用することにした。)ヒトでは48個が同定されている核内受容体は、リガンドが結合することにより活性化され転写因子として働くSuperfamilyをなしている。核内受容体の中には、内分泌系と関係したSteroid/Thyroid/Retinoidなど古典的なHormoneの受容体もあるが、内在的な脂質やXenobiotic Sensorとして働くOrphan受容体の研究が進み、Metabolic Syndrome (我が国でいう生活習慣病とほぼ同義)や薬物代謝酵素、Transporterとの関係が明らかにされてきた。これらの研究は、食品や運動などによる疾病症状改善の分子生物学的な根拠を明らかにするもので、医学、創薬、食の科学、運動の科学、環境科学など、社会的にも重要な領域にまたがっている。この分野には、計算化学やBioinformaticsとしも先端的かつ挑戦的な課題が多く含まれており、情報計算技法のKiller Application領域と言える。そのため我々は多数の研究者を結集してITから核内受容体NRとSyndrome X(SX)問題にApproachする計画、NR-SX計画を提唱し、関心のある研究者の参加を呼びかけている。2008年の10月には、この課題での国際シンポジウムが、CBI学会の年次大会として開催される予定であるが、これをさらなる契機として、実際に多くの情報計算の専門家がこの生物医学領域に関心をもたれ、課題解決に参加してくださることを願っている。 この領域に、情報計算技法としてどのような課題があるかについては、すでに2005年3月10日に開催されたCBI学会研究講演会の資料で一部紹介してあるので、以下では、それ以後の研究を踏まえて、補足的な解説をする。 参考文献
6.2 Metabolic Syndromeおよび関連疾患の関連遺伝子探索 ヒトゲノム解読とそれに続く、ヒトのDNA配列の変異データの収集作業の最重要な目標は、単一遺伝子疾患のような稀な疾患ではなく、いわゆる普通に見られる疾患Common Diseaseの原因遺伝子を探索することにある。国際協力事業として行われている単一塩基多型Single Nucleotide Polymorphism(SNP)、その組み合わせとなるHaplotype、さらにコピー数多型Copy Number Variations(CNV)などの変異variationデータ収集は、ゲノムDNA配列の多様性と、遺伝の人種差、疾患遺伝子の探索、薬物応答の個人差などを明らかにすることを目的としている。
これらのデータは膨大であり、その解析手法も、単一遺伝子疾患で使われる家系図にもとづく解析ではなく、全ゲノム関連解析Genome-Wide Association Studyと呼ばれる技法である。これはゲノム上のSNAの位置を目印とし、疾患と関連する目印Markerを探していく遺伝統計学の方法であるが、計算量が膨大になるため、生物医学への計算機応用のよい課題になっている。
昨年(2007年)より、こうした膨大なデータの収集と解析の成果が続々と発表され始めた。その数は、「それまでに行われていた探索研究の総数を上回るもの」と表現するほど、急増している。中でも画期的といわれているのは、ウエルカムトラストの1万7千人を対象にした、7つのcommon diseaseに関する報告である。この中には、Metabolic Syndromeも含まれている。また、個別の疾患としては、糖尿病の遺伝子探索の報告が多いが、肥満に関する関連遺伝子探索は、まだ明らかな成果をあげていない。最近、Emilsson08やChen08らは、肝臓や脂肪組織の遺伝子発現を解析して、肥満との関連を示唆する成果を発表している。
これらの結果が疾患の理解や治療標的の探索にそのまま役立つにはまだ至っていないが、Common Disease関連遺伝子の探索研究は、ますます盛んになるであろう。その中で、メトボリック症候群とその関連疾患の遺伝子探索は、大きな比重を占めるであろう。また、そこで情報計算の専門家や応用数学者が活躍する機会は増大していくであろう。メタボリック症候群関連した2型糖尿病と肥満関連遺伝子探索への計算技法の応用に関しては、例えばTiffin06がある。
メタボリック症候群にはミトコンドリアも関連している。一般に、ミトコンドリアが原因となる疾患については、ミトコンドリア自身のDNAにコードされているタンパク質よりも、ミトコンドリアを標的とする宿主ゲノムにコードされているタンパク質が問題になる。そうしたタンパク質の総数は、約1,500ほどだと推定されている。MITのV. K. Moothaらのグループは、この問題に統合的取り組み方法を報告している(S. Calvo06).
6.3 メタボリック症候群とその関連疾患治療薬開発をめざしたSBDD 6.3.1 SBDDの一般的な問題 現代的な理詰めの医薬品開発Rational Drug Discovery & Developmentの図式で言うなら、メタボリック症候群とその関連疾患治療薬の開発は、原因遺伝子の探索、治療を介在させる経路網の選択、薬物標的(分子)の選択、標的分子の3次元構造の解明、標的に結合する薬物分子の探索と開発という順序を辿る。そのいずれの過程においても、情報計算技法を駆使することは、最早当然のことになってきている。とくに最後の標的分子の3次元構造を基礎にした薬分子の設計Structure-Based Drug Design(SBDD)は、Medicinal Chemistの理想の目標になっている。メタボリック症候群とその関連疾患治療薬の標的が多様であることは、標的の項で紹介しているが、それらの標的ごとに、SBDDのアプローチが考えられる。そこでは、標的分子の薬物の結合する部位とその周辺の構造と、そこに結合する薬物分子の結合様式を吟味することが、中核的な仕事となる。ただし、こうしたアプローチは、医薬品開発においてよく知られた、一般的なものであり、そこの革新的な要素はない。
6.3.2 核内受容体結合基盤計算システム Nuclear Receptor Docking Simulation Workbench 我々が、NR-MS計画として提唱している課題の一つは、核内受容体全部を対象としてSBDDを展開できるような基盤となる計算環境を整備することである。我々は、こうした基盤環境をNuclear Receptor Workbenchと呼んでいる。 核内受容体の機能を調節する低分子化合物は、メタボリック症候群だけでなく、がんや骨疎そう症、その他の疾患の治療薬として探索され、承認されたものも多い。しかし、その多くが副作用の問題に遭遇し、これを回避するために、組織特異的に作用するような、より選択性の高い薬、Selective Nuclear Receptor Modulator (SNRM)が研究されている。その好例は、ERに対するSelective Estorogen Receptor Modulator (SERM)であり、Selective PPAR Receptor Modulatorである(Gronemeyer04)。
核内受容体Superfamily全体で見ると、ERのような古典的なホルモン受容体のリガンド結合領域は狭く、リガンドは微量(nano molar, nM)で作用するが、PPAR, LXRなど脂質となると、より高い濃度(micro molar μM)で作用する。前者はリガンドが結合するポケットが小さく、後者はより広い。また、SNPデータで見ると、前者の方が変異が少ないように見える。PXR/SXRのポケットはさらに広く、複数の低分子化合物のリガンドが結合している事例も報告されている。当然、ある核内受容体を標的とした薬物がそれ以外の核内受容体にも結合する可能性はある。 さらに、リガンドが結合した複合体(dimer)がDNAに結合し、転写を調節する過程は極めて動的なものであり、DNAの応答配列だけでなく、どのような共役因子が集まってくるかによっても影響を受ける。その状況は、転写される遺伝子が置かれている領域ごとに異なっていると想像される。したがって、リガンドが核内受容体に結合した後の過程を計算などで予測することは、極めて難しい課題である。しかし、それはまた、計算化学者とBiofinformaticsの研究者にとっては、挑戦し甲斐のある課題でもある。 6.4 転写因子としての核内受容体 6.4.1 核内受容体の比較ゲノム学的な研究 Nuclear receptorの項でも述べたように、核内受容体 Superfamilyは、後生動物Metazoaに特徴的な転写因子であり、これらの動物の形態形成に重要な働きをしているとされている。ゲノム配列決定後のゲノム学の大きな課題は、遺伝子の発現機構、すなわち転写に移っている。多細胞動物の複雑さの尺度は、遺伝子の総数ではなく、転写機構の複雑さであることがわかってきたが、核内受容体は、このような転写機構の比較、すなわち動物種の進化と発生における細胞分化における転写機構の変化をしらべる重要な材料である。ここでも、ゲノム解読の膨大なデータや、non coding RNAデータ、epigeneticsデータなどを統合、比較する作業があり、計算技法の援用が欠かせない。 6.4.2 核内受容体の標的遺伝子の網羅的探索 核内受容体に限らず、一般的にある転写因子の標的遺伝子が何であるかを決定することは、現在のゲノム学の課題の一つになっている。これにはChIP-chip (chromatin immunoprecipitaion on chip) 解析のような実験手法が使われるが、計算による推定技術も開発されている。実験的な手法は労力がかかり、計算技法はまだ信頼性に欠けるが、いずれ双方が協力して、この骨の折れる仕事を進めていく必要がある。 ただし、この問題には、いくつかの困難な事情が伴っている。その第1は、mRNAが転写される条件が複雑なことである。リガンドが結合した転写因子としての核内受容体の複合体が、それぞれ特徴的な(応答)配列を認識して、結合するという図は、情報計算の専門家には極めて親しみやすい構図であるが、応答配列には厳密なものでなく、ある程度の許容性がある上に、転写を促すには、他の転写因子、共役因子、基本転写装置など、他の多くの因子が協調的に働く必要がある。この仕組みは組織特異的でもあるから、例えば培養細胞をもちいたような実験では、実際の生体で起きていることを限定的にしか再現しえない。さらに現在の知見(例えばKinis08)では、リガンドが結合して直接転写される標的遺伝子は、影響を受ける遺伝子の一部に過ぎない。すなわち、他の標的遺伝子は、2次的、3次的に発現すると考えられている。つまり、1次的な標的遺伝子の産物(タンパク質)は、2次的な転写を直接あるいは間接に促進し、それが3次的な転写を促進し、・・・という連鎖(cascade)が存在すると考えられるのだ。 この状況をさらに複雑にしているのは、転写因子がDNAに結合することや、DNAとは直接結合せず転写因子と結合すると思われる共役因子と転写因子とのタンパクータンパク相互作用とはことなる、これらのタンパク質のepigeneticな変化、例えばこれらのタンパク質の特定の残基のリン酸化やアセチル化などにも影響されていることである。 ここでは、DNA配列データを基礎にしたpromoterやenhancerの予測のようなBioinformatics的な問題から、複雑な状況を簡素にするモデル化や、膨大な実験データの解釈のための整理、DNAやタンパク質の3次構造を考慮した動的なモデリングと計算化学的なsimulation、経路や回路網的なモデリングとそれに基づくSimulationまで、多くの課題挑戦的な課題がある。
6.5 化学的な生体防御機構の解明 上記の課題と密接に関係しているのは、核内受容体だけでなく物質とエネルギー代謝に関わっている核内受容体の類縁転写因子を含めた一群の転写因子の標的遺伝子の網羅的探索と、それに基づく生体の化学的防御機構の経路網を明らかにすることである。これには物質エネルギー代謝の視点から核内受容体の類縁転写因子と見なされるSREBP、C/EBPや解毒detoxificationの観点から類縁転写因子と見なされるAhR、Nrf2が含まれる。これらの転写因子群は、生体外および生体内のリガンドが結合することで、Phase I, Phase II, Phase IIIと呼ばれる薬物代謝酵素群を誘導する。Phase IとはCYP (Cytochorome P-450)、Phase IIはグルタチオン-S-転換酵素(Glutation-S-transferase, GST)のような抱合酵素、Phase IIIはTransporterである。 単純な図式で言えば、これらの代謝酵素群は転写因子群のリガンドに作用し、それらを代謝し、生体のとって無害に化合物に変換して、生体外に排出する作用を担っているから、ここに化合物のSensor-Transducer-Processorという解毒に関連した、細胞レベルの生体防御機構が存在することになる。こうした経路網は、自然界で遭遇する毒物に対する解毒作用、環境化学物質の安全性、薬物動態の基盤になっていると考えられる。 薬物酵素は古くから知られており、よく研究されているが、この生体防御で重要な働きをしているFeedback機構である、Sensor-Transducer-Processor というModelは、まだ十分認知されていないが、医学、薬学、環境問題における基盤的な知識に位置づけられるべきであろう。 6.6 Digital Physiology的な課題 6.6.1 経路網からの疾病理解 現在、「疾病を経路網から理解するPathway/Network to disease」という考えは、医学の時代精神になりつつある。実際、人体発生学、がんを始めとして、医学の教科書はこの考えの下に書き改められつつある。もちろん、この場合の経路網とは、現実に生体内で起きている現象の特徴を捉えた(いわゆる疎視化した)、簡略化された記述である。それは知識の整理や行動の指針として役立つものではあるが、そのまま数値化してSimulationに使えるようなものではない。さらに、そうした記述可能なのも、現実の生体現象のごく一部である。したがって、そうした経路網を書き下ろし、それを疾病理解や病気の診断や治療に使うためには、経験のある人間が介在しなければならない。医学教科書を機械的に参照しても診療ができることにはならないように、経路網を計算機で機械的に処理しても、疾患の理解も、治療の指針もえられない。 しかし、このような経路網を描くことはデータや知識の整理としては、大いに役に立つ。そこで現在の生理学あるいは病態生理学を経路網の知識を入れて書き直し、さらにそれらの教科書を計算機で処理可能なように書き直すということが考えられる。例えば、従来の教科書なら、主に文章、写真、図で構成されていたが、これらはすべて計算機で処理可能である。また、それらの内容を基盤的なデータベースと連係することも可能であり、柔軟かつ横断的な検索機能をつけることも可能である。生理学の教科書をこのような形式にすることを仮に"Digital Physiology"と呼ぶことする。 地図のデジタル化は、カーナビゲーション装置を生み出した。これと同じように、研究者や場合によっては臨床家が、特定の疾患や病態に関する経路網を自在に取り出し、研究計画を立てたり、データ分析に役立てたり、治療の参考情報としたりすることは可能であろう。現在、生命現象や疾病現象のModelingやSimulationを指向した規模の大きな研究計画が見られるが、それらの多くは、我々の指向するところと多少異なる。 Aldons J. Lusis, A thematic review series: systems biology approaches to metabolic and cardiovascular disorders, Journal of Lipid Research, 47: 1887-1890, 2006 スイスのSystems Biology医療 Competence Center for Systems Physiology and Metabolic Diseases (CC-SPMD、http://www.ccspmd.ethz.ch/research/index) Systems Biology of beta-cell consortium http://www.ccspmd.ethz.ch/about/scientific_programs/beta_cell_consortium イギリスのSystems Biology計画 Integrative Systems Biology http://www.bbsrc.ac.uk/science/initiatives/cisb_phase2.html ドイツの肝臓モデル計画 HepatoSys (http://www.systembiologie.de/en/index.html) Nature Podcasts (http://www.nature.com/podcast/index.html) SYSTEMS BIOLOGY PODCAST Systems Biologyを標榜するこれらの計画は、「最初にMethodologyありき」のように見える。我々の計画は、「最初に問題ありき」であり、Methodologyの開発は2次的である。また、これらの計画は、「現実を再現するSimulation」を重要視してようであるが、我々はそうした厳密なSimulationを指向しない。重要なのは「現実問題の解決に役に立つか」であって、「厳密に再現する」ことではない。なぜなら、ある現象が生体内で起きている場合、それは状況によって大いに変化するものである。したがって、厳密なSimulationをしようとすると、Modelを解く条件を、ある特定のものに合わせることになる。しかし、Modelのパラメータを特定なものとして、それの条件だけで現実の現象を再現できても、他の条件下の再現はおそらくできないことになる。現実を再現するとは、あらゆる条件を設定して、その一つ一つに厳密に合うようなパラメータを設定したモデルでSimulationする必要がある。もちろん、金と人に糸目をつかない、資金に恵まれた大規模な研究計画であれば、こうしたことを進めることもある程度可能であろう。しかし、そうしたことが許されない環境では、もっと費用効果の高い方策を考える必要がある。 我々の計画では、あくまでも「問題解決における人間(専門家)の考える作業を支援する」ことを重視する。それゆえ、まず重要なのはデータや知識を扱いやすい形式に整理することが第1義であり、Simulationは2義的なものと考えている。次にそうした観点からMetabolic Syndromeの理解に役立つと思われるデータや知識整理の仕事をいくつかの挙げてみる。 6.6.2 脂肪組織 Adipocyte メタボリック症候群の2つの特徴である肥満とInsulin抵抗性を結びつける分子経路網の鍵を握っているのは(内臓)脂肪組織あるいは脂肪細胞Adipocyteである。そのモデル化には脂肪細胞の肥大化Adipogenesis、それに伴う各種の分泌物Adipokineの量的な変化、その自分自身の細胞や他の組織への影響とそれからのフィードバックなどの仕組みを因果的経路網として表現することが望まれる。Adipogenesisには、核内受容体のPPARγとC/EBPが関与していることが知られている。また、他の臓器への影響は分泌される多様なAdipokineの作用の結果であると考えられているが、その全容はまだ解明されていない。Adipokineは100近くあると推定されているが、それらは状況に応じて分泌量が変わるから、その存在を確認するためには、さまざまな条件下でのけ計測実験が必要である。 脂肪細胞の分泌因子としてとくに重要なのは、脳への満腹信号となるleptinや、インスリンの効果を保証するAdiponectinや、炎症に関係したTNF−α、IL-6などである。脂肪細胞内に蓄積される脂肪量Fat massと、これらの分泌因子との関係とそれらの変化、さらにそれらの因子の他組織への影響とその病態生理学的な意義などについて、実験事実を集約し、分子経路網を整理して、モデルを構築し、実験家の利用に呈するような仕事は、これまではデータが不足していて難しかったが、これからは可能になってくるであろう。次の論文は、こうした仕事に関心のある情報計算の専門家のための入門論文である。
6.6.3 Insulin/IGF経路網と長寿経路 Longevity pathway 肥満と並んで、メタボリック症候群の重要な指標はInsulin抵抗性であるから、血中を移動していったInsulinが標的組織に到達して、その膜上のInsulin受容体と結合した後の分子信号の流れは、メタボリック症候群および関連疾患を理解する重要な対象となる。Insulinが結合する受容体はInsulin/IGF受容体と呼ばれる。IGFとは、Insulin like growth factorを意味する。Insulinの標的組織として重要なのは、筋肉、肝臓、脳、膵β細胞なのである。 Insulin/IGF受容体の下流に位置する分子信号経路網の重要性は、線虫やショウジョウバエなどのモデル動物を使った寿命延長の実験からも浮上した(Guarente00, Kenyon05)。そこで、この分子経路網の中核位置する転写因子FOXO(線虫ではDAF-16)の標的遺伝子の同定という問題がBioinformaticsの研究者の関心を惹くことになった(Xuan05, Murphy06)。 これはいわゆる長寿に関わる経路Longevity pathwayの一部である。現在、長寿に関わる経路はがんをはじめとする、さまざまな疾患に関係していることが知られるようになってきており、その全体像をスケッチすることが試みられている(Geer08)。
6.6.4 摂食制御の経路網 Food intake control pathway/Network 治療標的のところでも紹介したように、現在、中枢神経系の摂食調節の経路網が明らかにされつつある。この回路網とその担い手であるホルモンや神経ペプチドの関与をモデルとして、詳細に記述するモデルの構築が実験家と情報計算の専門家に共通する近未来の課題であろう。 6.6.5 その他のモデル メタボリック症候群を分子経路網から理解することにつながるようなモデル構築の課題は、まだいろいろ考えられる。インシュ関係する膵β細胞のモデルや、肝臓における糖gulucoseや脂肪の合成や分解などは、その例である。また、選択された治療薬の作用を解析する、治療薬が結合する標的からの信号の流れや、複数の薬物を使っての疾患制御のモデル、副作用を回避しつつ効果を上げる薬物の(最適な)投与法など、開発すべきモデルは多数ある。 6.7 Modeling/Simulation Tool 生物医学におけるModelingやSimulationについては、米国のNational Research Councilでまとめた報告書が詳しく、現状を知るのに役立つ。
6.8 知識を扱う技術 一般に生物医学のModeling/Simulation Toolというと、連立微分方程式を解くというイメージが支配的であるが、より重要なのは膨大なデータや知識を計算機で処理する技術である。なぜなら、連立微分方程式を解くというような問題は、すでに物理学や工学の問題として、かなり問題解決の環境が整備されているからである。それに対して、データや知識を扱う技術はまだ発展途上にある。とくに、急激の普及したWWWを基礎にしたデータや知識処理システムの研究は、まだ歴史が浅い。その意味では、後者に投資した方が研究開発への投資としては効果が期待できるのは明らかである。 6.9 研究者の情報交換網 研究者の情報交換の基盤となる支援システムのイメージは、最初に述べたようなNIHが支援するBIRN やcaBIGである。しかし、これらのシステムの開発、維持にはかなりの予算が必要である。同じようなモデルを我々が期待することはできない。また、我々はより目的を絞った研究者のための情報交換環境を提示したいと考えている。
6.10 Publicとの連係 我々の計画は、メタボリック症候群問題の解決であるから、そこでは当然、実践の問題に行き着く。それは患者だけではなく、メタボリック症候群の予備軍と呼ばれている人々、あるいは国民や市民一般の健康への意識向上と予防的な実践活動までが含まれる。こうしたPublicとの連係をどうするかは、これからの課題である。 |