ライフサイエンスのためのデータ構成　- その課題と可能性

執筆者:

December 8, 2023

CASのニコル・ストバート、ジェフ・ウィルソン、マーク・シュミットとの対談

データ構成と識別子は、CASが世界をリードするキュレーションとインデックス作成の基礎として、化学分野で約100年にわたり使用されてきました。弊社ライフサイエンスチームは、今度は同じようなインデックス作成ツールを、別の業界のために作ることを検討しています。この記事では、ライフサイエンス部門のシニア機能マネージャーのニコル・ストバートと、シニアデータサイエンスマネージャーのジェフ・ウィルソン博士、そしてリードデータスチュワードのマーク・シュミットに、オーソリティ構成を用いてどのようにして新たな道を切り開いていくのか、話を聞きました。

CAS：データ構成とはどのようなものですか。

ジェフ：私たちの視点では、データ構成は識別情報、つまりデータということに重きをおいたものになっています。それがタンパク質であれ、化学物質であれ、核酸であれ、どんな領域であっても、それを一意に特定できるようにしたいのです。化学コレクションにおいては、歴史的にはそこにCAS REGISTRY®が存在してきました。そしてそれが、古典的な拠所となっています。 CAS REGISTRY内では、さまざまな化学物質が一意的に記述されており、そしてキュレーションの際には、ある物質と同じものが現れるたびに、同じ記述で識別されるようになっています。単純な例を挙げると、アセトアミノフェンがあります。それをアセトアミノフェンと呼ぼうが、タイレノールやパラセタモールと呼ぼうが、いずれの呼称でも、同じ化学物質として識別されるわけです。

CAS：データ構成がライフサイエンスの科学者にとって重要なのはなぜですか。

ニコル：現行のデータ構成は、低分子なら問題なく機能します。ではタンパク質や酵素ではどうなのでしょうか。 確かに、それぞれに関連付けられる配列はあります。では、アミノ酸がひとつ変化した配列は、別のデータでしょうか。研究者がこの問題で苦労していることを、私どもは把握しています。今まで、さまざまな企業や組織がその整理を試みましたが、バイオ医薬品について完全に根拠に基づいた整理に至ったものはありません。 CASが生物学的情報を顧客に提供しようとしていたときにわかったのは、まず根拠に基づいて整理しなければ不可能だということでした。データを単に大量に集めるだけではなく、それを根拠に基づいて整理すること。そしてその整理方法が、自分たちだけでなく、世界中のほかの人々も望むような方法になるようにすることです。

マーク：ライフサイエンスの分野で私たちがしようとしているのは、重要な事をすべて特定し、そしてそれは何なのか、そして何と呼ぶかについての合意を得ることです。そういったことこそが拠所なのです。私たちの従来の業務の流れでは、そこに何か化学物質があるときは、CASの化学物質コレクションを見ればそれが何だかわかります。そしてその物質に関する新しい情報があれば、そこに追加するわけです。今度、タンパク質や酵素といったライフサイエンス分野で、これと同じようなことを可能にしようとしています。そしてそのためには、まずそれらのデータについて、合意が必要になります。

ジェフ：個々の研究者や場所にもよるのでしょうが、曖昧さを残さず明確にモノを記述することができれば、私たちが提供するデータに、もっと一貫性と信頼性を持たせることができるはずだと思っています。端的に言えば、これはCASがずっとやってきたことに帰結します。つまり、データを検索可能になるよう整理し、そしてCAS SciFinderなどの検索ツールを使って検索をする。それをがんと呼ぼうが肉腫と呼ぼうが、どちらを使っても呼び出すことができる。それらの用語の関係はすでに把握されているからです。データを検索するのに、そういった別々の用語の入力を強いられることもない。どっちかひとつの用語を使えば、あとはバックグラウンドで処理され、すべてのデータが呼び出されるのです。

ただの検索と取得という範囲を超えて、もっと高度な作業、例えばナレッジグラフや重要な関連性の発見などの場合は、データがさまざまなノードに分散されていると、正確なナレッジグラフは構築できなくなります。もし私が標的としてあるタンパク質に関心があったとしたら、そのタンパク質のデータは、単一のノードに格納されていてほしい。で、その他の関連データについては、それぞれ個別のノードに格納されていればいいと思います。そうしないと、このタンパク質のノードは15個とか、該当疾患のノードは12個とか、同一の物質のノードは7個など、絶望的に複雑なナレッジグラフになってしまいます。こんな複雑なグラフでは、例えば3つのデータが実はそこにあること、それらが予測可能な形で関連していること、そういったことなどがわかりません。それぞれのデータが事前に定義されていないからです。

CAS：CASでは、キュレーションはどのように定義しますか。

マーク：「キュレーション」と言った場合、一般的には2つの意味で使われています。 まず、データのインジェストとアグリゲーションです。これらは、CASでは通常キュレーションとは呼んでいません。そして、CASで長年にわたり実施しているキュレーションがあります。科学者が元の情報源に目を通し、それを知的な努力によって情報の抽出と改善をし、そしてもっと構造化された形で利用可能な状態にすることです。

ジェフ：CASの科学者のほとんどは、マークが説明したようなキュレーションに関わっています。一次情報源から重要な情報を抽出し、それを改善および標準化して、他のデータポイントに連携させます。そして実は、その後にもうひとつ手順があります。 CASには別のグループが存在していて、そこではデータコレクション自体をキュレーションするのです。新しい情報が入ってきたら、それを見て、判断をする。これは、新しいものだろうか？それともそうではないのか？これはどのように整理するべきだろうか？これはどこと、どのように関連しているのだろうか？どの用語を使うべきなのだろうか？そう言った事を判断するのです。この判断は、一次文献から情報を抽出する担当者が行うのではありません。データコレクションのキュレーションをするための担当者がいるのです。

マーク：重要なのは、データ構成に終わりはないということです。 新規に発見されたものや、新たに登場した興味深いものなど、常に新しいものが追加され、そして新しい類義語が追加されて、有用性の維持がおこなわれています。

CAS：キュレーションにおけるデータ構成の利点とは何でしょうか。

ジェフ：データ構成を用いてデータや用語を集約し始めると、新しいインスタンスの識別が単純になります。 あるデータがあって、その名称がすべて集まってデータ構成が作成されれば、瞬時で確認したり一致させたりできるようになります。同義語があるとキュレーションが進むわけです。

マーク：データ構成は、周辺の情報をすべて整理して集約するのに役立ちます。タンパク質の場合で言えば、同じものに対する私の呼称とあなたの呼称は違うかもしれません。でも、あなたが使う呼称と、私が使う呼称がわかっていれば、すべての情報を同じデータの下に収めることができます。そうやって、すべての情報をまとめることができるのです。

CAS：AIを活用し、データ構成やキュレーションに役立てることは可能ですか。

ニコル：AIによるキュレーションを可能にするには、その対象が何であれ、根拠に基づいて整理と識別がなされているか確認する必要があります。機械学習や機械によりキュレーションされたデータは、すべて手作業で整理されているか、少なくとも根拠に基づいた方法で考え、識別されているのでなければ、信頼することは大変困難です。

ジェフ：AIとデータの関わり方について、CASには人の能力を高めるため可能な限り最先端の技術を活用する、という基本的哲学があります。 CASにはキュレーションを担当する科学者が何百人もいて、そして現在やっていることを見てみると、それは30年前にやっていたことより遥かに洗練されているわけです。私たちは、新しい技術を採用するときは、私たちが人間としてより高度な仕事をできるようにするために使います。自然言語処理や機械学習においては、文献の特定や洞察に役立てるために技術を活用しています。しかしその結果が出たら、必ず人間に渡され、そこで人間によって何が重要なのか、何が妥当なのか、そしてどのように整理されるべきかが最終的に判断されているのです。

そして、そうやって構造化されたデータが作成されたら、今度は同じことを技術とAIソリューション側のほうでも行います。つまり、求められている情報と、そしてそれに関連している情報を提供できるよう、それに最もふさわしい技術を活用するようにしているということです。予測技術を使って合成計画の立案に役立てたり、AIエンジンを使って先行技術を予測したり、ブール検索を使って求めているものを探したりするのです。要するに高度に構造化されたデータがあって、その上にAI技術をかぶせているわけであって、決して人の代わりにAIを使っているわけではありません。

CAS：CASでは、生物学的データの定義と識別に、どのように取り組んでいくのでしょうか。

マーク：ここで遂に、データの記号論の話をしないとなりません。 ライフサイエンスにおいては実に難しく複雑な問題であり、私たちもそれを認識していて、毎日ケースバイケースで対処していることです。完璧にはできないかもしれません。でも最善を尽くすつもりです。合理的で、また擁護できる選択をして、ライフサイエンス分野の人々にとって有益なものにしたいと思っています。毎回必ず、すべての人が満足することはできないかもしれません。でも、それを予測可能で明確なものにすることで、私たちが提供するシステムを信頼して利用していただけるようにしたいと思っています。

例えば、「ヌクレオチド1個が違うだけで、新しいデータになるのか、ならないのか」という質問が来た場合、それはどちらなのか選択すればよい問題です。でも、3つの異なる単一ヌクレオチド多型が、3つではなく1つのデータになるのならば、私たちは絶対その3つの違いをすべて記述し、そしてその1つのデータに紐づけする必要があります。つまり、異なったものがひとつのデータにまとめられるべきと私たちが判断した場合であっても、すべての情報は依然として発見可能になっていて、相互接続されていて、またアクセス可能になっていないとならないのです。

最初に、記号論的データを選び、それを定義しておきます。そして、新しい情報が入ってきたら、その都度、「これは新しいデータなのか、それとも既存のデータに追加すべきか」を判断します。計算処理能力は可能な限り活用したいわけですが、どんな時であっても、最終的な判断はその分野を最もよく知る人間がおこないます。そうすることで、信頼できるサービスが提供できるのです。

ジェフ：つまり明確で一貫性があって、しかも包括的なルールセットを、前もって構築しておきたいのです。 データの定義や情報の集約を試みたことのない方にとっては、すごく恣意的に感じられるかもしれません。しかし、情報を整理する際には、常に明確で一貫性のある方法を選びたいと思っています。特定のケースでは科学の微妙なニュアンスが見られることはあります。しかし、それ以外のすべてに対して例外なくルールを適用してしまおうとすると、色々分散してしまい、かえって見つけにくくなり、集めにくくなってしまうのです。それよりも、すべての99％程度に通用できるルールを作ったほうがうまくいきます。化学の分野では、時々科学者から、「CAS REGISTRYではこのように記述されているが、それは間違っている。別の方法で説明したほうが良いとするデータがある」と言われることがあります。そういったときは、CASのコンテンツは発見可能性を中心に整理されている、と回答しています。そしてそこがポイントなのです。たとえ科学的に微妙なニュアンスが見落とされたとしても、キュレーションというのは、求めているデータに一貫してユーザーを導く必要があるのです。

CAS：ライフサイエンス分野でそういったデータを作成するにあたっては、構造を使うのですか、それとも機能ですか。

マーク：多くの生物学的データ、特にタンパク質では、構造よりも機能です。しかし多くの場合は、両方の組み合わせです。 化学のデータ構成は、構造だけをもとにして簡単に構築できます。でもライフサイエンスではそうはいきません。タンパク質、抗体、生物など、解決しなければならない異なった拠所が複数あります。そして、それぞれに対して独自の方法でアプローチしないとなりません。ライフサイエンスに進出するにあたり、ただの構造ベースのデータィから離れて、従来とは違う方法も必要になってきます。

CAS：生物学的機能が時間の経過や新しい研究によって変化していく中、機能を基準にして定義するなら、長期間の存続に対してはどう取り組むつもりでしょうか。

ジェフ：私どもは常に将来を見据えるようにしています。ライフサイエンスが10年後にどうなっているか予測はできないわけですが、それでも一貫性のある構成を構築する中で、柔軟性と拡張可能性は組み込んでいきます。そこで重要になるのは、どんなときに現在の構成概念を使い続けるべきなのか、逆に新しい科学分野が出現して新しい構成概念が必要なのはどんなときなのかを見極められることです。科学者が、タンパク質の記述をやめることはないでしょう。しかし、新しいデータ構成が必要となるような、ある種のサブカテゴリーが登場する可能性はあります。

マーク：最初に合理的な記号論的データを確立しておけば、将来、データのひとつをもっと具体的なデータに細分化しやすくなると思います。 例えば、生物の属種の命名について考えてみると、あれは非常に長い間、機能してきています。亜種が必要になったからといって、属種モデルが完全に無効になったわけでもありません。構成概念についても、もっと具体的に細分化できるよう設定しておくことはできると思います。しかし、そうなったからといって構成概念自体が完全に廃れたということにはなりません。

CAS：断片化されたライフサイエンスのデータ構成を集約する組織として、CASが適切である理由は何でしょうか。

ジェフ：何かの世界的拠所になると、ある程度の自給自足が可能になります。化学物質に関しては、CAS REGISTRYに疑問を持つ人はいないでしょう。根拠に基づいた存在だからです。化学物質のコレクションは他にもいくつか存在しますが、CASは組織として、他のほとんどの組織の追随を許さない特別な地位にあります。米国化学会の一部門として、単に利益を上げることではなく、科学を促進することが私たちの使命です。 CASには、CAS REGISTRYでおこなったように、ライフサイエンスのデータに取り組み、整理するために必要な人材と専門知識と空間があります。このプロジェクトの完了時に、私たちがタンパク質の拠所になれていなかったら、それは努力不足だったからでしかありません。そういうつもりでいます。

マーク：意味あるデータのセットに関する合意が必要という気持ちは、ライフサイエンスにおいては結構普遍的にあります。そしてこれは、低分子化学では私たちがすでに解決した問題のひとつなのです。多くのライフサイエンスの科学者は、明確なデータのセットと、その構造に基づいてデータを整理するための相互関係性が定義されることを望んでいます。私たちは今、この複雑性の真っただ中に飛び込んで、混沌に秩序をもたらそうとしています。それがある程度十分に達成された時には、CASは重要なタンパク質をすべて把握しているということ、そして多くの人が利用できるような形でそれらの説明をしているということを、受け入れてくれるようになることでしょう。そして、求めるタンパク質がそのコレクションになかったら、完全に別個のデータベースを独自に作ろうとするよりは、私たちに知らせてくれて、このコレクションに追加するほうがよいと考えるでしょう。私たちが目指しているのは、そういうものです。単なるデータ構成コレクションを持っているということではなく、ライフサイエンス領域の拠所になることなのです。

CAS：今までにやってきたことと、現在やっていることは、どう違うのでしょうか。

マーク：私が思っているのは、多くの科学領域では現在、問題が発生したら、それは自分自身や同僚のためだけに、自分たちにあった方法でローカルに解決しているのではないかということです。自分たちが関心を持っているデータだけに関して、しかも自分たちが理解できればよい方法で記述された情報で、独自にデータベースを作っているのではないかと。すると今度は別のところで、一部は同じだけれども一部は異なっている研究をしている人が、その同じデータに対してそれとは異なった方法で記述をし、異なった情報を組み立てたりしているわけです。そうした中、その比較的狭い領域を統合させ、その研究者たちを同じ土俵に立たせて、領域間の境界を越えた発見を促進させるようなプロジェクトが発足したりします。ライフサイエンスの分野で、これはすでに起こっているわけですが、そのときに大量の情報を統合させてひとつのデータのセットにまとめるという手法は今まではなかったわけです。

私たちが目標としているのは、例えば研究者が、標的タンパク質をひとつ調べるために訪れてくるとします。そしてそのときは、それが3つか4つの生物学的経路の一部になっていることを特に意識しないで来ているわけです。ところが、自分の標的のデータを発見すると、それは一連の情報の中にある。それを見てはじめて、その研究者は色々な関連性を知るわけです。そんな空間を目標としています。さらにそのタンパク質が、疾患の状態や治療成果のバイオマーカーとして使われてることも、そのときに知るかもしれませんね。ひとつのデータに対し、その周りにあるさまざまな場所からすべての情報を集約すると、そうやって情報を発見して活用できるようになる。そして、以前は得られなかった価値が生まれるようになるのです。

ジェフ：世界には、断片的な一部分だけを集約している小規模の組織がたくさんあります。 Disease Ontologyがあります。Uniprotはタンパク質の整理を試みているし、NCBIには生物データベースがあります。これらはそれぞれ、それ自体が立派なデータ構成です。でも、どことも有用な方法で接続されていません。自分であちこち、行ったり来たりしないとならないのです。私たちが切実に求めているのは、ここに来ればライフサイエンス全体のデータがすべてつながっていて、ハーモナイズされているような、そんな統一されたデータセットです。そのためには、タンパク質に関するUniprotの視点、Ensembleの視点、そしてCAS REGISTRYの視点を取り込んで、単一の視点と単一のデータのセットにハーモナイズする必要があります。しかも、そのセットから、元の小規模コレクションに戻ってアクセスできるようにもなっている。いったん接続されれば、以前は発見できなかったことが明らかになるので、各部分の和より大きな価値が生まれるようになります。

ニコル：私たちは、世界で最も包括的なライフサイエンスのデータベースを構築したいのです。私どものお客様が直面している問題や課題を解決したい。そしてどんな問題に直面しているかと言うと、ライフサイエンスにおけるオーソリティ構築の必要性に直面しているのです。

CAS：この領域に参入するにあたって、他の既存データベースからの反発はありましたか。

マーク：全員と仲良くすることはできません。 ある時点で、根拠に基づいて、選択をしなければならなくなるでしょう。すでに確立されていて、定着したものには反対しづらいので、そうならないよう努力する予定です。これまで慣れ親しんできた呼称と違う呼称を使うよう、全員を説得するつもりはありません。逆にそういったものを土台にして構築したいと考えています。

原則は簡単です。既存のデータベースとは協調していく、ということです。しかし実際には、困難な選択が確実にあります。 2つのデータベースで、同じものを表す言葉が異なっているとき、どちらか一方を選ぶか、または新規に別の言葉を選んで、両方を改善しようとするか、どちらかになります。すごくたいへんそうに聞こえますが、そこにたどり着くまでの困難こそ、私たちがこの領域にもたらす価値であり、お客さまにお届けしたいものであると思っています。

ニコル：既存のデータベースを使っていて、そこに価値を見出している人たちを疎外したくないのは確かです。 私たちが目指しているのは、既存のものにさらなる価値をもたらし、追加をしていくことです。他のキュレーターの方々とはまだ話をしていないので、彼らがどう感じるかは、今後の課題ですが！

ジェフ：キュレーションに携わっている科学者は実は少数派です。私たちは多数派の助けになりたいと考えているので、ある意味キュレーションの科学者はあまり気にする必要はないと思います。そして、数多くの科学者から耳にするのは、必要なデータへのアクセスに苦労しているという点です。

ニコル：そのとおりです！最近、抗体情報のデータベースを作った科学者と話しました。その方が言うには、それを作ったのは抗体データを整理したかったからではなく、予測モデルを実行するのに抗体データが必要だったからだそうです。多くの科学者がこういった状況にあります。研究を進める妨げになっているのです。そしてこれこそ、私たちが改善したいことなのです。

CAS：魔法の杖で、データ構成について何かひとつ改善できるとしたら、何を改善したいですか。そして、それはどのような影響を及ぼすと思いますか。

マーク：解決したい問題は、同じ意味を指すものに対して、みんなが同じ言葉を使うことです。 それができれば、これはものすごくやりやすくなるでしょう。今回の取り組みを占めている大きな部分は、何かを説明するために科学者が使っている言葉、それに対して正しいデータを見つけて、そして今度はそれに言葉を結びつけることです。もし私たちが、その言葉を絞り込むことができれば、そして全員の同意を得ることができれば、そのすべてを省略できるでしょう。

ジェフ：私の場合は、より多くの人がデータ構成を理解してくれて、そして有用な方法でそれを作り出すためのビジョンと情熱を持つことです。それを支援する組織の中にいてさえ、未だにそれがなぜ必要なのか、どんな価値がもたらされるのかといった事を説明するのに、多くの時間を費やしているくらいですから。無論、これを提唱していくことは、やりがいはあります。しかし自分にとって好きなことからは、少し逸れてしまっています。つまり実際にデータに関わって、何かを作り出すということですね。

ライフサイエンスのためのデータ構成　- その課題と可能性

ライフサイエンスのためのデータ構成　- その課題と可能性