omniture

Basecamp Research、AI創薬拡大に向けた「Trillion Gene Atlas」を発表

Basecamp Research
2026-03-19 03:43 79
  • このAtlasは、既知の進化上の遺伝的多様性を100倍に拡大し、世界各地の数千か所において、1億種を超える新たな生物種から新規ゲノムデータを収集する。
  • Anthropic、Ultima Genomics、PacBioとの提携に加え、NVIDIAのAIインフラを活用することで、Basecamp Researchは、20年以上を要する生物学データの収集および解析を2年未満へと短縮することを目指す。
  • EDENモデルのトレーニングにより、新たなスケーリング則が明らかに:生物学データセットがより大規模かつ高密度になるほど、AIの能力は飛躍的に向上し、さまざまな疾患や治療法における新薬の設計が可能なシステムへの道が開かれる。

テキサス州オースティンおよびカリフォルニア州サンノゼ, 2026年3月18日 /PRNewswire/ -- 生物学的設計分野における先進的なAI研究機関であるBasecamp Researchは本日、1兆遺伝子規模で生物学データの生成およびモデリングを行う画期的な科学プロジェクトである「Trillion Gene Atlas」の立ち上げを発表しました。Anthropic、Ultima Genomics、PacBioとの協業のもと、NVIDIAのAIインフラによって支えられるTrillion Gene Atlasは、世界各地の数千の地点において1億種を超える生物種からゲノムデータを収集することで、既知の進化的遺伝的多様性を100倍に拡大することを目指しています。

これは、Basecamp Researchの拡大する世界規模の生物多様性パートナー・ネットワークによって可能となっています。最終的な目標は、AIシステムが進化から学習し、オンデマンドで新たな医薬品を設計できるようにするために必要となる膨大かつ多様なトレーニングデータを提供することです。

Basecamp Researchの共同創業者兼最高経営責任者(CEO)であるGlen Gowers氏は、オースティンで開催されたSXSWにて、「現在の生物学AIモデルは、地球上の生命のごく一部のみを対象としてトレーニングされています」と述べました。「Trillion Gene Atlasは、公開データベースに含まれている範囲をはるかに超え、既知の遺伝的世界を桁違いの規模で拡張するものです。この規模でモデルをトレーニングすることにより、プログラム可能な治療設計における新たなパラダイムが確立されます。」

本取り組みは、ヒトゲノム計画に匹敵する規模のものであり、オースティンで開催されたSXSWのヘルス・トラック(Health Track)およびサンノゼで開催されたNVIDIA GTCカンファレンスにおいて発表されました。

生物学データのボトルネックに対応

モデル規模と計算能力が飛躍的に増大する中で、多様なデータは、AIによる創薬および実環境における評価ベンチマークの進展を支える重要な要素となっています。現在のすべての配列ベースの基盤モデルは、同一の公開リポジトリの派生系データに依存しており、そのうちの80%は、2億5,000万件未満の配列を含む公開データベースでトレーニングされています。

Basecamp Researchが1月に公開したEDEN基盤モデルは、すべての公開リソースを合わせた規模の10倍以上に達している、Basecamp Research独自のゲノムデータベースであるBaseData™のみに完全に依拠してトレーニングされており、これにより、業界における進化的な「データの壁」を回避しています。EDENは、新たに発見された100万種にわたる科学的に未報告の100億個の遺伝子から学習することで、生物学分野におけるAIの重要な新たなスケーリング則を解明しました。

このデータセットの多様性における大幅な拡張により、EDENは単なる予測の段階を超え、疾患に関するプロンプトから直接多様な治療法を設計できる初のモデルとなりました。ウェットラボでの検証において、EDENは、ヒト由来または臨床データを一切使用することなく、初代ヒトT細胞においてゼロショット活性を実証しました。同モデルは、複数の先端モダリティにおいて有効なヒットを創出することに成功しており、特に、健常遺伝子を挿入するAI-Programmable Gene Insertion(aiPGI)を先駆的に開発するとともに、優先度の高い病原体に対して97%のヒット率を有する標的型抗菌ペプチドの設計を実現しました。

Trillion Gene Atlasは、このアプローチを基盤としてさらに発展させ、AIトレーニングに適した既知の「生物学のインターネット」におけるゲノムデータの網羅性およびコンテキストの深さを大幅に拡張します。

「モデルを大きくするだけでは十分ではありません」と、Basecamp Researchの最高技術責任者(CTO)であるPhil Lorenz氏は付け加えました。「EDENは、生物学AIの性能が、より高品質で完全にコンテキスト化されたデータによって、はるかに急速なスケーリング軌道に従うことを示しました。Trillion Gene Atlasは、この原則を100倍に拡張するものです。」

グローバルな生物多様性パートナーシップ

過去6年間にわたり、Basecamp Researchは31か国にわたる科学分野の共同研究パートナーのネットワークを構築し、AIトレーニング向けに特化して設計されたスケーラブルな進化ゲノミクス・パイプラインを構築してきました。同社は、新たな規制および経済の枠組みと完全オフグリッド型のDNAシーケンシング技術を組み合わせて先駆的に導入することで、従来の研究施設ではアクセスできない生態系から高品質なゲノムデータを収集しています。

これらのパートナーシップは、知識の共有、現地における能力構築、および新たに整備が進むデジタル配列情報(Digital Sequence Information)規制に整合した公正なアクセスおよび利益配分(Access and Benefit-Sharing)契約に基づいて構築されています。この枠組みにより、責任ある形で大規模かつ高品質なゲノムデータの収集が可能となるとともに、パートナー地域内における科学インフラおよび人材育成への投資が促進されます。

Atlasの立ち上げの一環として、Basecamp Researchは、チリおよびアルゼンチンにおける新たなパートナーシップの締結と、南極における協業の拡大を発表し、グローバルな生物多様性ネットワークをさらに拡充していきます。

Ultima Genomics、PacBioおよびNVIDIAとの連携によるデータ生成と計算能力のスケーリング

Trillion Gene Atlasは、超高スループットのショートリードおよびロングリードシーケンシングと高速コンピューティングの進展によって実現されています。Basecamp Researchは、Ultima GenomicsおよびPacBioと提携し、データ量が豊富で高精度な長鎖リードを含む産業規模のシーケンシングの提供を実現しています。

Ultimaは、超高スループットの次世代シーケンシング(NGS)システムの開発企業です。Ultimaの最新シーケンシングシステムであるUG200 Seriesは、同社独自のウェハーベースのシーケンシングアーキテクチャーを進化させ、低コストで産業規模の全ゲノムおよびマルチオミクス解析を可能にし、Trillion Atlasのような取り組みを支えています。

「生物学は、言語やコンピュータービジョンなどの分野と比較して、根本的にデータ不足の状態にありました。これは、研究者が大規模にデータを生成するために必要なツールを欠いていたためです」と、Ultima Genomicsの創業者兼CEOであるGilad Almogy氏は述べました。「私たちは、AIが生物学および人間の健康に対する理解に計り知れない影響をもたらすと強く確信しており、UG200シリーズは、この可能性を実現するために必要な大規模データセットをBioAIが活用できるよう、ゼロから設計されています。当社の技術がBasecamp Researchのビジョンの実現を支援し、Trillion Gene Atlasのような革新的な取り組みの推進を可能にすることを大変嬉しく思います。」

「PacBio HiFiシーケンシングは、完全なゲノムコンテキストを保持した高精度のロングリードを提供し、複雑なサンプルにおいて亜種レベル、さらには株レベルでの解析を実現します」と、PacBioの社長兼CEOであるChristian Henry氏は述べました。「HiFiデータは、生物学AIモデルが自然から大規模に学習するために必要な、信頼性が高く情報量に富んだ基盤を提供し、Trillion Gene Atlasのような取り組みを支える役割を果たします。」

Trillion Gene Atlasは、ペタベース規模の膨大な遺伝データを処理するために、NVIDIAの加速コンピューティング・インフラによって支えられています。本取り組みの一環として、Basecampはメタゲノム・アセンブリを大幅に高速化するため、NVIDIA Parabricksの活用を計画しています。本協業は、高度なエンジニアリングと新たなアルゴリズム手法の開発の双方に焦点を当て、複雑な環境サンプルの再構成方法の最適化を目指しています。今回の高速化により、従来であれば20年以上を要していた数千兆塩基対規模のDNAの処理が、2年未満で完了する見込みです。

並列化されたデータ処理、自動化されたアノテーション、および大規模なモデル・トレーニングを通じて、パートナー各社は、従来であれば20年以上の処理時間を要していた作業を2年未満に短縮できると見込んでいます。シーケンシング、アセンブリ、アノテーション、およびモデル・トレーニングの一連の工程の圧縮により、治療法開発全体にわたって生物学基盤モデルの性能および適用範囲の拡大を図ることを目的としています。

エージェント型のエンドツーエンド治療設計ワークフローの構築

Anthropicは、ライフサイエンス分野における機能拡張に向けた広範な取り組みの一環として、Claudeをより多くの科学プラットフォームに接続するため、本プロジェクトに参画しています。Claude for Life Sciencesチームと連携し、Trillion Gene AtlasおよびEDENを活用することで、Claudeを科学者や臨床医にとってより生産性の高い研究パートナーとし、新たな科学的進展を社会に届ける組織を支援することを目指しています。

Claudeの高度な推論能力、EDENの治療設計能力、およびNVIDIAのCUDA-Xライブラリを組み合わせることで、本イニシアチブは、複雑な臨床データを解釈し、それを直接治療設計へと変換するための統合ワークフローの構築を目指しています。

Trillion Gene Atlasは、大規模なDNAシーケンシング、グローバルなデータ供給パートナーシップ、そして高度なコンピューティングという3つの柱から構成されています。複雑なデータ全体にわたって推論を行うことが可能なAIシステムと組み合わせることで、これらの基盤は、膨大なデータセットを治療法の発見へと転換することを可能にします。AIが利用可能な進化データをさらに100倍に拡大することで、Basecamp Researchは創薬をより迅速かつ体系的に行えるようにすることを目指しており、遺伝子治療や抗生物質耐性菌との闘いといった分野におけるEDENのこれまでの成果をさらに発展させることを目指しています。

ソース: Basecamp Research