超高速ゲノム配列検索ソフト「GGGenome」で深化する
ライフサイエンス研究

内藤雄樹特任助教 /ライフサイエンス統合データベースセンター(DBCLS)

今日、DNA 塩基配列決定技術の進歩によって膨大な塩基配列データが公共データベースに蓄積されている。生命科学や医学分野などにおいて、ゲノム情報を活用したさまざまな研究開発が進められ、国内外の研究者がしのぎを削っているが、肝になるのはこの膨大なデータを効率よく検索し、活用すること。そのためにはスピードと使い勝手の良さを兼ね備えたソフトウェアが必要となる。ライフサイエンス統合データベースセンター(DBCLS)の内藤雄樹特任助教は、これまで塩基配列を対象とする大規模データの利用技術開発に取り組み、遺伝子をGoogle のように検索できる統合遺伝子検索エンジン GGRNA( ググルナ)、塩基配列を高速に見落としなく検索する GGGenome( ゲゲゲノム)、ゲノム編集のためのガイドRNA設計ソフトウェア CRISPRdirect など、研究の現場で「誰でも・すぐに・素早く」活用できるソフトウェアを開発している。

ゲノムや転写産物などの塩基配列を簡便かつ高速に検索できるGGGenome は、ウェブブラウザ上で利用できるツールとしてDBCLS より公開されている。すべての機能は商用・非商用を問わず無償で自由に利用できるが、多数の利用者が同時にアクセスするウェブサービスであるがゆえの制約(検索可能なミスマッチ・挿入・欠失の数、最大ヒット件数、検索実行時間の制限)や利用者が入力する検索配列の秘匿性の問題を解決するべく、ウェブ版GGGenome と同様の検索を利用者のコンピュータ上で実行可能なパッケージ版が株式会社レトリバにより開発・発売された。

このお茶目なネーミングの検索ソフトは、最近国内で承認された核酸医薬品2 品目の承認審査において、当該品目の安全性評価にも貢献している。

 

1) 「オンパットロ点滴静注2mg/mL」審査報告書 (2019)

2) 「ビルテプソ点滴静注250mg」審査報告書 (2020)

 

GGGenome がどのように開発されたのか、GGGenome によってライフサイエンス研究の未来がどうなるのか、内藤助教にお話をうかがった。

Google のように速くて便利な塩基配列検索を目指す

― なぜ、GGGenome のような塩基配列検索ソフトを開発しようと思われたのでしょうか。

私は大学院生の頃、RNA 干渉(RNAi)のメカニズムや応用技術に関する研究を分子生物学的実験と情報科学的な解析の両方のアプローチを駆使して行ってきました。RNAi は、siRNA という短い二本鎖RNA 分子を使って任意の遺伝子を簡単にオフにすることができる画期的な技術で、今では遺伝子の機能を解明するための実験手法として広く使われています。さらに、疾患にかかわる遺伝子をオフにすれば治療にも応用できると期待されており、初のsiRNA 医薬品としてトランスサイレチン型アミロイドーシス治療薬「オンパットロ」(一般名パチシランナトリウム)が2018 年に欧米で、2019 年に日本で承認されました。これを皮切りに、これまで治療が難しかった疾患に対してRNAi(siRNA)を応用した核酸医薬品の開発が加速しています。

もともと生命科学の研究では塩基配列を扱うことが多いものです。塩基配列の検索を行うにはBLAST という有名なソフトウェアが既にありましたが、検索に時間がかかる上に、ミスマッチや挿入欠失が複数あるような短い配列では検索に漏れがあることにフラストレーションを感じていました。塩基配列の検索は完全に一致するものだけを見つければよいというわけでなく、ミスマッチや挿入欠失を含むような類似配列を探す「あいまい検索」も必要になります。そのような検索を、普段インターネットで使うGoogle 検索のように気軽にできないものかと考えました。Google 検索は瞬時に結果が出ますから、あまりフラストレーションを感じずにどんどん検索しようと思えますよね。あんなふうにATGC の4 文字からなるDNAの塩基配列も、素早く、類似配列まで含めて漏れなく、瞬時に検索できないものかと考えたのです。

これはRNAi の研究をしていた私だけでなく、おそらく生命科学研究に携わる研究者は誰しもが求めるものだろうと考えていた2006 年頃、株式会社レトリバ(当時はプリファードインフラストラクチャー社)が開発したSedue というテキスト検索ソフトを知りました。これは新聞記事など大量のテキストを高速に漏れなく検索できるもので、とにかく結果が出るのが速く、驚嘆しました。これを塩基配列の検索に応用すれば、すごいことができるのではないかと着想したのです。生命科学の分野では、新たな塩基配列が読まれると研究者が公共データベースに登録して公開されますから、そのようにして蓄積された世の中にあるすべての塩基配列をググる感覚で気軽に検索できるシステムができるかもしれないと考えました。

ただ、Sedue は完全一致する文字列のみ検索できる仕様だったので、塩基配列特有のミスマッチや挿入欠失を許容したあいまい検索に対応できるようにレトリバ社と協力して開発を行い、GGGenome が誕生しました。自分自身が「こんな検索ツールがあれば」と思っていましたし、実現すれば広大なデータを今まで以上に効率よく活用できるようになりますから、いつもの作業が楽になるというだけにとどまらず、新しい研究や発想につながるのではというワクワク感がありましたね。

― 検索結果が出る速度をとても重視しておられますが、なぜでしょうか。

検索に手間や時間がかかると、思いついたことを気軽に試してみようという気持ちにはなりませんから、速度は新しい発見のためには不可欠だと思うのです。ですから、私が開発する他のソフトウェアやツールも「速く結果を出す」ことをめざしています。すぐに結果が出れば、ちょっとした思いつきからいろいろな検索を試してみることもできますし、返ってきた結果をみて新たな検索をするというサイクルも生まれやすくなります。このように検索の速度が10 倍くらい違うと、使われかたも変わってくるのではないかと思っています。私自身もGGGenome にいろいろな配列を入れて遊んでいたら意外な発見をすることが何度もありました。それが直接役に立つものでなくても、新たな研究のアイデアにつながることがあるかもしれません。

オフターゲット検索に威力を発揮するGGGenome

― どのような研究で使われているのでしょうか。

GGGenome は汎用的な検索ツールとして本当にさまざまな研究で使われていますが、ここではGGGenome がとくに威力を発揮する例をご紹介します。それは、核酸医薬やゲノム編集のオフターゲット検索です。核酸医薬やゲノム編集は、RNA やDNA の特定の配列を直接標的とすることができる強力な手法ですが、本来の標的と似た配列をもつ無関係な遺伝子(オフターゲット)に対して意図しない影響を与える「オフターゲット効果」が課題のひとつとなっており、薬であれば副作用を起こしてしまうリスクに繋がります。核酸医薬やゲノム編集ではオフターゲット効果のリスクをどう評価するか、さらにはオフターゲット効果をどう防ぐかが重要です。生体内では、まさにRNA やDNA の分子が塩基対形成を通して「配列検索」をしているわけですが、それをコンピュータ上の文字列検索によって予測することができれば、オフターゲット効果の予測や回避に役立ちます。

私がRNAi の研究を始めた頃、塩基配列検索ソフトの定番であるBLASTを使ってオフターゲット検索をしてみると、検索に漏れがあることに気づきました。BLAST の検索アルゴリズムは、約20 塩基ほどのsiRNA のような短い配列の検索に向いていなかったのですね。短い配列を素早く正確に検索できるツールは少ないうえ、実験系の研究者は自分でソフトウェアを探してコンピュータ上にダウンロードしてコンパイルする…という時間はなかなか取れないものです。だからこそ、誰でもすぐに使える形で短い配列をしっかり検索できるものを作りたかった。マニュアルなど読み込まなくても、使用例を見たらすぐに使えるという簡便さは、特に実験系の研究者にとっては大事なことです。GGGenome をウェブツールとして開発したのはそのような理由からです。

一方で、核酸医薬を開発する製薬企業などの利用者にとって、ウェブツールという形態は検索しようとする配列の秘密保持の点で使いにい場合がありますし、自社内に保有する非公開の塩基配列データベースを検索したいというニーズもありました。さらにウェブ版では多くの人が同時にアクセスしますので、検索可能なミスマッチ・挿入・欠失の数、最大ヒット件数、検索実行時間などに制限を設けているのですが、その制限を超えるような詳細な検索をしたいという要望もあり、パッケージ版を開発することになりました。

GGGenome パッケージ版は、レトリバ社の開発した高速な文字列検索エンジンと、私がDBCLS で開発したオープンソースとして公開しているフロントエンドプログラムとを、コンテナ型仮想化技術であるDocker を使ってポータブルSSD 内にパッケージ化したものです。Mac、Windows、Linux 上で動き、OS 等の環境によらずウェブ版GGGenome と同様の結果が利用者のコンピュータ上で得られます。ネットに繋がなくても使えるため、検索内容の漏洩を防ぐことができます。また、パッケージ版には検索を効率化するための便利なスクリプトが付属し、最近のアップデートでは「着目遺伝子ハイライト表示機能」を搭載するなど、レトリバ社が開発してくださったウェブ版にはない機能が追加されています。

― 他の分野で使われることもあるのでしょうか。

GGGenome は、他のソフトウェアの内部で塩基配列検索の処理をするための「部品」としても使われています。たとえば、ゲノム編集のためのガイドRNA 設計ソフトウェアであるCRISPRdirect は、オフターゲット予測をするために内部でGGGenome が動いています。CRISPRdirect はCRISPR-Cas9 法によるゲノム編集を支援するツールとして生物学の研究だけでなく遺伝子治療への応用や育種分野にも使われはじめています。私自身はもともと植物は専門外でしたが、CRISPRdirect の公開後に農学系の研究者から主要な作物のゲノム情報を追加してほしいという連絡をいただき、CRISPRdirect の内部で動いているGGGenome に作物のゲノムを追加して使えるようにしたところ、CRISPRdirect とGGGenome が農学系の研究者に広がりました。

コンピューターサイエンスが貢献するライフサイエンス研究開発

― 今後のビジョンをお聞かせください。

現在は、配列の検索を通して実現できるアプリケーションの開発を進めています。核酸医薬のオフターゲット検索やCRISPRdirect はそのひとつですが、他の研究領域に貢献できるようなアプリケーションも並行して開発中です。

大量の配列を決定できる次世代シーケンサーの普及により、塩基配列の情報は爆発的に増えていますから、それを効率よく解析する技術がいっそう肝になっていくでしょう。そのなかでGGGenome は、核酸医薬品の安全性評価や、CRISPRdirect というアプリケーションを通してゲノム編集の現場でも活用され、開発者として大きな喜びを感じています。今後も機能の強化を続けて研究開発の現場にしっかり貢献できるソフトウェアやアプリケーションの開発を目指していきます。

ソフトウェアを開発する際には、自分では考えていなかった使い方や、想定していなかったニーズにも対応できるように機能を仕込んでおくということも大切で、それによってユーザーが新たな使い方を試みて、それがこちらの研究開発にもフィードバックされるという醍醐味があります。ですからなるべくオープンに研究開発を進めることも大きな意味を持っていると思います。情報発信とフィードバックの循環が新しい研究や開発につながるのです。学会で発表をしていると、私が思いもよらないような使い方をしている方にお会いする機会もあり、そういった活用事例を収集して今後の開発に役立てていきたいと思っています。そして、多数の利用者が便利だと思うような機能だけでなく、ニッチだけれどもおもしろい研究への貢献も大切にしたいと思っています。

2021年5月10日 (取材/文・坂元希美)

© 2021 BioImpact Co.,Ltd. All Rights Reserved.

導入事例

「核酸医薬品のオフターゲット効果の評価」受託試験の評価メニューの一つであるin silico解析に、レトリバの提供する「GGGenomeパッケージ版」を導入していただいております。

お問い合わせ