公益社団法人 応用物理学会

特別WEBコラム 新型コロナウィルス禍に学ぶ応用物理 ゲノム解析 中川草 東海大学医学部

1. まえがき

2019年12月に中国武漢で原因が不明の肺炎が報告された.まもなく,その原因が未報告のコロナウイルスであると判明した.1月初旬には全ゲノム配列が解読され,DNA情報に関する公共データベースGenBank (https://www.ncbi.nlm.nih.gov/genbank/) などで全世界に公開された1).それは以前,重症急性呼吸器感染症(Severe Acute Respiratory Syndrome: SARS)の原因として報告されたコロナウイルス(SARS-CoV)と類似度が高かったため,SARS-CoV-2と名付けられた2).そして2020年6月3日現在,SARS-CoV-2のゲノムは35,123配列がデータベースに公開されている.本稿では,そのようなゲノム解析から何がわかるのか,また,どのようなシークエンス技術がそのような迅速なゲノム配列の解析を可能にし,そして今後のSARS-CoV-2のゲノム配列の進化について概説する.

2. ウイルスのゲノム配列からわかること

SARS-CoV-2は,遺伝情報の格納にDNAではなく,一本鎖のRNAをつかうRNAウイルスである.そのゲノムはおよそ3万塩基からなっていて,ウイルスを複製するために必要なさまざまな遺伝子がコードされている(図1).SARS-CoV-2遺伝子の中で最大のものはORF1aとORF1bが融合したORF1abで,7096アミノ酸にもなる.ORF1abはタンパク質分解酵素によって切断されることにより,16種類の機能するタンパク質となる.その中には,RNA複製に関与するRNA依存性RNAポリメラーゼ(nsp12)や,RNA複製時のエラーを構成する酵素(nsp14)などがある.ORF1abのすぐ下流にある遺伝子は,コロナウイルスに特徴的な突起(スパイク)をコードしているS遺伝子である.宿主細胞の受容体と相互作用して,感染を成立させるために必須な遺伝子であり,この遺伝子に生じた突然変異は特に注目されている.SARS-CoV-2のゲノムには,図1で示したとおり,上記以外にもいくつもの遺伝子がコードされているが,一方で,現在でもどれが遺伝子領域であるのかは完全にはわかっていない3).それは,遺伝子領域とは異なったコードフレームの中に別の独立した遺伝子配列がコードされているためである.このような遺伝子はオーバーラップ遺伝子と呼ばれ,ウイルスではよく見られる.SARS-CoV-2のゲノム配列にはどのような遺伝子がコードされているのか,その詳細は今後明らかになるだろう.

図1 SARS-CoV-2のゲノム構造の模式図.
NCBI Reference Sequenceデータベースに登録されているSARS-CoV-2 Wuhan-Hu-1のゲノム情報(ID: NC_045512.2)と文献6に基づき,SARS-CoV-2のゲノムにコードされている遺伝子の模式図を示した.長方形の幅が遺伝子の長さに対応し,括弧の中の数字がアミノ酸長(aa)を,塩基長の縮尺は上に示した.ウイルスの構造に関係する遺伝子は長方形が黒色で塗りつぶされていて,S(スパイク),E(エンベロープ),M(メンブレン),N(ヌクレオカプシド)の4種類に対応している.薄い青色で示した遺伝子は,データベースに登録されていないが,文献3と7などでオーバーラップ遺伝子として示唆されていているものである.

また,全ての生き物は増殖するときに自らの遺伝情報,すなわちゲノムを複製するが,その過程でランダムなエラーが生じる可能性がある.SARS-CoV-2も例外ではない.そのようなゲノムに入った変異をウイルス間で比較することで,ウイルスの系統,すなわちウイルスが進化してきた道筋を推定することができる.SARS-CoV-2と類似するウイルスについて,全ゲノム配列を比較して解析した結果を図2に示した.互いの横軸の長さが短いほうが,その配列は似ているということを示している.現在まで,SARS-CoV-2を保有していた生物,つまり自然宿主はわかっていないが,おそらくコウモリ,特にキクガシラコウモリであろうと推察されている.それは,いままでわかっているほぼ全ての近縁のコロナウイルスがコウモリに由来するからである.センザンコウにも類似のウイルスが見つかっているが,それはSARS-CoV-2に最も近いものではなく,またセンザンコウで見つかったコロナウイルスはセンザンコウの肺炎症状を引き起こす可能性があることも報告されていて,自然宿主ではないだろうと考えられている4).また,SARS-CoV-2は自然宿主から直接ヒトに感染したのではなく,中間宿主を経ていた可能性もあり,これらについては今後の研究で明らかになるであろう.また,SARS-CoV-2は人工的に作られたという陰謀説もあるが,SARS-CoV-2のゲノム配列の特徴はいくつもの類似配列にも見つかっているものがほとんどであり5-6),人工的に作り出したという説を裏付けるような証拠は乏しい.

一方で,ウイルスのゲノム配列からではわからないことも多い.例えば,ゲノム上の各変異がどのような影響を及ぼすのか,例えばアミノ酸置換を引き起こすかどうか,その変異したアミノ酸は機能的に重要な箇所にあるか,元のアミノ酸と性質が大きく異なるかなど,ある程度予測できたとしても,変異がウイルスの性質をどのように変化させるかという点に関しては実験的な検証が必要である.しかも,実験的な検証も,どのような細胞・動物を使って,どのような条件で調べたのかということによって明らかにできる影響が異なるため,さまざまな知見を踏まえた総合的な評価が必要である.そのため,現在わかっている変異については,その系統を推定するうえでは有用であるが,変異によってウイルスの病原性の強弱を判断できる段階ではない.

3. ウイルスのゲノム解析の技術革新について

先述の通り,今回の新型コロナウイルスのゲノム配列は,原因不明肺炎がウイルス由来であると分かってまもなく報告された1).この迅速なゲノム配列決定が可能になったことは,DNAシークエンス技術の発達による部分が大きい.近年,任意のサンプル(細胞・組織や環境中の水や大気まで)からRNAを抽出して逆転写酵素を使ってcDNAを合成し,大量シークエンスを行い,配列データをバイオインフォマティクス解析することでウイルス配列を同定する,いわゆるRNAウイルス叢(そう)(virome)解析が盛んになってきた.中国のRNA virome解析で有名なグループがいち早くSARS-CoV-2のゲノム解読を行った1).ただ,現在ではSARS-CoV-2の全ゲノム配列からデザインしたプライマー配列に基づいてPCR法によって増幅した配列をシークエンスする手法のほうが一般的である.プライマーは世界各地の研究機関が独自に改良を重ねているが,ARTIC Network (https://artic.network) で公開されているものが現在標準的に用いられていると考えられる.そのようにして増幅したSARS-CoV-2由来のアンプリコン(PCRされた配列)は,Illumina社の様々なタイプのシークエンサーや,Oxford Nanopore Technologies社のMinIONなど小型シークエンサーなどを使って塩基配列決定されている.先程のvirome解析とは異なり,ウイルスゲノムそのものは必ずしも大きくはないので,多くのサンプルを同時に流すなどの特別な場合を除いては,必ずしも大きな出力は必要がない.一方で,正しい塩基配列決定のために,100倍を超えるカバレッジ(厚み)でシークエンスされることが多い.

解読されたゲノム配列については,先述のDNA情報の公共データベースGenBankなどにて公開されているものもあるが,論文化される前などで一般には公開していない配列などについては,GISAIDデータベース(https://www.gisaid.org)でのみ公開されているものもある.GISAIDデータベースではゲノム配列に加えて,それに関連する情報(サンプル採取日,地理情報,シークエンサー情報,データ登録機関など)も登録されており,その利用には登録が必要である.SARS-CoV-2のゲノム配列は世界各地の研究機関でさまざまな解析がなされていて,そのうちのいくつかについてはインターネット上で解析結果が共有されている.GISAIDデータベースの情報を基に,SARS-CoV-2の変異や系統のなどを解析したNextstrain (https://nextstrain.org),そして突然変異について大規模に同定し,情報提供するCoV-GLUE (http://cov-glue.cvr.gla.ac.uk) などが例として挙げられる.Nextstrainは,各国にどのようにSARS-CoV-2が広がっていったかを世界地図上でアニメーション表示もされ,加えて,突然変異のパターンによって色付けすることなどもできて,SARS-CoV-2のゲノム解析結果を理解するうえで有用であろう.

4. 今後のウイルスのゲノム進化について

SARS-CoV-2ゲノムが解読されてからおよそ半年が経過した.Nextstrainの解析結果によると,現在のSARS-CoV-2のゲノム配列には,半年前のものと比較して,平均して13カ所の突然変異がある.したがって,任意の2つのウイルスのゲノム配列を比較すると,最大でおよそ26カ所の変異があると予想される.SARS-CoV-2ゲノムの大きさが約30,000塩基であると考えると,現在のいずれのSARS-CoV-2ゲノムを比較しても,99.9%以上は一致する(大きな挿入・欠失配列などの変異などを起こしたウイルスが存在する可能性はあるが,そのようなものはウイルスとして感染性をもっている可能性は低いであろう).現在のところ,ウイルスのゲノム配列をいくつかのgroupやsubtypeという名前を使って区別する場合もあるが,ほとんど同一のゲノム配列であり,そのような区分には系統学的には意味があるかもしれないが,ウイルスの性質の違いはほとんどないと考えられる5).一方で,図2に示した通り,SARS-CoV-2と類似のコロナウイルスは数多く存在し,また,その多くは現在もわかっていない.万が一ではあるが未知のウイルスがヒトに感染症を引き起こす可能性も踏まえ,自然界に存在するさまざまなウイルスのサーベイランスを続けていくことは重要な知見をもたらすと考える.

図2 SARS-CoV-2と近縁のコロナウイルス.
SARS-CoV-2と同じコロナウイルス科ベータコロナウイルス属サルベコウイルス亜属に属するコロナウイルスのゲノム配列を使って作成した分子進化系統樹を示した.各末端にウイルスのゲノム配列のID(*がついているものはGISAIDデータベース,それ以外はGenBankデータベース),ウイルス名,見つかった生物種名を示した.ゲノム配列の類似度が高いウイルス同士がクラスタを形成する.赤色がヒトに感染したコロナウイルス,青色がコウモリで見つかったウイルスを示す.文献6を元に改変した.

謝辞

図2に,GISAID (https://www.gisaid.org) に登録されていたコロナウイルスの配列データを使った.本データベースの維持やデータの登録などに努めてくださっている方々に感謝申し上げます.

文献

  • 1) F. Wu, S. Zhao, Y. Bin, Y.M. Chen, W. Wang, Z.G. Song, Y. Hu, Z.W. Tao, J.H. Tian, Y.Y. Pei, M.L. Yuan, Y.L. Zhang, F.H. Dai, Y. Liu, Q.M. Wang, J.J. Zheng, L. Xu, E.C. Holmes, and Y.Z. Zhang: Nature 579, 265 (2020).
  • 2) Coronaviridae Study Group of the International Committee on Taxonomy of Viruses: Nat. Microbiol. 5, 536 (2020).
  • 3) I. Jungreis, R. Sealfon, and M. Kellis: bioRxiv (2020) [DOI: 10.1101/2020.06.02.130955].
  • 4) K. Xiao, J. Zhai, Y. Feng, N. Zhou, X. Zhang, J.J. Zou, N. Li, Y. Guo, X. Li, X. Shen, Z. Zhang, F. Shu, W. Huang, Y. Li, Z. Zhang, R.A. Chen, Y.J. Wu, S.M. Peng, M. Huang, W.J. Xie, Q.H. Cai, F.H. Hou, W. Chen, L. Xiao, and Y. Shen: Nature, in press.
  • 5) O.A. MacLean, R.J. Orton, J.B. Singer, and D.L. Robertson: Virus Evol. 6, veaa034 (2020).
  • 6) S. Nakagawa and T. Miyazawa: Inflamm Regen, in press.
  • 7) Y. Konno, I. Kimura, K. Uriu, M. Fukushi, Y. Irie, Y. Koyanagi, S. Nakagawa, and K. Sato: bioRxiv
    [DOI: 10.1101/2020.05.11.088179].

著者プロフィール

中川 草

(なかがわ そう)

2008年東京医科歯科大学大学院生命情報科学教育部博士後期課程修了,博士(理学).国立遺伝学研究所生命情報・DDBJセンター博士研究員,米国ハーバード大学客員研究員を経て,13年より東海大学医学部分子生命科学助教,18年より講師(現職).専門は比較ゲノム解析.