データが語る新材料の未来
Starrydata:7万3千種の化学組成が明かす材料科学の星図
【発表概要】
- 科学論文のグラフからデータを抽出する独自Webシステムを開発し,約7万件のデータを集積した世界最大の無機機能材料データベース「Starrydata」を構築
- 膨大な化学組成データに主成分分析(PCA)を適用することで,純物質が頂点となる立体図形が自然に形成され,過去の化学組成の全体像を可視化できることを発見.
- 熱電材料の特性を3次元散布図で分析し,高性能材料の物理特性には明確な制限があることを突き止め,新材料開発の指針を得るとともに,他の機能材料分野への応用可能性を示した.
物質・材料研究機構(NIMS)の桂ゆかり氏が主導する「Starrydata(スタリーデータ)」プロジェクトは,新しい材料開発の道筋を根本から変える画期的な取り組みである.本プロジェクトでは,過去10年間にわたり論文中のグラフから膨大な実験データを丁寧に収集し,約7万3千種類もの材料情報を集積したデータベースを構築した.特筆すべきは,この大量のデータに現代的な分析手法を適用したことで,複雑な材料世界の「地図」が浮かび上がった点である.桂氏らの研究グループが教師なし機械学習(PCA:主成分分析)を適用すると,材料の分布が三角形や四角形などの美しい幾何学図形として自然に現れた.さらに,熱電材料の性能を3次元で可視化した結果,化学組成に関わらず高性能材料は特定の物理特性の範囲に集中することを発見した.この成果により,無数の候補から有望な新材料を効率的に見つけ出す新たな指針が示された.データの力で材料開発の未来を切り拓く可能性を示した研究だ.
論文のグラフから実験データを収集する革新的アプローチ
無機機能材料は,エネルギー変換や電子デバイスなど幅広い分野で不可欠な役割を果たしている.従来の材料研究では,新しい素材を開発する際に多くの試行錯誤が必要だった.しかし近年,コンピュータの発展により第一原理計算(※1)を用いた材料設計が普及し,素材候補の種類が爆発的に増加.研究者が全体像を把握することは極めて難しくなっている.さらに企業などでは,多種多様な素材候補から実用的な材料を見極めることが大きな課題だ.
2015年,当時東京大学の助教だった桂ゆかり氏は,シミュレーションデータだけでなく実験データにも情報科学的手法を適用する可能性に着目し,「Starrydata」プロジェクトを発足させた.このプロジェクトの目的は,実験に基づく材料特性のデータを体系化し,俯瞰的な視点から材料開発を支援することにある.これにより,材料探索が従来の試行錯誤型から,データ駆動型の戦略的アプローチへと転換することが期待されている.
Starrydataの特筆すべき点は,論文中のグラフからデータを直接抽出する手法を確立したことだ.桂氏は「本文中の数値をテキストマイニングで抽出する手法もあるが,それらは筆者が強調した一部のデータに限られ,情報量が大幅に削減されてしまいます.グラフには実験データが網羅的に記録されており,情報の損失が最も少ないと考えました」と説明する.論文の本文では言及されていないデータ点も,グラフ全体から取得することで新たな解析の可能性が広がるのだという.
プロジェクト開始から10年間,専属のキュレーターたちがデータ収集に取り組んだ結果,2025年現在,Starrydataには約7万3千種もの材料情報が登録されるようになった.熱電材料が約5万種,磁性材料が約1万種を占めるほか,準結晶や電池材料など,多岐にわたるデータが蓄積されている.このデータベースを活用した研究成果も多数発表されており,材料の特性パラメータ間の新たな関係式を提唱してStarrydataのデータで検証する論文や,機械学習の教師データとしてStarrydataを活用した研究などが登場している.
※1 第一原理計算 物理学の基礎方程式から物理系の振る舞いをシミュレーションする工程のこと.ここでは結晶構造から電子状態を計算して物性を予測する手法を指す.

(データ数は2023年のもの)
データ可視化で浮かび上がる材料分布の幾何学図形
2023年にリリースされた「Starrydata Sample Explorer」は,化学組成から複雑な固溶体材料を検索できるだけでなく,データを視覚的に表現する機能も備えたWebシステムだ.特に注目されるのは,教師なし機械学習の基本手法であるPCA(※2)を用いた可視化だ.この手法を膨大な化学組成データに適用すると,驚くべきことに材料の分布が明確な幾何学図形として浮かび上がったという.例えば,熱電材料全体に対してPCAを適用すると,酸素,アンチモン,テルルという三元素の含有量に関連する三角形状の分布が確認された.これは熱電材料の開発においてこれら三元素が重要な役割を果たしていることを示唆している.
※2 PCA / 主成分分析 多変量データの次元を削減し,データの構造を分かりやすくするための統計手法
さらに特定の材料グループに絞った分析では,一層興味深い結果が得られたという.マグネシウムシリサイド系では,三角形の図形が現れた.ビスマステルル系や鉛テルル系では,長方形や三角柱などの立体構造が現れた.これらは,材料研究者が古くから慣れ親しんできた「三角相図」などの多元系組成図と非常によく似ており,純物質が頂点に位置し,2種類の物質の比率を変えた固溶体が,それらをつなぐ辺上に線形に並ぶという規則性が見られた.驚くべきは,こうした図形が特別に指示されなくとも自然と現れたことであり,これは材料系ごとの開発の歴史と,化学組成の数学的な性質が,データ解析を通じて自動的に可視化されたことを意味しているという(図2).

Starrydata Sample Explorer で出力した図.色は見やすさのために
クラスタリング(k‐means法)でつけてあるもので,物理的意味はない.
高性能材料の必要条件を明らかにした3次元マップ
もうひとつの発見は,熱電材料の性能と物性パラメータの関係性だ.熱電材料は熱と電気を相互変換できる特性を持ち,その性能は熱電性能指数(ZT)で評価される.従来の研究では高ZTを得るために特定の元素を添加する試みが多数行われてきましたが,最終的には試行錯誤に頼る部分が大きかった.
桂氏らの研究グループは,電気伝導率,熱伝導率,ゼーベック係数という3つの物性値を軸にデータをプロットし,高性能(高ZT)材料を赤色,低性能材料を青色で示した.その結果,高ZTを示す材料は化学組成に関わらず,三次元パラメータ空間の特定の領域に集中する傾向があることが判明した.これは熱電材料の物性が化学組成よりも基本的な物理パラメータによって規定される面が強いことを示唆している.(図3)

「これまで熱電材料は多種多様で,それぞれ異なる特性を持つと考えられていました.しかし,データを可視化すると,良好な熱電特性を示す範囲は概ね決まっていることがわかります」と桂氏は説明する.「従来は様々な組成の試料を多数合成し,その中から最も高ZTのものを選び出すという試行錯誤のプロセスが主流でしたが,今回の分析により,その探索プロセスを最適化できる可能性を示すことができました」(桂氏)
この発見は,材料開発の効率化に大きな影響を与えるだろう.例えば,一部の物性値を測定するだけで材料の潜在的な性能を予測できれば,膨大な候補の中から有望な材料をより迅速に絞り込むことが可能になる.
データ駆動型アプローチが切り拓く材料科学の未来
Starrydataプロジェクトは,膨大な過去の研究成果をデジタル化して分析することが,それ自体新たな科学的発見をもたらすことを実証している.実験データのオープン化により,研究者間での知識共有が加速するだけでなく,優れた特性を持つ既存材料の周辺ばかりに研究が集中することを防ぎ,科学的に未踏の組成空間への探索が促進されることも期待される.
このアプローチは熱電材料だけでなく,磁性材料や電池材料,触媒など,様々な機能材料の研究にも応用可能だという.各分野のデータを同様に集積・分析することで,材料科学全体の開発効率が飛躍的に向上する可能性がある.
桂氏は,今後の展望について「世界中で発表された材料科学の実験データを,誰もがデジタル形式で自在に解析できる環境を整備していきたい.そのためにStarrydataをさらに発展させ,オープンなデータ基盤を提供していくことが重要だと考えています」と語る.
膨大なデータの中から法則性や傾向を見出し,効率的に新素材を開発する—データ駆動型アプローチによる材料科学の革新は,まさに始まったばかりだ.
【講演情報】
講演番号:16p‐K505‐10化学組成の主成分分析による無機機能材料の先行研究の俯瞰 Overviewing the Past Studies of Inorganic Functional Materials
- 物材機構1
- 筑波大数理2
- 理研3
- ○桂 ゆかり1,2,3
- 間藤 智也1
- 髙田 悠1