IOWNを支える技術解説

データサンドボックス技術

データやプログラムを秘匿したまま共有し処理結果を活用できる次世代データ流通プラットフォームの要素技術

データサンドボックス技術とは、企業や組織が持つ機微なデータやノウハウを安全に活用し、データ共有と活用を可能にする技術です。この技術は、異なる所有者のデータやプログラムを暗号化して隔離環境内で処理し、結果データを暗号化したまま共有することができます。これにより、データやプログラムが第三者に漏れることなく、公開せずに結果だけを利用でき、データの不正使用や流出のリスクが軽減されるのが大きな特徴です。

技術背景・課題

資源循環型社会の実現など社会的課題の解決に向け、複数の企業や組織が連携する取り組みが活発化し、それを支える組織間のデータ流通も進みつつあります。また、製造業、環境、医療等の分野では、複数の企業や組織がデータを共有して活用することにより、生産性の向上や環境負荷の低減、新たな付加価値の提供などが期待されています。しかし、各組織が持つノウハウや営業秘密といった機微なデータは、共有後の流出への懸念から十分に活用されていないのが現状です。

技術の概要・特徴・内容

データサンドボックス技術とは、企業や組織が持つ機微なデータやノウハウの詰まったプログラムを安全に活用し、従来困難だった組織を超えたデータ共有と活用を実現する技術です。この技術のポイントは、所有者の異なるデータ・プログラムを暗号化した状態でサーバ内に生成された隔離実行環境内に配置し、隔離実行環境の中でのみ参照可能な形で処理し、結果データを第三者に暗号化して共有する秘匿処理機構にあります。これによりサービスを提供するプラットフォーム事業者からデータ・プログラム・結果データを保護するだけでなく、所有者の異なるデータ・プログラムをお互いに公開せずに結果データだけを利用することが可能になるため、貴重なデータやノウハウの想定外利用や流出の心配がない点が大きな特徴です。(図1参照)

図1 データサンドボックス技術の特徴

技術目標・成果・効果

NTTは、IOWNデータハブの実現を通じて新たなビジネスモデルの創出や社会的課題の解決を目指しています。図2に示すとおりIOWNデータハブでは、データサンドボックス技術、各企業や組織のガバナンスを維持したまま複数の組織が管理するデータを仮想的に統合する仮想データレイク技術、そしてIoTデータなどの複数ストリームデータを低遅延で集約・配送するデータブローカ技術を組み合わせることにより、複数の企業や組織が持つ大量のデータの効率的な共有や安全な活用を可能にします。

図2 IOWNデータハブ

データサンドボックス技術を活用したサービス提供例としては、パブリッククラウド上での防災立案サービスが考えられます。従来は防災関連データやシミュレーションプログラムを提供する企業は不正なコピーや目的外利用の懸念があり、自治体も住民データ等の個人情報をパブリッククラウドで扱うリスクが伴いました。データサンドボックス技術を用いることで、これらの懸念やリスクを抑えた付加価値の高いサービスを提供することが可能になります。(図3参照)

図3 サービス提供例(自治体の防災計画立案サービス)

このデータサンドボックス技術の秘匿処理機構は、以下の4つの技術要素で構成されています。(図4参照)

図4 データサンドボックスの基本的な仕組み
  1. 機密情報の秘匿化プロトコル:TEE (Trusted Execution Environment) で構成された隔離実行環境内でのみ復号可能な形式で機密データやプログラムを暗号化し、結果データを出力するプロトコルです。データ提供者とプログラム提供者は、それぞれの暗号鍵で自らのデータやプログラムを暗号化し、隔離実行環境内に送付します。この際、暗号化に使った鍵を、TEE内で生成された固有の秘密鍵と対応する公開鍵を使ってTEE内でのみ復号可能な形で隔離実行環境内に送付します。隔離実行環境内の情報はTEEのメモリ暗号化機能によりプラットフォーム事業者でも参照できないため、復号後のデータやプログラムは誰にも参照されません。処理結果のデータもTEE固有の鍵を用いて暗号化し、結果データ利用者のみが復号可能な形で送付されます。
  2. 要塞化:隔離実行環境と外部との接点を最小限に抑えることで、意図しないデータの漏洩や外部送信、プラットフォーム事業者による窃取を防ぐ技術です。隔離実行環境のネットワーク機能や入出力デバイスを制限することで、外部との通信や情報交換ができない隔離された環境であることを保証します。これによりたとえプログラムやプラットフォーム事業者に悪意が存在した場合でも、安全性が確保されます。
  3. 事前合意ポリシーの強制:ユーザ(データ提供者、プログラム提供者、結果データ利用者)は、どのようなデータをどのようなプログラムで処理し、結果を誰が利用できるかを記載したデータ処理ポリシーに事前に合意します。ポリシーには、入力データやプログラムの情報、ハッシュ値、各ユーザの署名などが含まれており、各ユーザは合意後に内容が変更されていないことを検証できます。また本技術は、隔離実行環境内でこのポリシーに従ってデータ処理が行われるよう強制する機構を備えています。これにより、指定されたデータとプログラムのみが使用され、実行結果も指定されたユーザだけが参照できる仕組みが保証されます。(図5参照)
  4. 検証可能化:各ユーザは上記の技術要素(秘匿化プロトコル、要塞化、事前合意ポリシーの強制)が確実に動作していることを、リモートアテステーションを通じて検証できます。隔離実行環境が発行するアテステーションレポートには、環境を構成するソフトウェアや内部のデータ、プログラムに関する情報が記載されており、これを検証することで、事前合意したポリシーと一致していることや、外部接続が制限された安全な環境であることを確認できます。このレポートには隔離実行環境を構成するTEE (CPU) に基づく署名が付与されており、プラットフォーム事業者を含む第三者による改ざんは不可能です。これらの結果として、データやプログラムの不正使用や改ざんリスクを防ぎ、安全かつ信頼性の高いデータ処理が実現されます。
図5 事前合意ポリシーの内容と効果

技術の特長と市中技術との違い

データサンドボックス技術は、複数の企業や組織が持つデータやプログラムを相互に利用するための技術であり、これらの機微な情報を開示せずに共有し処理結果を活用できる点が特徴です。最近ではクラウドサービスにおいて、TEEを活用したConfidential Computingサービスの提供が始まっています。しかし、これらのサービスはクラウドのユーザ企業が自社のデータやプログラムを悪意ある攻撃者やクラウド事業者から保護する役割にとどまります。それに対しデータサンドボックス技術は、一般的なConfidential Computingサービスの機能に加えて、複数の企業や組織がデータとプログラムを互いに秘匿しつつ掛け合わせることができるという付加価値を持ちます。

想定される適用分野・PoC

データサンドボックス技術は以下のような様々な分野での応用が検討されています。

  • 医療分野: 複数の医療機関が患者データを安全に共有し、診断精度の向上や新薬の開発に役立てる。
  • 環境問題: 製品に関わるCO2排出量のデータを複数の企業や組織が共有し、サプライチェーンや社会全体における正確な排出量の算出や削減策の検討に活用する。
  • 製造業: 複数の企業が製造プロセスのデータを共有し、生産効率の向上やコスト削減を図る。
  • 金融分野: 複数の金融機関が取引データを安全に共有し、不正検出やリスク評価の精度向上を図る。

データサンドボックス技術の導入により、これらの分野において個人の機微情報や事業の営業秘密といったデータやノウハウを安全に利活用・共有することが可能となります。これにより、社会課題の解決や新サービスの創出が期待されます。

今後の展望

NTTではデータサンドボックス技術をさらに発展させ、本技術の標準化や普及を通じて、データ駆動型の新たな社会の構築に貢献していきます。
今後は主要産業において複数の企業や組織間でのデータ流通事業にデータサンドボックス技術を適用する事例を増やしていく予定です。またGPUを利用したAIプログラムへの対応を進めることで適用領域を拡大し、IOWN DCI基盤を活用した省電力化や高性能化も図ります。更に2030年頃には広範な業界での標準技術としての確立を目標とし、将来的にはデータサンドボックス技術を活用したデータ流通の標準プラットフォームを構築します。これにより、グローバルなデータ流通プラットフォームによる国際的なデータ共有を促進し、新たな市場の創出に寄与することを目指します。(図6参照)

図6 今後の予定