月別アーカイブ: 2023年12月

医療/ライフサイエンスにおけるデータ損失防止(DLP)(前編)

2023年10月4日、クラウドセキュリティアライアンス(CSA)の健康医療情報管理ワーキンググループは、「医療/ライフサイエンスにおけるデータ損失防止(DLP)」(https://cloudsecurityalliance.org/artifacts/data-loss-prevention-in-healthcare/)を公開した。ここでは、DLP導入の前提条件となるデータの分類・管理プロセスの標準化動向や、医療/ライフサイエンス分野のユースケースについて概説する。
米国NISTがデータ分類の標準化に関する文書草案を公開

2023年11月15日、米国立標準技術研究所(NIST)は、「NIST IR 8496 データ分類の概念とデータ収集向上のための考慮事項」公開草案初版を発表した(https://csrc.nist.gov/pubs/ir/8496/ipd)。この文書草案は、データ分類における基礎的な専門用語を定義し、基本的な概念を説明して、皆が利用するための共通言語とすること、そして、データ分類において考慮すべきことに対する認識を高め、組織がデータ保護アプローチの品質や効率性を向上させる際に役立てることを目的としている。最初に、データ分類の定義について、「持続性のあるラベルを利用してデータ資産を特徴付けて、それらの資産を適正に管理できるようにするために、組織が利用するプロセスである」としている。そして、データ分類のプラクティスを実装することによって、以下のようなメリットがあるとしている。

組織のデータ資産に対するサイバーセキュリティとプライバシー保護の要求事項の適用を可能にする
データ資産を、パートナー、契約先およびその他の組織と安全に共有する
特定のデータ資産に適用される、法律、規制、契約書およびその他のソースからの要求事項を知る
ゼロトラストアーキテクチャおよびその他のサイバーセキュリティ・プライバシー技術の実装をサポートするような、データ資産および個々の資産の重要性に対する認識を維持する
組織の知的財産へのアクセスおよび転送に関する制限を強制する
生成人工知能(AI)技術(例.大規模言語モデル(LLM))で消費されるデータ資産のソースに関するメタデータをキャプチャする
現時点で必要ないが、将来必要になる可能性があるような時、データ資産のメタデータを特定して記録する(例.量子対応準備や低減計画向け)

草案は、以下のような構成になっている。

1. イントロダクション
1.1. 目的とスコープ
1.2. 本書の構成
2. 背景
2.1. データライフサイクル
2.2. 構造化、非構造化、半構造化データ
2.3. データガバナンスとデータ管理
3. データ分類の機能
3.1. データ分類ポリシーの定義
3.2. 分類するデータ資産の特定
3.3. データ資産向けのデータ分類の決定
3.4. データ資産のラベリング
3.5. データ資産のモニタリング
参考文献
附表A. 記号、略語、頭字語の一覧
附表B. 用語集

このうち「2. 背景」についてみると、まず「2.1. データライフサイクル」で、組織は、以下の4段階から構成されるデータライフサイクルを通じてデータ資産を管理するとしている。
特定: 組織は、データ資産を特定する
利用: 組織は、一部またはすべてのデータ資産にアクセスして、閲覧、共有、修正する
維持: 組織は、時間とともにデータ資産を保持する
廃棄: 組織は、データライフサイクルの最後にデータ資産を廃棄する

次に「2.2. 構造化、非構造化、半構造化データ」では、データ構造の観点から、以下のように、「構造化データ」、「半構造化データ」、「非構造化データ」の3つのカテゴリーを提示している。

構造化データ: データが表現される方法や表現を翻訳すべき方法を記述した物理的データモデルに続くものである。構造化データは、データベース、または個々のデータフィールドに含まれる情報のタイプが何かを明確に示すようなその他のメカニズム(例.顧客IDまたは一部の番号)の中に見られることがある。構造化データは、意味を保証するために、データモデルに対して検証することができる。
半構造化データ: 自らのデータモデルを記述する(自己記述型)。半構造化データは、プロプライエタリなデータセットを共有するための拡張可能なマークアップ言語(XML)やJSON(JavaScript Object Notation)、機微な構成パラメーターなどのフォーマットで表現される。
非構造化データ: ビジネスモデルに対して意味のあるような詳細なデータモデルに続くものではない。非構造化データは、プロプライエタリな文書フォーマットや、標準規格ベースのビデオフォーマットなど、特別なフォーマットに保存される場合がある。たとえば、ビデオは、患者の治療手順や、人々の施設への入退室、新入職員向けのトレーニングコースなどを見せることが可能である。非構造化データを有する文書は、ほぼすべてのタイプの情報を含むだけでなく、その中に組込まれた他のデータのタイプ(画像や映像など)を有しておいる場合があり、各々は1つ以上のデータのインスタンスを含むことになる。

さらに「2.3. データガバナンスとデータ管理」では、データガバナンスおよびデータ管理の役割について、以下のように説明している。

データガバナンス: データ資産が適切に管理されていることを保証するために組織が実行する必要があるアクションを強化する。データガバナンスのために特に重要なデータ分類の視点は、組織のデータ分類ポリシーおよび関連するデータ保護の要求事項を明確化して、組織内および組織外双方における役割や責任など、これらのポリシーを実装し、強制すべき方法を決定する。
データ管理: データガバナンスから生じるポリシーやプラクティスの実装および強制である。データ管理は、データライフサイクルを通して、すべてのデータ資産に起きるべきである。メタデータはデータの形式であり、管理を必要とする。データ管理の一部としてのデータ分類の役割を理解するためには、以下のようなデータ管理領域に対する基礎的な理解が必要である。
データの定義: データ資産を管理するために、組織はまずデータを定義する必要がある。データの定義は、データ資産によって様々であるが、通常、適用可能なデータのタイプやデータモデルに加えて、データ資産の由来、性質、目的、品質に関連したメタデータを特定する作業(データカタログの作成)が含まれる。データの定義は、組織がデータ分類を確実なものにできるように、データ資産に関する十分な情報を収集するために努力している。データの定義の形式や厳格さは、データ資産の中で大幅に異なるが、それは、データ資産が構造化されているか、半構造化されているか、非構造化されているかに関係している。
データの分類: データ資産のためのデータ分類は、以下の3つのうち1つ以上に基づいて、選定され、割り当てられる: データの定義、カタログ化されたメタデータ、コンテンツのレビューまたは分析。
データの保護: 一度データ分類が割り当てられると、組織は、個々の分類に関連したデータ保護の要求事項を強制する。これらは、分類に応じて個々のデータ資産を保護するために必要なすべての制御をカバーする。事例としては、保存時および転送時にデータ資産を暗号化するために要求事項に関連したデータの分類があり、なりすましを検知するデータの完全性のメカニズムを利用して、特定グループのメンバーだけにアクセスを認め、データが取得された日付から少なくとも2年間データ資産を保持する。
データのモニタリング: データのモニタリングは、データ分類/データ保護に対する変更を必要とするようなデータ定義またはデータ資産自体に対するすべての変更を特定するために必要である。またデータのモニタリングは、データ管理を向上させる可能性があるようなリアルワールドデータの分類や保護の経験からの教訓を特定する。

その上で、「3. データ分類の機能」において、以下の通り、データ分類のプロセスに必要な5つの機能を提示している。

データ分類ポリシーの定義: データ資産のタイプの用語集と個々のタイプのデータ資産を特定するためのルールを記した、組織のデータ分類ポリシーを定義する
分類するデータ資産の特定: 組織が分類すべきデータ資産を特定する
データ資産向けのデータ分類の決定: データ資産を分析し、個々にとって適切なデータ分類を決定する
データ資産のラベリング: 個々のデータ資産に、データ分類ラベルを関連付ける(一度ラベルが割り当てられると、個々のデータ資産に対して、適用可能なサイバーセキュリティおよびプライバシーの要求事項を強制することができる)
データ資産のモニタリング: データ分類および/またはデータ分類ポリシーを更新する必要があるような変更に関して、個々のデータ資産をモニタリングする

このようなデータ分類プロセスの効率化・自動化を図るために、「Microsoft 365」(https://learn.microsoft.com/en-us/compliance/assurance/assurance-create-data-classification-framework)、「Google Workspace」(https://support.google.com/a/answer/9843931)、「Salesforce」(https://help.salesforce.com/s/articleView?id=sf.dato_harmonize_classify.htm&type=5)など、主要クラウドサービスプロバイダーは、様々なサポート機能を提供しており、その中に、データ損失防止(DLP)機能も含まれる。

以下では、医療/ライフサイエンス分野におけるデータ分類・管理に係る具体的な事例を紹介する。
事例1: 米国マウント・サイナイ・アイカーン医科大学のデータ分類参照ガイド

マウント・サイナイ・アイカーン医科大学は、米国ニューヨーク市マンハッタン区にある私立の医科大学であり、マウントサイナイ医療センター(ベッド数: 約1,200床)を併設している。参考までに、OWASP/クラウドセキュリティアライアンスの「OWASP セキュアな医療機器導入基準Version 2.0」(2018年8月発行)( https://cloudsecurityalliance.org/artifacts/owasp-secure-medical-devices-deployment-standard/)や、クラウドセキュリティアライアンスの「医療機器インシデント対応プレイブック」(2021年11月8日発行)( https://cloudsecurityalliance.org/artifacts/csa-medical-device-incident-response-playbook/)のプロジェクトリードを務めたクリストファー・フレンツ氏は、傘下のマウント・サイナイ・サウスナッソー病院の情報セキュリティ責任者である。フレンツ氏は、米国医療情報管理システム学会(HIMSS)などで、精力的に情報セキュリティやゼロトラストアーキテクチャに関する啓発活動を行っている。

同大学では、全学共通のデータ分類参照ガイド (https://icahn.mssm.edu/research/portal/resources/rit/data-classification) を策定・運用している。このガイドでは、以下のように、データの機微性のレベルに沿って4段階の分類を設定している。

[保護対象(Protected)] 機微性・最高レベル:
法規制により情報の保護が要求される、または情報への不正なアクセスがあった場合、大学に対して政府への自己報告および/または個人への通知が要求される
<データの事例>
-保護対象保健情報(PHI)
-個人識別情報(PII)
-個人/従業員データ(例.従業員の補償金、就業不能給付金請求)
-ディレクトリ情報に含まれない学生データ(例.学生ローン情報)
-ビジネス/金融データ(例.クレジットカード番号)

[機密(Confidential)] 機微性・高レベル:
マウントサイナイが所有権を有するデータ、情報、知的財産; または契約上の義務により保護されたデータ
<データの事例>
-機密または制限対象データにアクセスする情報リソース(ユーザ名とパスワード)
・アカデミック/研究情報(例.助成金申請書、被験者情報、詳細な年間予算情報)
・データ管理(例. 利益相反開示)
-ビジネス/金融データ(例.機密保持契約書によりカバーされる情報)

[制限対象(Restricted)] 機微性・中レベル:
一般的に公が利用できないデータまたは情報
<データの事例>
-ビジネス/金融データ(例.機密データを含まない金融取引)
-アカデミック/研究情報(例.未公表の研究または機密データ扱いの研究詳細/結果、プライベートファンディング情報)
-管理データ(例.医療センターの投資情報)
-システム/ログデータ(例. サーバーのイベントログ)

[公開(Public)] 機微性・低レベル:
プライバシーまたは機密性が期待されないデータ
<データの事例>
・オーナーがプライベート扱いを意図していない特定のディレクトリ/契約情報
・学生固有のもの(例.学年、キャンパス活動・スポーツへの参加)
・ビジネスデータ(例.キャンパスマップ、公開出版物リスト)

参考までに、ニューヨーク州では、2023年11月1日、同州金融サービス局(NYDFS)が、改正サイバーセキュリティ規則「23 NYCRR Part 500」(https://www.dfs.ny.gov/reports_and_publications/press_releases/pr202311011)を施行して、ビジネス/金融データに係るサイバーセキュリティ要求事項が厳格化された。州内の医療保険会社や、Healthtech/Medtechスタートアップ企業に投資するプライベート・エクイティ・ファンドも、NYDFSの監視対象である。
事例2: 米国NIHのデータ管理・共有ポリシー施行

米国立衛生研究所(NIH)は、2023年1月25日、「データ管理・共有(DMS)ポリシー」を施行した(https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-013.html)。DMSポリシーは、科学における信頼性と透明性を高めるために、研究データの利用可能性と再利用性を最大化する一方、研究データの管理・共有の規範を構築することを目的としており、NIHの研究資金を受けて、科学データを利用した研究を行うプロジェクト(米国外を含む)に適用される。

NIHは、科学データについて、「データが学術出版物をサポートするために利用されたかに関わらず、研究成果を検証し再現するために十分な品質があると、科学コミュニティに共通して受け入れられたデータ」と定義しており、研究成果を検証し、再現するために必要なすべてのデータが含まれるとしている。そしてNIHの研究資金を求める研究者に対して、以下のような要求事項を定めている。

科学データおよび付随するメタデータの管理/共有方法の概略を提示し、プロジェクトに適用される可能性がある潜在的な制限や限界を考慮したDMS計画(その他の資金調達元省庁向けのデータ管理計画と同等)を提出する
NIH内部の資金調達元研究所またはセンターが承認したデータ管理/共有計画を順守する

また、DMS計画に含まれる要素として、以下のような項目を推奨している。

データのタイプ
関連するツール、ソフトウェアおよび/またはコード
標準規格
データの保存、アクセス、関連するタイムライン
アクセス、配布、再利用の考慮事項
データ管理/共有の監視

なお、ゲノムデータを利用した研究プロジェクトについては、NIHの「ゲノムデータ共有ポリシー」(https://sharing.nih.gov/genomic-data-sharing-policy)に準拠して、以下のような対応策を講じることが推奨される

DMS計画の一部として、ゲノムデータ共有のための計画を策定し、提供する
ヒューマンデータで作業する場合、ジャストインタイムで機関認証フォームを提供する
迅速な方法で、ゲノムデータを適切なリポジトリに提出する
責任を持って、アクセス制御されたデータを利用する
発行物やプレゼンテーションでは、アクセス制御されたデータを適切に引用する

参考までに、2022年9月15日に発表された「対米外国投資委員会による国家安全保障リスクの進展に対する堅牢性の考慮の確保に関する大統領令」(https://www.whitehouse.gov/briefing-room/presidential-actions/2022/09/15/executive-order-on-ensuring-robust-consideration-of-evolving-national-security-risks-by-the-committee-on-foreign-investment-in-the-united-states/)では、特に米国の国家安全保障に影響を及ぼす領域として、マイクロエレクトロニクス、AI、バイオ技術/バイオ製造、量子コンピュータ、先進的クリーンエネルギー(蓄電池、水素など)、気候適応技術、重要な素材(リチウム、レアアース希土類元素など)、食品安全保障に影響を与える農業産業基盤の要素および米国のサプライチェーンに関する大統領令第14017号(2021年2月24日)(https://www.whitehouse.gov/briefing-room/presidential-actions/2021/02/24/executive-order-on-americas-supply-chains/)で指定されたその他のセクターを挙げている。これらの領域で、NIHの資金助成を受けた科学データ研究プロジェクトに関わる日本の教育・研究機関や企業は、米国の国家安全保障に関する大統領令の適用範囲となる。データ侵害インシデントへの対応などを誤ると、外交問題に発展しかねないので、特に注意が必要である。

CSAジャパン関西支部メンバー
健康医療情報管理ユーザーワーキンググループリーダー
笹原英司