8月 | 2021 | CSAジャパンブログページ

医療ビッグデータライフサイクルとGDPRに準拠したプライバシー保護

次に本文書では、以下の6つのステージから成るクラウド環境のデータライフサイクルを提示している。

生成(Create)：データが生成、獲得、修正される
保存(Store)：データがストレージレポジトリに委ねられる
利用(Use)：データが他の種類の活動で処理、閲覧、利用される
共有(Share)：データや情報が他にアクセス可能なようにする
保管(Archive)：データが長期ストレージに置かれる
破壊(Destroy)：データが必要でなくなった時、物理的に破壊される

その上で、プライバシーの定義について、情報の適正なアクセス、利用、変更に関する意思決定に関係したものであり、誰が適正に情報にアクセスし変更すべきかを決定するフレームワークを確立するものとしている。

患者のプライバシーに対する侵害は、情報システムに対する持続的標的型（APT）攻撃や標的型攻撃の出現とともに、医療ビッグデータ分析における重大な課題と認識されている。医療ビッグデータの価値は、個人情報の収集に関連していることが多く、その結果が個人によく理解されていない可能性がある。従って、ビッグデータのベネフィトを享受すると同時に、各個人のプライバシーを保護することが必須の課題となる。また、プライバシー保護に際しては、個人の選択権を認めると同時に、効果的なリスク低減策を提供する必要がある。

特に、欧州連合（EU）の一般データ保護規則（GDPR）は、EUのデータ主体の個人データが保護されていることを保証し、個人データに対するEUのデータ主体の権利が拡大することを目的としている。EUのデータ主体のデータを収集、処理、保存する企業は、企業のロケーションに関わらず、GDPRを遵守しなければならない。ライフサイクル全体を通したデータ管理は、GDPR遵守に必要なだけでなく、米国の「医療保険の相互運用性と説明責任に関する法律（HIPAA）」で規定された保護対象保健情報（PHI）の要求事項をクリアするためにも有効だとしている。

また、企業に対しては、ユーザーの情報を利用目的・方法などについて説明したプライバシーポリシーを設定することが求められる。本文書では、以下のような点に留意するよう推奨している。

企業およびその代表者の連絡先詳細が含まれる
企業がデータを収集する理由を記述する
どれだけの期間、情報がファイルに保持されるかを述べる
ユーザーが有する権利を説明する
簡単な言語で文書化する
個人データの受取人の名前を明記する（企業が他組織とデータを共有する場合）

NISTプライバシーフレームワークを活用したデータリスク管理

本文書では、前述のデータライフサイクルのうち「共有」に関連して、異なる組織との間でデータが共有される方法を記述した「データ処理エコシステム」を取り上げている。このエコシステムは、複雑で多方向的な関係性を持った主体や役割から構成されており、責任共有モデルのベースとなる医療機関・クラウドサービスプロバイダー間の正式な同意書／契約書の締結が不可欠だとしている。

その上で、米国立標準技術研究所（NIST）プライバシーフレームワーク1.0版を利用したリスク管理手法を紹介している。同フレームワークでは、共通のプライバシーリスク対策の「コア」、組織が行うプライバシーリスク対策の「As Is（Current）」と「To Be（Target）」をまとめた「プロファイル」、プライバシーリスクへの対策状況を数値化し、組織を評価する基準である「インプレメンテーション・ティア」が基本概念の柱となっている。

コア機能には、「特定（Identify-P）」、「統治（Govern-P）」、「制御（Control-P）」、「通知（Communicate-P）」、「防御（Protect-P）」があるが、ここでは、特定（Identify-P）機能のうち、「ID.DE-P：データ処理エコシステム・リスクマネジメント」に従って、エコシステム内のプライバシーリスクを特定、評価、管理するプロセスを導入している。

データ処理エコシステム・リスクマネジメントとは、組織の優先順位付け、制約、リスクの許容範囲、仮定で、データ処理エコシステム内におけるプライバシーリスクおよびサードパーティの管理に関連するリスク意思決定を支援するために設定・利用されるものであり、以下のようなサブカテゴリーから構成される。

ID.DE-P1: データ処理エコシステム・リスクマネジメントのポリシーやプロセス、手順が、組織のステークホルダーによって特定、確立、評価、管理、同意される
ID.DE-P2: プライバシー評価プロセスを利用して、データ処理エコシステムの主体（例．サービスプロバイダー、顧客、パートナー、製品メーカー、アプリケーション開発者）が特定、優先順位付け、評価される
ID.DE-P3: 組織のプライバシープログラムの目的を満たすように設計された適切な遺作を展開するために、データ処理エコシステム主体との契約が利用される
ID.DE-P4: データ処理エコシステムのプライバシーリスクを管理するために、相互運用性フレームワークまたは同様のマルチパーティ手法が利用される
ID.DE-P5: 契約、相互運用性フレームワークまたはその他の責務を満たしていることを確認するために、監査、テスト結果またはその他の評価形態を利用して、データ処理エコシステム主体が日常的に評価される

プライバシーには、誰が情報にアクセスし、利用し、変更できるかに関する意思決定が含まれており、それに従って、セキュリティの選択肢や条件が展開される。セキュリティは、情報とプライバシーの間のインタフェースとなり、プライバシー権を推進して実行に移す役割を果たす。

医療機関は、大容量のデータを保存、処理、共有しており、医療産業を支援するためにビッグデータ分析で利用されている。データは重要な資産であり、データのセキュリティを維持し、医療の責務を遵守するために、医療機関は、セキュリティソリューションを展開する必要がある。米国では、HIPAAに加えて、連邦取引委員会（FTC）が所管する個人識別情報（PII）に対するセキュリティ要件も満たす必要がある。

サーバーレス環境の医療ビッグデータ基盤のリスク管理

2018年7月24日、米国立衛生研究所（NIH）は、商用クラウドサービスプロバイダーと提携して、生体医学の進歩を加速させるために、大規模生体医学データセットにアクセスして計算処理を行う際の経済的・技術的障害を取り除くことを目的とする「発見・実験・持続可能性のための科学技術研究インフラストラクチャ（STRIDES）イニシアティブ」を発表し、第一弾としてGoogle Cloudとの戦略的提携をスタートさせた（NIHプレスリリース参照（https://www.nih.gov/news-events/news-releases/nih-makes-strides-accelerate-discoveries-cloud））。その後NIHは、同年10月23日、Amazon Web Service (AWS)との戦略的提携を発表し（NIHプレスリリース参照（https://www.nih.gov/news-events/news-releases/amazon-web-services-joins-nihs-strides-initiative-harness-latest-cloud-technologies-biomedical-researchers））、さらに2021年7月20日には、Microsoft Azureとの戦略的提携を発表している（NIHプレスリリース参照（https://www.nih.gov/news-events/news-releases/nih-expands-biomedical-research-cloud-microsoft-azure））。

これらの医療ビッグデータベースには、サーバーレスなど最新鋭のクラウドネイティブ技術が実装されており、実際にビッグデータ分析を利用する医療エコシステムにも、位相高度なプライバシー／セキュリティリスク管理策が要求されつつある。

CSAジャパン関西支部メンバー
健康医療情報管理ユーザーワーキンググループリーダー
笹原英司

医療ビッグデータセキュリティに関連して、クラウドセキュリティアライアンスのヘルス・インフォメーション・マネジメント・ワーキンググループ（HIM-WG）は、2020年7月に「クラウドにおける医療ビッグデータ」（https://cloudsecurityalliance.org/artifacts/healthcare-big-data-in-the-cloud/）を公開している。この文書では、新型コロナウイルス感染症（COVID-19）対応下の医療分野におけるビッグデータのユースケースを紹介した上で、クラウド環境におけるプライバシー保護／セキュリティ管理策を整理している。

ビッグデータの特徴と分析機能

本文書では、まずビッグデータについて、従来の手法を利用して処理することが難しい大規模なデータ容量と定義し、以下の通り、6つのビッグデータの特徴（6Vs）を挙げている。

容量（Volume）：生成されたデータのサイズは通常膨大で、1ペタバイト以上の容量になる。医療においては、電子健康記録（EHR）だけで大容量のデータとなる。加えて、このデータは、新たなテストデータとして導入される度に変更することができ、国際疾病分類（ICD）コードのようなものが更新される。

速度（Velocity）：データユーザーが、データにアクセスし、分析することができる速度。医療においては、医療提供者がタイムリーな方法で、データを交換・利用できるようにするために、速度が必要である。
多様性（Variety）：構造化、半構造化、非構造化など、データの種類。医療は、マルチメディア、ソーシャルメディア、金融取引など、多様なデータソースを有している。
正確性（Veracity）：生成されたデータの品質。生死に関する意思決定は正確な情報に依存するため、医療データは、適切で、信頼性があり、エラーのないものでなければならない。
価値（Value）：既存データの分析から得られる価値であり、ビッグデータの最も重要な側面である。現段階では、医療データの価値は、大半が研究に限定されている。
可変性（Variability）：時を超えたデータの一貫性に関することとみなされる。

そして、医療ビッグデータの基本的な分析機能として以下の4つを挙げている。

記述的分析：医療に関する意思決定を理解し、新たな情報に基づく意思決定を行うために、データを検証する。そのモデルは、有益な情報を抽出するために、データをカテゴリー化、特定、結合、分類するのに利用することができる。
予測的分析：将来を予測するために推定可能な関係性のパターンを特定する目的で。古いまたは要約された医療データを検証する。医療データに隠れたパターンを特定して、医療リスクを予期し、患者に関するアウトカムを予測し、健康関連サービスを向上させるために、データマイニングを利用することができる。
処方的分析：多くの代替手段を含む課題を解決し、記述的／予測的分析を実行不可能にするために、情報や健康医療知識を利用する。
発見的分析：データから未知の事実を特定し、将来を向上させるために、知識に関する知識を利用する。新しい病気や病状、医薬品、治療法を発見するのに役立てることができる。

台湾に学ぶ医療ビッグデータにおける予測的分析の有効活用

医療ビッグデータの代表的なユースケースとして、電子健康記録（EHR）がある。電子健康記録には、病歴や検査画像結果、人口統計などの情報が含まれており、各患者の変更状態および医療記録を継続的に追跡して、検査の重複および関連する費用を削減する役割を果たす。

また、医療機関の電子健康記録は、クラウド上にある地域医療情報連携ネットワークに接続され、すべての医療機関が患者情報にアクセスできるようになっている。消費者中心の環境への医療の移行とともに、電子健康記録のデータを、継続的に患者データをクラウドに送信するウェアラブル機器と連携させて、院内の処置を削減し、費用のかかる入院を回避することも可能となっている。さらに、一般住民の健康状態を評価し、パターンを特定するために、ビッグデータを利用することも可能である。

このように、医療機関のIT化や地域医療情報連携ネットワークの整備が進んだところでは、医療ビッグデータ利活用のユースケースが生まれている。たとえば、台湾の新型コロナウイルス感染症（COVID-19）パンデミック対応時には、公衆衛生当局が、旅行歴や臨床症状に基づいたビッグデータ分析を利用し、迅速な対応に当たっている。加えて、フライト情報や旅行歴に基づいて感染症リスクを分類し、リスクの低い患者に対しては入国審査を許可する一方、リスクの高い患者に対しては、自宅で隔離し、潜伏期間中はモバイルフォン経由で追跡する措置をとるなど、データに基づく意思決定を行っている。

台湾のケースは、予測的分析をうまく活用しながら、早期認識や日々のブリーフィング、健康メッセージにより、迅速・正確で透明性のある疫学情報を提供することによって、社会が迅速な危機への対応を実現し、パンデミック期の市民の利益保護を確実なものにする方法を示している。

（後編は後日公開）

CSAジャパン関西支部メンバー
健康医療情報管理ユーザーワーキンググループリーダー
笹原英司

CSAジャパンブログページ

月別アーカイブ: 2021年8月

クラウドにおける医療ビッグデータのプライバシー保護／セキュリティ管理（後編）

クラウドにおける医療ビッグデータのプライバシー保護／セキュリティ管理（前編）