匿名加工HPトップ絵r3.png

匿名加工情報を作成できる「匿名加工情報作成ソフトウェア tasokarena」とは

改正個人情報保護法*1の全面施行(2017530日)で、個人情報を匿名加工情報に加工すれば本人から同意を得なくても一定の条件を満たすことで目的外利用・第三者へ提供ができるようになりました。それに伴い個人情報の利活用への関心も高まっています。
tasokarenaは、個人情報を法令にしたがって適切に匿名加工情報※に加工することを支援するソフトウェアです。
また次世代医療基盤法*2に基づいた認定医療情報等取扱受託事業者においても使用可能なソフトウェアです。
使用するデータの特性や利用目的の応じて最適な加工方法の選択と加工結果を評価する環境を提供します。

※「匿名加工情報」とは、特定の個人を識別することができないように加工して得られる個人に関する情報であって、当該個人情報を復元して特定の個人を再識別することができないようにしたものです



2020/06/15 新バージョン(V3)を9月に販売開始予定
金融・自治体・医療機関・健康保険組合などが保有しているパーソナルデータの利活用をさらに促進するため、匿名加工情報作成ソフトウェア「tasokarena(タソカレナ)」に医療やヘルスケア向けの機能などを追加した新バージョンを2020年9月から販売します。
2019/09/24 NTTコミュニケーションズによりクラウド型匿名加工サービスを提供開始
NTTコミュニケーションズ株式会社が提供する企業向けクラウドサービス「Enterprise Cloud」上での匿名加工サービスを開始しました。
月額料金での提供形態のため、手軽に必要な期間だけご利用が可能です。
詳細はこちら ※社外サイトにリンクしております。
2019/08/05 V2エンタープライズ版の販売開始
加工したい個人情報の取り込み方法として、CSVファイルに加えてデータベースにも対応する「データベース連携機能」とさらにルール化した加工技法に従って自動的に匿名加工情報へと加工する「自動実行機能」を実装した、エンタープライズ版の販売を開始します。
2019/05/20 新機能追加
履歴データを有効に利活用するために、必要とするデータの価値を残したまま日付をランダム化するなど顧客ニーズに対応した高度な加工技法を追加したスタンダード版の販売を開始しました。

新機能の特徴

パーソナルデータから特定の個人を識別できないように加工した匿名加工情報は、本人の同意なく利活用できるため、膨大なデータを必要とする新薬開発や臨床研究の効率化など、医療やヘルスケア分野における利活用の期待が高まっています。しかし、匿名加工情報の作成には、医療やヘルスケアのデータ分析に関する知見と匿名加工に関する知見の両方が求められます。そのため医療分野の現場担当者のみで匿名加工情報を作成するには負担が大きく、本格的な利活用が加速していないのが現状です。
9月に販売予定のV3では、医療やヘルスケアでの実績と知見の蓄積をもとに、医療分野をはじめとして、金融、自治体等の各分野で幅広くあらゆるユーザーが簡単に匿名加工情報を作成できる新機能を盛り込みました。
主な特徴は以下をご覧ください。

 AI機能により加工ルールの検討を支援

tasokarenaの補助ツールにパーソナルデータを入力・設定することにより、データの値から個人を特定できるかの危険性をAI機能が判別し、そのデータに対して適用を検討すべき加工ルールが提案されます。これにより、数十種類ある加工技法からどの技法を適用すればよいかをゼロから検討する手間が削減され、匿名加工情報を扱った経験が少ない医療の現場担当者や、あらゆるユーザーの負担軽減につながります。

 手間なくレセプトデータの匿名加工が可能

自治体・医療機関・健康保険組合などの共通仕様になっているレセプトデータ*5をtasokarenaで読み込み可能にする変換ツールを提供します。レセプトデータのフォーマットはレコード識別情報の値によってレコード項目数や記録内容の形式が異なるため、匿名加工情報を作成する場合には、事前にユーザーによるデータの形式を合わせるなどのクレンジング処理が必要でした。変換ツールを使用することでユーザーによる手間が削減され、さらに変換後のレセプトデータから作成した匿名加工情報を再び元のレセプトデータのフォーマットに戻すことが可能になり、既存システムでも匿名加工情報を利活用できます。

 日付の間隔を保ったまま加工する技法を追加

従来の機能では、例えばこれまで投薬の順序を維持した状態で日付をランダム化することは可能でしたが、「投薬の順序を維持するだけでは新薬開発などには活用しづらい」「日付は基準日を基にした加算を行いたい」という声が製薬会社などから寄せられていました。今回これらの現場の声を反映した加工技法の追加により、医療やヘルスケアのデータに限らず、購買履歴など日付を使用するデータに対して、より現場のニーズにあった加工と利活用が可能となります。

 マスキングツールで情報共有の安全性を向上

同一事業者内での情報共有における安全性を高める目的として、自由記述形式で記載された文章に含まれる個人情報を削除するマスキングツールを提供します。例えば自由記述欄の医師の所見や患者の診療記録などに含まれる氏名や住所に関する個人情報やコールセンターの対応履歴データに含まれる個人情報は、ユーザーの手作業によるマスキングが必要なため、大きな負担になっていました。マスキングツールは自然言語解析により、文章の中から氏名や住所などを自動で判別し、削除を可能にします。これによりユーザーの作業負担を軽減しながら、情報共有における安全性の向上を実現します。

基本機能

特長1:NTT独自技術含む豊富な加工技法を提供

 NTT研究所技術であるPk-匿名化*3を実用化

NTTが独自に開発した手法である「Pk-匿名化」を実用化し、本ソフトウェアに搭載しています。匿名性の代表的な指標であるk-匿名性*4を満たすようにノイズ(疑似データ)の付与やデータの入れ替えを行い、データの有用性が損なわれにくい匿名加工情報を作成します。

 数十種類の加工技法から、加工するデータに合わせた技法を選択可能

直観的な画面操作により、数十種類の加工技法の中から実行する加工技法を組み合わせ、匿名加工情報を作成することが可能です。本ソフトウェアはスタンドアロンPC上での動作が可能です。

 履歴型データについてもk-匿名化、Pk-匿名化が可能

受診履歴データ、購買履歴データといった履歴型データについて、履歴型データ(1ユーザ複数レコード)の状態で、k-匿名化、Pk匿名化を行うアルゴリズム(NTT独自技術)を実装し、受診履歴データや購買履歴データといった履歴型データについても加工と評価を実行することが可能です。

 フィルタ機能により、指定した属性に対して条件に合致したレコードの抽出が可能

加工対象のデータに含まれる各分野に存在する特異とされる条件(年度と病名の組み合わせ等)に該当するレコードに対して個別に加工を行いたい場合、新たに追加したフィルタ機能を利用することで、データ内から条件に合致したレコードを抽出し、抽出したレコードに対して加工を設定、実行することができます。例えば、医療分野において2015年に発生したエボラ出血熱感染症疑似症患者に関するレコードに対して加工を行いたい場合、加工フィルタにて特定の検査日、病歴を設定することで、データ内から条件に合致したレコードが抽出され、抽出したレコードに対して加工を設定、実行することができます。


 履歴データ分析に必要な日付情報の価値を維持しながら加工

履歴データを有効に利活用するために、日付の順序や期間など必要とするデータの価値を残したまま、日付をランダム化することができます。 例えば、医療業界において新薬や医療機器などの開発には、患者の病状に関する情報として病名のほか、入退院や投薬の日付といった情報が重要となります。しかし、これらの日付に関する情報は病名など具体的な情報と合わさって個人が特定される可能性があります。本ソフトウェアではこれらに対応した日付を加工する技法により、安全性と有用性両方を考慮した加工を実現します。

特長2:匿名性・有用性の評価機能

 多様な評価技法によりデータの匿名性と有用性をグラフィカルに表示

加工済みの匿名加工情報は、15種類の評価技法により匿名性と有用性のバランスをグラフで確認することが可能です。このグラフを参考にしながら加工技法の組み合わせを変えることで、独自の加工ルールを設定していくことが可能になります。

特長3:選べる製品ラインナップ

スタンダード版とエンタープライズ版を提供

スタンドアロンで動作可能なスタンダード版と、コマンド実行、データベース連携、自動実行が可能なエンタープライズ版を提供します。

匿名加工機能を自社システムと連携可能(エンタープライズ版)

加工したい個人情報の取り込み方法として、CSVファイルに加えてデータベースにも対応する「データベース連携機能」とさらにルール化した加工技法に従って自動的に匿名加工情報へと加工する「自動実行機能」を実装します。 例えば、医療分野における電子化されたカルテや明細書を一元的に管理しているシステムから、匿名加工情報を作成したい場合はデータベース連携機能を使うことにより、 システム間での連携が可能になります。 また本ソフトウェアの自動実行機能により、ユーザーによる操作を必要とせず匿名加工情報への加工が可能です。ユーザーの負担を最小限に抑える形で、継続した加工の定期実行が可能です。


【用語解説・注釈】

*1:2017年5月施行の改正個人情報保護法により、個人情報を「匿名加工情報」に加工し一定の条件を満たすことで、本人の同意なく柔軟な利活用が可能となりました。「匿名加工情報」とは、特定の個人を識別することができないように加工して得られる個人に関する情報であって、当該個人情報を復元して特定の個人を再識別することができないようにしたものです。

*2:「医療分野の研究開発に資するための匿名加工医療情報に関する法律(平成29年法律第28号)」の略称。

*3:Pk-匿名化とは、データの一部分を確率的に書き換えるランダム化の処理と、元の状態を推定する再構築という処理により、理論的にk-匿名性を満たしつつ、元のデータの統計的性質をなるべく保った有用性の高いデータを作成する技術です。

参考情報: ビッグデータ時代における新たなパーソナルデータ匿名化システムを開発 http://www.ntt.co.jp/news2014/1402/140207b.html

安全かつ有用な「匿名加工情報」の作成を支援するソフトウェアを開発 http://www.ntt.co.jp/news2017/1709/170911a.html

*4:k-匿名性とは、匿名化されたデータの安全性を示す指標の1つです。匿名化されたデータから少なくともk人以上にしか個人を識別できない(1/k未満の確率でしか個人を識別できない)とき、そのデータはk-匿名性をもつといいます。

*5:レセプト(診療報酬明細書)とは、医療費の請求明細のことで、保険医療機関・保険薬局が保険者に医療費を請求する際に使用するものです。電子レセプトとは、厚生労働省が定めた規格・方式(記録条件仕様)に基づきレセプト電算処理マスターコードを使って、CSV形式のテキストで電子的に記録されたレセプトのことを指します。

動作環境と価格

ソフトウェア動作環境

項目

要件

CPU

Intel Core i5 1.8GHz 以上

メモリ

8GB 以上

ディスク

HDD 100GB 以上

画面の解像度

デフォルト1440×900

OS

Windows 10、Windows Server 2016、CentOS 7.5    ※すべて64bit版

※データ量や加工技法等によっては、よりハイスペックな環境をご用意頂く必要があります。

プランと価格(税別)

◆スタンダード版:匿名加工を手軽に実施したい企業様向け
◆エンタープライズ版:匿名加工を本格的・継続的に実施したい企業様向け

スタンダード版
(GUI版)

エンタープライズ版
(スタンダード版
+自動実行/データ連携機能)

価格

60万円/年~
(5ユーザライセンス単位)

180万円/年~
(5ユーザライセンス単位)

サポート

QAサービス (メールベースでの操作方法に対するQ&Aサービス)
60万円/12チケット(有効期間1年)

利用事例

tasokarenaの利用事例を紹介します。

利用事例(1)医療分野における利用イメージ

利用事例(2)医療分野における利用イメージ<次世代医療基盤法>

利用事例(3)金融分野における利用イメージ

加工技法と評価技法

加工技法一覧

加工技法大分類

加工技法中分類

本ソフトウェアでの技法名称

秘匿

属性秘匿

属性削除

仮ID化

レコード、セルまたは属性値の一部の秘匿

レコード削除

セル削除

墨消し

過多/過少履歴レコード削除

変更

一般化

文字列一般化

数値一般化

日付一般化

数値区分化(型維持)

日付区分化(型維持)

日付区分化(旬/週)

コーディング

トップコーディング

ボトムコーディング

トップボトムコーディング

丸め処理

丸め単位指定数値四捨五入

数値四捨五入

数値切り捨て丸め

k-匿名化

一般化&削除k-匿名化

削除k-匿名化

ミクロアグリゲーション

MDAVミクロアグリゲーション

Mondrianミクロアグリゲーション

Pk-匿名化

基本Pk-匿名化

ノイズ付加ハイブリッドPk-匿名化

データ依存Pk-匿名化

属性ランダム化

単純ノイズ付与

ガウスノイズ付与

ラプラスノイズ付与

維持置換撹乱

ランダムスワッピング

順序維持日付間隔ランダム化

順序維持日付ランダム加算

日付一律加算

並び順ランダム化

レコードシャッフル

レコードサンプリング

レコードサンプリング

擬似データ生成

擬似データ生成

評価技法一覧

種類          評価技法名
メイン指標 メイン指標
匿名性評価技法 照合可能性
照合可能性(数値のみ)
k-匿名性
k-匿名性(マスター属性のみ)  
有用性評価技法 最頻値
基本統計量
相関係数
ヒストグラム
クロス集計(誤差)
クロス集計
レコード編集数
セル編集数
再構築誤差

*tasokarenaはNTTテクノクロス株式会社の商標です。その他会社名、製品名などの固有名詞は、一般に該当する会社もしくは組織の商標または登録商標です。

ソリューション・製品一覧へ