匿名加工HPトップ絵r3.png

匿名加工情報を作成できる「匿名加工情報作成ソフトウェア」とは

改正個人情報保護法*1の全面施行(2017530日)で、個人情報を匿名加工情報に加工すれば本人から同意を得なくても一定の条件を満たすことで目的外利用・第三者へ提供ができるようになりました。それに伴い個人情報の利活用への関心も高まっています。
匿名加工情報作成ソフトウェアは、個人情報を法令にしたがって適切に匿名加工情報(*)に加工することを支援するソフトウェアです。
データの特性や利用目的の応じて最適な加工方法の選択と加工結果を評価する環境を提供します。

*「匿名加工情報」とは、特定の個人を識別することができないように加工して得られる個人に関する情報であって、当該個人情報を復元して特定の個人を再識別することができないようにしたものです


【NEW】2019.5 新機能追加
個人情報を匿名加工情報に加工し、利活用しようとしている企業は300社以上と言われ、市場は拡大し続けています。しかしながら、一般企業や医療業界における匿名加工情報の活用はあまり進んでいないのが現状です。
その理由として、既存の加工ソフトウェアでは、匿名性を保つためにデータ活用に本来必要な情報まで削除されてしまうこともあり、たとえば履歴データにおける日付情報などは、安全かつ有用な加工が難しいことが挙げられます。
さらに、それぞれの企業が既に独自のシステムで個人情報を管理しているのに対して、匿名加工情報に変換するシステムの連携手段は限られており、システム間連携ができなかったという課題もあります。

今回、これらの課題を解決し、バージョンアップした匿名加工情報作成ソフトウェアを提供いたします。

新規機能の特徴

 履歴データ分析に必要な日付情報の価値を維持しながら加工(スタンダード版)

本ソフトウェアでは、履歴データを有効に利活用するために、新たに日付の順序や期間など必要とするデータの価値を残したまま、日付をランダム化する加工技法を追加しました。
例えば、医療業界において新薬や医療機器などの開発には、患者の病状に関する情報として病名のほか、入退院や投薬の日付といった情報が重要となります。しかし、これらの日付に関する情報は病名など具体的な情報と合わさって個人が特定される可能性があります。そのため従来の加工技法では、日付の順序や期間といったデータ分析において重要とされる情報が削除され、結果として新薬や医療機器などの開発に活用できないという問題がありました。新バージョンではこれらに対応した日付を加工する技法により、安全性と有用性両方を考慮した加工を実現します。

 フィルタ機能により、指定した属性に対して条件に合致したレコードの抽出が可能(スタンダード版)

加工対象のデータに含まれる各分野に存在する特異とされる条件(年度と病名の組み合わせ等)に該当するレコードに対して個別に加工を行いたい場合、従来のバージョンでは該当するレコードをユーザ側で抽出して加工を行う必要がありました。
新バージョンでは、新たに追加したフィルタ機能を利用することで、データ内から条件に合致したレコードを抽出し、抽出したレコードに対して加工を設定、実行することができます。
例えば、医療分野において2015年に発生したエボラ出血熱感染症疑似症患者に関するレコードに対して加工を行いたい場合、加工フィルタにて特定の検査日、病歴を設定することで、データ内から条件に合致したレコードが抽出され、抽出したレコードに対して加工を設定、実行することができます。

 履歴型データについてもk-匿名化、Pk-匿名化が可能(スタンダード版)

レセプト、購買履歴データといった履歴型データについて、k-匿名化、Pk-匿名化といった加工や、個人の識別の可能性を評価する場合、従来のバージョンではあらかじめユーザがデータを「1ユーザ1レコード」に整形しなければなりませんでした。
新バージョンでは履歴型データ(1ユーザ複数レコード)の状態で、k-匿名化、Pk匿名化を行う新規アルゴリズム(NTT独自技術)を実装し、レセプトや購買履歴データといった履歴型データについても加工と評価を実行することが可能になりました。

 匿名加工機能を自社システムと連携可能(エンタープライズ版)

加工したい個人情報の取り込み方法として、CSVファイルに加えてデータベースにも対応する「データベース連携機能」とさらにルール化した加工技法に従って自動的に匿名加工情報へと加工する「自動実行機能」を実装します。
例えば、医療分野における電子化されたカルテや明細書を一元的に管理しているシステムから、匿名加工情報を作成しようとした場合、従来のバージョンでは作成の過程でユーザーの手によるCSVファイル形式でのデータ出力、加工実行が必要でした。新バージョンでは、そのような人による仲介無しに動作させることが可能となるデータベース連携機能を実装し、個別開発を行わずに、 システム間での連携が可能になります。
また本ソフトウェアの自動実行機能により、ユーザーによる操作を必要とせず匿名加工情報への加工が可能です。ユーザーの負担を最小限に抑える形で、継続した加工の定期実行を可能にしました。
(2019.8販売予定)

従来機能の特長

 NTT研究所技術であるPk-匿名化*2を実用化

NTTが独自に開発した手法である「Pk-匿名化」を実用化し、本ソフトウェアに搭載しています。匿名性の代表的な指標であるk-匿名性*3を満たすようにノイズ(疑似データ)の付与やデータの入れ替えを行い、データの有用性が損なわれにくい匿名加工情報を作成します。

Pk-匿名化

 35種類の加工技法から、加工するデータに合わせた技法を選択可能

直観的な画面操作により、35種類の加工技法の中から実行する加工技法を組み合わせ、匿名加工情報を作成することが可能です。本ソフトウェアはスタンドアロンPC上での動作が可能です。

 多様な評価技法によりデータの匿名性と有用性をグラフィカルに表示

加工済みの匿名加工情報は、15種類の評価技法により匿名性と有用性のバランスをグラフで確認することが可能です。このグラフを参考にしながら加工技法の組み合わせを変えることで、独自の加工ルールを設定していくことが可能になります。

ソフトウェア動作環境

項目

要件

CPU

Intel Core i5 1.8GHz 以上

メモリ

8GB 以上

ディスク

HDD 100GB 以上

画面の解像度

デフォルト1440×900

OS

Windows 10、Windows Server 2016、CentOS 7.5    ※すべて64bit版

※データ量や加工技法等によって、よりハイスペックな環境をご用意頂く必要があります。

プランと価格(税別)

◆スタンダード版:匿名加工を手軽に実施してみたい企業様向け
◆エンタープライズ版:匿名加工を本格的・継続的に実施する企業向け向け(2019.8販売予定)

スタンダード版

エンタープライズ版

価格

60万円/年
(5ユーザライセンス単位)

180万円/年
(5ユーザライセンス単位)

サポート

QAサービス (メールベースでの操作方法に対するQ&Aサービス)
60万円/12チケット(有効期間1年)

用語解説・注釈

*1:2017年5月施行の改正個人情報保護法により、個人情報を「匿名加工情報」に加工し一定の条件を満たすことで、本人の同意なく柔軟な利活用が可能となりました。「匿名加工情報」とは、特定の個人を識別することができないように加工して得られる個人に関する情報であって、当該個人情報を復元して特定の個人を再識別することができないようにしたものです。

*2:Pk-匿名化とは、データの一部分を確率的に書き換えるランダム化の処理と、元の状態を推定する再構築という処理により、理論的にk-匿名性を満たしつつ、元のデータの統計的性質をなるべく保った有用性の高いデータを作成する技術です。

参考情報:
ビッグデータ時代における新たなパーソナルデータ匿名化システムを開発
http://www.ntt.co.jp/news2014/1402/140207b.html

安全かつ有用な「匿名加工情報」の作成を支援するソフトウェアを開発
http://www.ntt.co.jp/news2017/1709/170911a.html

*3:k-匿名性とは、匿名化されたデータの安全性を示す指標の1つです。匿名化されたデータから少なくともk人以上にしか個人を識別できない(1/k未満の確率でしか個人を識別できない)とき、そのデータはk-匿名性をもつといいます。

加工技法と評価技法

加工技法一覧

加工技法大分類

加工技法中分類

本ソフトウェアでの技法名称

秘匿

属性秘匿

属性削除

仮ID化

レコード、セルまたは属性値の一部の秘匿

レコード削除

セル削除

墨消し

過多/過少履歴レコード削除

変更

一般化

文字列一般化

数値一般化

日付一般化

数値区分化(型維持)

日付区分化(型維持)

日付区分化(旬/週)

コーディング

トップコーディング

ボトムコーディング

トップボトムコーディング

丸め処理

丸め単位指定数値四捨五入

数値四捨五入

数値切り捨て丸め

k-匿名化

一般化&削除k-匿名化

削除k-匿名化

ミクロアグリゲーション

MDAVミクロアグリゲーション

Mondrianミクロアグリゲーション

Pk-匿名化

基本Pk-匿名化

ノイズ付加ハイブリッドPk-匿名化

データ依存Pk-匿名化

属性ランダム化

単純ノイズ付与

ガウスノイズ付与

ラプラスノイズ付与

維持置換撹乱

ランダムスワッピング

順序維持日付間隔ランダム化

順序維持日付ランダム加算

並び順ランダム化

レコードシャッフル

レコードサンプリング

レコードサンプリング

擬似データ生成

擬似データ生成

評価技法一覧

種類          評価技法名
メイン指標 メイン指標
匿名性評価技法 照合可能性
照合可能性(数値のみ)
k-匿名性
k-匿名性(マスター属性のみ)  
有用性評価技法 最頻値
基本統計量
相関係数
ヒストグラム
クロス集計(誤差)
クロス集計
レコード編集数
セル編集数
再構築誤差

ソリューション・製品一覧へ