匿名加工HPトップ絵r3.png

匿名加工情報を作成できる「匿名加工情報作成ソフトウェア」とは

改正個人情報保護法*1の全面施行(2017530日)で、個人情報を匿名加工情報に加工すれば本人から同意を得なくても一定の条件を満たすことで目的外利用・第三者へ提供ができるようになりました。それに伴い個人情報の利活用への関心も高まっています。
匿名加工情報作成ソフトウェアは、個人情報を法令にしたがって適切に匿名加工情報(*)に加工することを支援するソフトウェアです。

*「匿名加工情報」とは、特定の個人を識別することができないように加工して得られる個人に関する情報であって、当該個人情報を復元して特定の個人を再識別することができないようにしたものです

特長

 NTT研究所技術であるPk-匿名化*2を実用化

NTTが独自に開発した手法である「Pk-匿名化」を実用化し、本ソフトウェアに搭載しています。匿名性の代表的な指標であるk-匿名性*3を満たすようにノイズ(疑似データ)の付与やデータの入れ替えを行い、データの有用性が損なわれにくい匿名加工情報を作成します。

Pk-匿名化

 38種類の加工技法から、加工するデータに合わせた技法を選択可能

直観的な画面操作により、38種類の加工技法の中から実行する加工技法を組み合わせ、匿名加工情報を作成することが可能です。本ソフトウェアはスタンドアロンPC上での動作が可能です。

 多様な評価技法によりデータの匿名性と有用性をグラフィカルに表示

加工済みの匿名加工情報は、13種類の評価技法により匿名性と有用性のバランスをグラフで確認することが可能です。このグラフを参考にしながら加工技法の組み合わせを変えることで、独自の加工ルールを設定していくことが可能になります。

評価画面

価格(税別)

① 匿名加工情報ソフトウェア:60万円(5ユーザあたりの年間サブスクリプションライセンス)
② QAサービス(①に付加する操作方法のQ&Aサービス):60万円(12チケット、1年間有効)

ソフトウェア動作環境:Windows 10、Windows Server 2016、Windows Server 2012 R2、CentOS 7.3

用語解説・注釈

*1:2017年5月施行の改正個人情報保護法により、個人情報を「匿名加工情報」に加工し一定の条件を満たすことで、本人の同意なく柔軟な利活用が可能となりました。「匿名加工情報」とは、特定の個人を識別することができないように加工して得られる個人に関する情報であって、当該個人情報を復元して特定の個人を再識別することができないようにしたものです。

*2:Pk-匿名化とは、データの一部分を確率的に書き換えるランダム化の処理と、元の状態を推定する再構築という処理により、理論的にk-匿名性を満たしつつ、元のデータの統計的性質をなるべく保った有用性の高いデータを作成する技術です。

参考情報:
ビッグデータ時代における新たなパーソナルデータ匿名化システムを開発
http://www.ntt.co.jp/news2014/1402/140207b.html

安全かつ有用な「匿名加工情報」の作成を支援するソフトウェアを開発
http://www.ntt.co.jp/news2017/1709/170911a.html

*3:k-匿名性とは、匿名化されたデータの安全性を示す指標の1つです。匿名化されたデータから少なくともk人以上にしか個人を識別できない(1/k未満の確率でしか個人を識別できない)とき、そのデータはk-匿名性をもつといいます。

加工技法と評価技法

加工技法一覧

# 加工技法 概要
1 仮ID化 ハッシュアルゴリズムを用いて別の値(ハッシュ値)に置き換える加工技法です。例えば、顧客IDをハッシュ化することで匿名化し、管理することが可能となります。
2 文字列一般化 任意の上位概念に置き換える加工技法です。例えば、職業を「匿名銀行 渉外担当」→「銀行員」→「金融関係」のように置き換えることが可能です。
3 数値一般化 数値情報を任意の刻み幅で置き換える加工技法です。例えば、年齢を「12」→「10~14」(5歳刻み)→「10~19」(10歳刻み)のように置き換えることが可能です。
4 日付一般化 日付情報を任意の指定した単位に置き換える加工技法です。例えば、誕生日を「1992年11月23日」→「1992年11月」→「11月」のように置き換えることが可能です。
5 トップコーディング 任意のしきい値で「(しきい値)以上」または「(しきい値)より大きい」という値にまとめる加工技法です。
6 ボトムコーディング 任意のしきい値で「(しきい値)以下」または「(しきい値)より小さい」という値にまとめる加工技法です。
7 トップボトムコーディング 加工技法「トップコーディング」と「ボトムコーディング」の両方を同時に適用する加工技法です。
8 丸め単位指定数値四捨五入 任意の「丸める単位」で丸める加工技法です。数値データを「丸める単位」で割り、その結果の小数点以下の値を四捨五入した値を再度「丸める単位」に掛けることで、丸めることができます。
9 数値四捨五入 四捨五入する桁数を指定し、該当する桁数で四捨五入する加工技法です。
10 数値切り捨て丸め 切り捨てる桁数を指定し、該当する桁数で切り捨てる加工技法です。
11 一般化&削除k-匿名化 同じ内容のレコードが指定件数(k件)以上となるように、一般化によってユニークな情報を削り、それでもユニークな内容のレコードが残る場合、そのレコードを削除する加工技法です。
12 削除k-匿名化 同じ内容のレコードが指定件数(k件)以上となるように、ユニークな内容のレコードを削除する加工技法です。
13 MDAVミクロアグリゲーション 同じ内容のレコードが指定件数(k件)以上となるよう、数値情報を近い数値同士でグループ化し、値をグループ内の平均値に置き換える加工技法です。
14 Mondrianミクロアグリゲーション 同じ内容のレコードが指定件数(k件)以上となるよう、数値情報を近い数値同士でグループ化し、値をグループ内の平均値に置き換える加工技法です。「MDAVミクロアグリゲーション」より誤差がありますが、高速に処理可能です。
15 基本Pk-匿名化 1/k未満の確率でしか加工後のデータから個人のレコードを識別できないよう、値を確率的に置き換える加工技法です。加工したデータの統計的特徴が元データに近づくよう、再構築(再び加工)するかどうかを指定できます。
16 ノイズ付加ハイブリッドPk-匿名化 1/k未満の確率でしか加工後のデータから個人のレコードを識別できないよう、値の確率的な置き換えやノイズを加える加工技法です。加工したデータの統計的特徴が元データに近づくよう、再構築(再び加工)するかどうかを指定できます。
17 データ依存Pk-匿名化 1/k未満の確率でしか加工後のデータから個人のレコードを識別できないよう、値を確率的に置き換える加工技法です。加工したデータの統計的特徴が元データに近づくよう、再構築(再び加工)するかどうかを指定できます。「基本Pk-匿名化」に比べ、元のデータに近い形で置き換えることができますが、処理が遅いです。
18 レコードサンプリング 指定した割合で、レコード全体からランダムでレコードを抽出する加工技法です。
19 レコードシャッフル レコードの並び順をランダムに入れ替える加工技法です。
20 ユークリッド距離外れ値削除 ユークリッド距離という、データの値同士がどれだけ似ているか、類似度を測る指標を用い、指定した類似度から外れた値のレコードを削除する加工技法です。
21 パーセンタイル外れ値削除 データの値をソートし、中央値から見てデータ全体の何パーセントを残すかを指定し、外れた上位下位の値のレコードを削除する加工技法です。
22 標準偏差外れ値削除 標準偏差を用い、任意の基準点から外れた値のレコードを削除する加工技法です。
23 度数外れ値削除 指定した度数(値の出現頻度)未満のレコードを削除する加工技法です。出現頻度の少ない値のレコードを削除することが出来ます。
24 しきい値外れ値削除 指定したしきい値以上/以下の値を持つレコードを削除する加工技法です。
25 ユークリッド距離外れ値MDAV ユークリッド距離という、データの値同士がどれだけ似ているか、類似度を測る指標を用い、指定した類似度から外れた値のレコードを対象にMDAVミクロアグリゲーションする加工技法です。
26 パーセンタイル外れ値MDAV データの値をソートし、中央値から見てデータ全体の何パーセントを残すかを指定し、外れた上位下位の値のレコードに対しMDAVミクロアグリゲーションする加工技法です。
27 標準偏差外れ値MDAV 標準偏差を用い、任意の基準点から外れた値のレコードに対しMDAVミクロアグリゲーションする加工技法です。
28 度数外れ値MDAV 指定した度数(値の出現頻度)未満のレコードに対しMDAVミクロアグリゲーションする加工技法です。
29 しきい値外れ値MDAV 指定したしきい値以上/以下の値を持つレコードに対しMDAVミクロアグリゲーションする加工技法です。
30 単純ノイズ付与 一様分布に基づいて導き出した乱数を加える加工技法です。
31 ガウスノイズ付与 ガウス分布に基づいて導き出した乱数を加える加工技法です。
32 ラプラスノイズ付与 ラプラス分布に基づいて導き出した乱数を加える加工技法です。
33 維持置換撹乱 各レコードに対し、指定した「別の値に置き換える確率」でランダムに値を置き換える加工技法です。
34 ランダムスワッピング 個人情報データ全体のうち、何パーセントのレコードを動かしてよいか割合を指定し、その割合の範囲でランダムに選んだレコード同士の値を交換してゆく加工技法です。
35 擬似データ生成 個人情報データ全体のうち、何パーセントのレコードを書き換えてよいか割合を指定し、その割合の範囲で別の値に置き換える加工技法です。
36 属性削除 指定した属性(列)を個人情報データから削除する加工技法です。
37 レコード削除 指定したレコード(行)を個人情報データから削除する加工技法です。
38 セル削除 指定したセルを個人情報データから削除する加工技法です。

評価技法一覧

# 種類 評価技法 概要
1 全体評価 全体評価 匿名性評価の主指標である属性値の完全一致、ユークリッド距離に基づくレコードリンケージと、有用性評価の主指標であるデータ間距離、情報量損失を算出する評価技法です。
2 匿名性評価技法 レコードリンケージ 個人特定を試みた際の特定率を算出する評価技法です。5種のレコードリンケージで結果を表示します。
・属性値の完全一致に基づくレコードリンケージ
・ユークリッド距離に基づくレコードリンケージ
・組み合わせに基づくレコードリンケージ
・辞書ソートに基づくレコードリンケージ
・ハミング距離に基づくレコードリンケージ
3 レコードリンケージ(数値のみ) 個人特定を試みた際の特定率を算出する評価技法です。上記の5種+1種のレコードリンケージで結果を表示します。
・属性値の完全一致に基づくレコードリンケージ
・ユークリッド距離に基づくレコードリンケージ
・組み合わせに基づくレコードリンケージ
・辞書ソートに基づくレコードリンケージ
・ハミング距離に基づくレコードリンケージ
・数値属性の(総和)ソートに基づくレコードリンケージ
4 k-匿名性 同じ値の組合せを持つレコード件数から匿名性を評価する評価技法です。
5 有用性評価技法 最頻値 1属性を指定し、最も頻繁に出現する値を算出する評価技法です。
6 基本統計量 1属性を指定し、8つの統計量(平均、分散、標準偏差、中央値、最頻度、パーセンタイル、最大値、最小値 )を算出し、有用性を評価する評価技法です。
7 相関関係 加工前後のデータそれぞれから指定した2属性間の相関係数を算出し、有用性を評価する評価技法です。
8 ヒストグラム 1属性を指定し、データの分布状況を算出し、ヒストグラムで結果を表示する評価技法です。
9 クロス集計(誤差) 加工前後のデータ間のクロス集計の誤差を算出し、有用性を評価する評価技法です。
10 クロス集計 2属性指定し、加工前後のデータからクロス集計を算出し、ヒートマップで結果を表示する評価技法です。
11 正確度保証 Pk-匿名化および再構築後の理論的な誤差を算出し、ヒストグラムで結果を表示する評価技法です。
12 レコード編集数 加工によるレコードの増減数および編集数を算出し、有用性を評価する評価技法です。
13 セル編集数 指定した属性のセルの加工による編集数を算出し、有用性を評価する評価技法です。

ソリューション・製品一覧へ