去識別化議題：一段大數據與個資的故事 | 資訊安全顧問輔導專家|德欣寰宇

一、當大數據遇上個資

Netflix曾為了行銷與改進推薦系統等目的，分析參加Netflix Prize百萬美金大賽的客戶資料庫。Netflix未經用戶同意就將某些資訊公開上網，因此遭一狀告上法庭，最後付出了900萬美元的代價取得和解。連續舉辦兩屆的Netflix Prize就此喊停。

隨著big data的崛起，越多越多利用預測模型創造商機的案例，但一切的利用仍應遵循個資法相關規定，否則即有違法之虞。

二、為何大數據需要個資？

資料分析的需求大致上可以分為兩種：

第一種分析的需求不包含個人資料，例如產品跟產品間的關連。舉例來說像是知名的啤酒與尿布：Walmart透過關聯分析發現部分顧客在買尿布的同時會順手買啤酒。這樣的關聯性可以協助店家制訂優惠方案內容。

第二種分析的需求包含個人資料，例如年齡跟喜好之間的關連。舉例來說像是某商店推出新飲料，並且使用客戶消費資料分析新飲料在各個年齡層之間的接受度。這樣的結果可以輔助店家決定是否要進行新飲料口味的調整。

三、大數據對個資的衝擊

若是涉及個人資料的分析，為了保護個資，應正確地落實去識別化。以Netflix的例子來說，雖然Netflix蒐集分析的資料庫不包括完整的用戶個人資訊，但許多用戶仍認為，他們對於電影的選擇反映個人喜好以及敏感的個人議題––比如性癖和政治傾向。只要把姓名和身分證字號隱藏後就是去識別化？這是誤解！

在實作上，可以參考以下國際標準：

BS 10012：2017 個人資訊管理系統條文

ISO/IEC 27018：2014 公用雲PII（註）處理者保護個人可識別資訊之作業規範

ISO/IEC 29100：2011 隱私權框架條文

ISO/IEC 29191：2012 部分匿名及部分去連結鑑別之要求事項。

或是以下的台灣中文化標準：

CNS 27018 公用雲PII（註）處理者保護個人可識別資訊之作業規範

CNS 29100 隱私權框架條文

CNS 29191 部分匿名及部分去連結鑑別之要求事項。

以ISO/IEC 29100：2011為例，可以利用匿名化及擬匿名化的方式，來處理資料。那匿名化跟擬匿名化有甚麼不一樣嗎？匿名化是不允許個資被直接或間接識別出，將部分資料遮罩起來，例如：將「王小明」的後二字遮蔽，改為「王OO」。擬匿名化是藉由別名來替換識別資訊，例如：以編號取代真名，將「王小明」以代碼表示為「000001」，需要有對照表才能識別出000001是王小明。

透過一定程序的處理，使個人資料不再可以直接或間接對應出為何人，那麼此時的資料不再屬於個人資料，便能避免違反個資法。

註：PII為個人可識別資訊，係指所有資訊其能用以識別此類資訊所涉之特定個人，或係得以直接或間接連結至特定個人。

四、密不可分的未來

面對資訊流如此密集的今天，大數據對個資衝擊已經越來越顯著。組織在使用大數據工具蒐集、處理和利用個資時，應當注意法律跟標準的管控及要求，以免侵犯當事人權益，觸犯法律。

五. 參考資料

個資保護暨民事行政爭訟

個人資料去識別化驗證標準規範

https://www.iso.org/home.html