去識別化議題:一段大數據與個資的故事

一、當大數據遇上個資

Netflix曾為了行銷與改進推薦系統等目的,分析參加Netflix Prize百萬美金大賽的客戶資料庫。Netflix未經用戶同意就將某些資訊公開上網,因此遭一狀告上法庭,最後付出了900萬美元的代價取得和解。連續舉辦兩屆的Netflix Prize就此喊停。

隨著big data的崛起,越多越多利用預測模型創造商機的案例,但一切的利用仍應遵循個資法相關規定,否則即有違法之虞。

 

二、為何大數據需要個資?

資料分析的需求大致上可以分為兩種:

第一種分析的需求不包含個人資料,例如產品跟產品間的關連。舉例來說像是知名的啤酒與尿布:Walmart透過關聯分析發現部分顧客在買尿布的同時會順手買啤酒。這樣的關聯性可以協助店家制訂優惠方案內容。

第二種分析的需求包含個人資料,例如年齡跟喜好之間的關連。舉例來說像是某商店推出新飲料,並且使用客戶消費資料分析新飲料在各個年齡層之間的接受度。這樣的結果可以輔助店家決定是否要進行新飲料口味的調整。

 

三、大數據對個資的衝擊

若是涉及個人資料的分析,為了保護個資,應正確地落實去識別化。以Netflix的例子來說,雖然Netflix蒐集分析的資料庫不包括完整的用戶個人資訊,但許多用戶仍認為,他們對於電影的選擇反映個人喜好以及敏感的個人議題––比如性癖和政治傾向。只要把姓名和身分證字號隱藏後就是去識別化? 這是誤解!

在實作上,可以參考以下國際標準:

BS 10012:2017 個人資訊管理系統條文

ISO/IEC 27018:2014 公用雲PII(註)處理者保護個人可識別資訊之作業規範

ISO/IEC 29100:2011 隱私權框架條文

ISO/IEC 29191:2012 部分匿名及部分去連結鑑別之要求事項。

或是以下的台灣中文化標準:

CNS 27018 公用雲PII(註)處理者保護個人可識別資訊之作業規範

CNS 29100 隱私權框架條文

CNS 29191 部分匿名及部分去連結鑑別之要求事項。

 

以ISO/IEC 29100:2011為例,可以利用匿名化及擬匿名化的方式,來處理資料。那匿名化跟擬匿名化有甚麼不一樣嗎?匿名化是不允許個資被直接或間接識別出,將部分資料遮罩起來,例如:將「王小明」的後二字遮蔽,改為「王OO」。擬匿名化是藉由別名來替換識別資訊,例如:以編號取代真名,將「王小明」以代碼表示為「000001」,需要有對照表才能識別出000001是王小明。

透過一定程序的處理,使個人資料不再可以直接或間接對應出為何人,那麼此時的資料不再屬於個人資料,便能避免違反個資法。

 

註:PII為個人可識別資訊,係指所有資訊其能用以識別此類資訊所涉之特定個人, 或係得以直接或間接連結至特定個人。

 

四、密不可分的未來

面對資訊流如此密集的今天,大數據對個資衝擊已經越來越顯著。組織在使用大數據工具蒐集、處理和利用個資時,應當注意法律跟標準的管控及要求,以免侵犯當事人權益,觸犯法律。

 

五. 參考資料

個資保護暨民事行政爭訟

個人資料去識別化驗證標準規範

https://www.iso.org/home.html