바뀜

가명처리 (원본 보기)

2020년 10월 21일 (수) 15:27 판

14,052 바이트 추가됨 , 4년 전

→‎속성자 예시

* 가족특성

**배우자/자녀/부모/형제 등 가족정보, 법정대리인 정보 등

==비식별 조치방법==

비식별 조치의 대표적 기법은 아래와 같으며 가명처리 시 데이터 속성, 처리 상황에 따 라 5가지 기법을 적절히 구사해야 함.

====가명처리 (Pseudonymization) ====

개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체하는 기법

* 대상 : 성명, 기타 고유특징(출신학교, 근무처 등)

*장점 : 데이터의 변형 또는 변질 수준이 적음

* 단점 : 대체 값 부여 시에도 식별 가능한 고유 속성이 계속 유지

* 예시 : 홍길동, 35세, 서울 거주, 한국대 재학 → 임꺽정, 30대, 서울 거주, 국제대 재학

* 세부기술 및 실무적용 방법

*# 휴리스틱 가명화 (Heuristic Pseudonymization)

*#* 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따 라 가공하여 자세한 개인정보를 숨기는 방법

*#* 예시) 성명을 홍길동, 임꺽정 등 몇몇 일반화된 이름으로 대체하여 표기하거나 소 속기관명을 화성, 금성 등으로 대체하는 등 사전에 규칙을 정하여 수행

*#* 식별자의 분포를 고려하거나 수집된 자료의 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공하기 때문에 사용자가 쉽게 이해하고 활용 가능

*#* 활용할 수 있는 대체 변수에 한계가 있으며, 다른 값으로 대체하는 일정한 규칙이 노출되는 취약점이 있음. 따라서 규칙 수립 시 개인을 쉽게 식별할 수 없도록 세 심한 고려 필요

*#* 적용정보 : 성명, 사용자 ID, 소속(직장)명, 기관번호, 주소, 신용등급, 휴대전화번 호, 우편번호, 이메일 주소 등

*# 암호화(Encryption)

*#* 정보 가공시 일정한 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체 하는 방법, 통상적으로 다시 복호가 가능하도록 복호화 키(key)를 가지고 있어서 이에 대한 보안방안도 필요

*#* 일방향 암호화(one-way encryption 또는 hash)를 사용하는 경우는 이론상 복호화가 원천적으로 불가능

*#** 일방향 암호화는 개인정보의 식별성을 완전히 제거하는 것으로, 양방향 암호화 에 비해 더욱 안전하고 효과적인 비식별 기술에 해당

*#* 적용정보 : 주민등록번호, 여권번호, 의료보험번호, 외국인등록번호, 사용자 ID, 신 용카드번호, 생체정보 등

*# 교환 방법(Swapping)

*#* 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수(항목)값과 연계하여 교환

*#* 적용정보 : 사용자 ID, 요양기관번호, 기관번호, 나이, 성별, 신체정보(신장, 혈액형 등), 소득, 휴대전화번호, 주소 등

====총계처리 (Aggregation)====

통계값(전체 혹은 부분)을 적용하여 특정 개인을 식별할 수 없도록 함

* 대상 : 개인과 직접 관련된 날짜 정보(생일, 자격 취득일), 기타 고유 특징(신체 정보, 진료기록, 병력정보, 특정소비기록 등 민감한 정보)

* 장점 : 민감한 수치 정보에 대하여 비식별 조치가 가능하며, 통계분석용 데이터 셋 작성에 유리함

* 단점 : 정밀 분석이 어려우며, 집계 수량이 적을 경우 추론에 의한 식별 가능성 있음

* 예시 : 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm → 물리학과 학생 키 합 : 660cm, 평균키 165츠

* 세부기술 및 실무적용 방법

*# 총계처리(Aggregation)

*#* 데이터 전체 또는 부분을 집계(총합, 평균 등)

*#** 단, 데이터 전체가 유사한 특징을 가진 개인으로 구성되어 있을 경우 그 데이 터의 대푯값이 특정 개인의 정보를 그대로 노출시킬 수도 있으므로 주의

*#** 예시) 집단에 소속된 전체 인원의 평균 나이값을 구한 후 각 개인의 나이값을 평 균 나이값(대푯값)으로 대체하거나 해당 집단 소득의 전체 평균값을 각 개 인의 소득값으로 대체

*#* 적용정보 : 나이, 신장, 소득, 카드사용액, 유동인구, 사용자수, 제품 재고량, 판매량 등

*# 적용정부분총계(Micro Aggregation)

*#* 데이터 셋 내 일정부분 레코드만 총계 처리함. 즉, 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계값(평균 등)으로 변환

*#* 예시) 다양한 연령대의 소득 분포에 있어서 40대의 소득 분포 편차가 다른 연령대에 비하여 매우 크거나 특정 소득 구성원을 포함하고 있을 경우, 40대의 소 득만 선별하여 평균값을 구한 후 40대에 해당하는 각 개인의 소득값을 해당 평균값으로 대체

*#* 적용정보 : 나이, 신장, 소득, 카드사용액 등

*# 라운딩(Rounding)

*#* 집계 처리된 값에 대하여 라운딩(올림, 내림, 사사오입) 기준을 적용하여 최종 집계 처리하는 방법으로, 일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용

*#* 예시) 23세, 41세, 57세, 26세, 33세 등 각 나이값을 20대, 30대, 40대, 50대 등 각 대표 연령대로 표기하거나 3,576,000원, 4,210,000원 등의 소득값을 일부 절삭하여 3백만원, 4백만원 등으로 집계 처리하는 방식

*#* 적용정보 : 나이, 신장, 소득, 카드지출액, 유동인구, 사용자 수 등

*# 재배열(Rearrangement)

*#* 기존 정보값은 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법으로, 개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정 보가 해당 개인과 연결되지 않도록 하는 방법

*#* 예시) 데이터 셋에 포함된 나이, 소득 등의 정보를 개인별로 서로 교환하여 재배 치하게 되면 개인별 실제 나이와 소득과 다른 비식별 자료를 얻게 되지만, 전체적인 통계 분석에 있어서는 자료의 손실 없이 분석을 할 수 있는 장점 이 있음

*#* 적용정보 : 나이, 신장, 소득, 질병, 신용등급, 학력 등

====데이터 삭제 (Data Reduction) ====

개인 식별이 가능한 데이터 삭제 처리

* 대상 : 개인을 식별 할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진, 고유식별 정보(주민등록번호, 운전면허번호 등), 생체정보(지문, 홍채, DNA 정보 등), 기타(등록번호, 계좌번호, 이메일 주소 등))

* 장점 : 개인 식별요소의 전부 및 일부 삭제 처리가 가능

* 단점 : 분석의 다양성과 분석 결과의 유효성·신뢰성 저하

* 예시 : 주민등록번호 901206-1234567 → 90년대 생, 남자 / 개인과 관련된 날짜정보(합격일 등)는 연단 위로 처리

* 세부기술 및 실무적용 방법

*# 식별자 삭제

*#* 원본 데이터에서 식별자를 단순 삭제하는 방법

*#* (예시) 성명, 생년월일(yy-mm-dd)이 나열되어 있는 경우 분석 목적에 따라 생년월 일을 생년(yy)으로 대체 가능하다면 월일(mm-dd) 값은 삭제 ※ 이때 남아 있는 정보 그 자체로도 분석의 유효성을 가져야 함과 동시에 개인을 식별할 수 없어야 하며, 인터넷 등에 공개되어 있는 정보 등과 결합 하였을 경우에도 개인을 식별할 수 없어야 함

*#* 적용정보 : 성명, 전화번호, 계좌번호, 카드번호, 요양기관번호, 이메일 주소 등

*# 식별자 부분삭제

*#* 식별자 전체를 삭제하는 방식이 아니라, 해당 식별자의 일부를 삭제하는 방법

*#* (예시) 상세 주소의 경우 부분 삭제를 통하여 대표지역으로 표현 (서울특별시 송파구 가락본동 78번지 → 서울시 송파구)

*#* 수치 또는 텍스트 데이터 등에도 폭넓게 활용 가능(‘⑫감추기’는 주로 수치데이터에 적용)

*#* 적용정보 : 주소, 위치정보(GPS), 전화번호, 계좌번호 등

*# 레코드 삭제(Reducing Records)

*#* 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법

*#* (예시) 소득이 다른 사람에 비하여 뚜렷이 구별되는 값을 가진 정보는 해당 정보 전체를 삭제 *#* 이 방법은 통계분석에 있어서 전체 평균에 비하여 오차범위를 벗어나는 자료를 제 거할 때에도 사용 가능

*#* 적용정보 : 키, 소득, 질병, 카드지출액 등

*# 식별요소 전부삭제

*#* 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제하여 프라이버시 침해 위험을 줄이는 방법

*#* (예시) 연예인·정치인 등의 가족정보(관계정보), 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보 등 잠재적 식별자까지 사전에 삭제함으로써 연관성 있는 정보의 식별 및 결합을 예방

*#* 개인정보 유출 가능성을 최대한 줄일 수 있지만 데이터 활용에 필요한 정보까지 사전에 모두 없어지기 때문에 데이터의 유용성이 낮아지는 문제 발생

*#* 적용정보 : 나이, 소득, 키, 몸무게 등 개별적으로는 단순한 정보이지만 분석 목적에 따라 추후 개인 식별이 가능성이 있다고 판단되는 정보

====데이터 범주화 (Data Suppression) ) ====

특정 정보를 해당 그룹의 대푯값으로 변환(범주화)하거나 구간값으로 변환(범주화)하여 개인 식별을 방지

* 대상 : 개인을 식별할 수 있는 정보(주소, 생년월일, 고유식별정보(주민등록번호, 운전면허번호 등), 기관·단체 등의 이용자 계정(등록번호, 계좌번호))

* 장점 : 통계형 데이터 형식이므로 다양한 분석 및 가공 가능

* 단점 : 정확한 분석결과 도출이 어려우며, 데이터 범위 구간이 좁혀질 경우 추 론 가능성 있음

* 예시 : 홍길동, 35세 → 홍씨, 30~40세

* 세부기술 및 실무적용 방법

*# 감추기

*#* 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주값으로 변환하는 방식

*#* 단, 특수한 성질을 지닌 개인으로 구성된 단체 데이터의 평균이나 범주값은 그 집 단에 속한 개인의 정보를 쉽게 추론할 수 있음

*#* (예시) 간염 환자 집단임을 공개하면서 특정인물 ‘갑’이 그 집단에 속함을 알 수 있도록 표시하는 것은 ‘갑’이 간염 환자임을 공개하는 것과 마찬가지임

*# 랜덤 라운딩(Random Rounding)

*#* 수치 데이터를 임의의 수 기준으로 올림(round up) 또는 내림(round down)하는 기법 - ‘라운딩(rounding)과 달리 수치 데이터 이외의 경우에도 확장 적용 가능

*#* (예시) 나이, 우편번호 등과 같은 수치 정보로 주어진 식별자는 일의 자리, 십의 자 리 등 뒷자리 수를 숨기고 앞자리 수만 나타내는 방법(나이 : 42세, 45세 → 40대로 표현)

*#*적용정보 : 나이, 소득, 카드지출액, 우편번호, 유동인구, 사용자 등

*# 범위 방법(Data Range)

*#* 수치데이터를 임의의 수 기준의 범위(range)로 설정하는 기법으로, 해당 값의 범위 (range) 또는 구간(interval)으로 표현

*#* (예시) 소득 3,300만원을 소득 3,000만원∼4,000만원으로 대체 표기

*#* 적용정보 : 서비스 이용 등급, 처방정보(횟수, 기간 등), 위치정보, 유동인구, 사용 자 수, 분석 시간/기간 등

*#* 제어 라운딩(Controlled Rounding

*#* ‘랜덤 라운딩’ 방법에서 어떠한 특정값을 변경할 경우 행과 열의 합이 일치하 지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법

*#* 그러나 컴퓨터 프로그램으로 구현하기 어렵고 복잡한 통계표에는 적용하기 어려우며, 해결할 수 있는 방법이 존재하지 않을 수 있어 아직 현장에서는 잘 사용하지 않음

*#* 적용정보 : 나이, 키, 소득, 카드지출액, 위치정보 등

====데이터 마스킹 (Data Masking) ) ====

데이터의 전부 또는 일부분을 대체값(공백, 노이즈 등)으로 변환

* 대상 : 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진, 고유식별정보(주민등록번호, 운전면허번호 등), 기관·단체 등의 이용자 계정(등록번호, 계좌번호, 이메일 주소 등) )

* 장점 : 개인 식별 요소를 제거하는 것이 가능하며, 원 데이터 구조에 대한 변형 이 적음

* 단점 : 마스킹을 과도하게 적용할 경우 데이터 필요 목적에 활용하기 어려우며 마스킹 수준이 낮을 경우 특정한 값에 대한 추론 가능

* 예시 : 홍길동, 35세, 서울 거주, 한국대 재학 → 홍◯◯, 35세, 서울 거주, ◯◯대학 재학

* 세부기술 및 실무적용 방법

*# 임의 잡음 추가(Adding Random Noise)

*#* 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가(더하기 또는 곱하기)하는 방법

*#* (예시) 실제 생년월일에 6개월의 잡음을 추가할 경우, 원래의 생년월일 데이터에 1일부터 최대 6개월의 날짜가 추가되어 기존의 자료와 오차가 날 수 있도록 적용

*#* 지정된 평균과 분산의 범위 내에서 잡음이 추가되므로 원 자료의 유용성을 해치지 않으나, 잡음값은 데이터 값과는 무관하기 때문에, 유효한 데이터로 활용하기 곤란

*#* 적용정보 : 사용자 ID, 성명, 생년월일, 키, 나이, 병명 코드, 전화번호, 주소 등

*# 공백(blank)과 대체(impute)

*#* 특정 항목의 일부 또는 전부를 공백 또는 대체문자(‘ * ’, ‘ _ ’ 등이나 전각 기호)로 바꾸는 기법

*#* (예시) 생년월일 ‘1999-09-09’ ⇒ ‘19 - - ’ 또는 ‘19**-**-**’

*#*2적용정보 : 성명, 생년월일, 전화번호, 주소, 사용자 ID

==안전한 가명처리를 위한 방법==

=첨부자료=

Pshyujc09

편집

6,968

번

바뀜

가명처리 (원본 보기)

2020년 10월 21일 (수) 15:27 판

둘러보기 메뉴

개인 도구

이름공간

변수

보기

더 보기

검색

둘러보기

도구