정부가 개인정보 노출 위험을 사전에 차단하기 위해 ‘챗GPT’ 같은 생성형 인공지능(AI)에 활용되는 이미지, 음성, 대화기록 등의 ‘비정형 데이터’ 사용 기준을 새롭게 마련했다.
4일 개인정보보호위원회는 비정형 데이터 활용을 위한 ‘가명정보 처리 가이드라인’을 발표했다. AI 기술 발달로 전 세계 데이터 중 비정형 데이터가 최대 90%에 달하지만 그동안 명확한 개인정보 보호 지침이 없었다. 이에 개인정보위는 개인정보 유출 위험을 차단하기 위한 원칙을 명시했다.
새 가이드라인에 따르면 대화형 AI인 ‘챗봇’을 개발할 땐 일상생활 데이터에 사생활 관련 정보가 다수 포함될 수 있어 대화 사용자 아이디(ID)를 삭제하고 무작위 ID로 대체해야 한다. 만약 대화 상담 음성 등을 챗봇 개발에 활용할 땐 음성 변환 기술을 통해 텍스트로 변환하고 음성 자체는 활용하면 안 된다. 교통 분야에선 도로 주행 상황 촬영 영상을 활용할 때 사람의 얼굴과 차량 번호판은 ‘블랙 마스킹’ 기법으로 지워야 한다.
의료 분야에선 흉부 컴퓨터단층촬영(CT) 사진을 활용할 때 개인식별 위험성이 있는 환자번호, 생년월일, 성별 등의 환자 관련 정보는 삭제해야 한다. 구강 촬영 사진은 연구에 필요한 충치 영역만 남기고 그 외는 뿌옇게 처리해야 한다.
개인정보위는 ‘개인식별 위험성 검토 체크리스트’도 마련했다. 개정된 가이드라인은 5일부터 개인정보위 홈페이지와 개인정보포털에서 내려받을 수 있다. 고학수 개인정보위 위원장은 “생성형 AI와 관련한 ‘공개된 개인정보 처리 가이드라인’ 등 현장의 어려움을 해소할 수 있는 기준을 올해 중 순차적으로 발표하겠다”고 밝혔다.
댓글 0