
지난 8 월 AI 허브 데이터셋에서 개인정보가 노출됐다는 의혹이 제기된 가운데 , 한국지능정보사회진흥원 ( 이하 NIA) 이 추진 중인 개인정보 재검증 과정이 방대한 규모에 비해 턱없이 부족한 인력으로 진행되고 있다는 지적이 나왔다 .
국회 과학기술정보방송통신위원회 신성범 의원 ( 국민의힘 , 경남 거창 ‧ 함양 ‧ 산청 ‧ 합천 ) 이 24 일 NIA 로부터 제출받은 자료에 따르면 , NIA 는 지난 8 월부터 ‘ 가상의 재현 데이터 ’, ‘ 개인정보 비식별 처리 데이터 ’ 등 총 311 종 ( 약 250TB) 데이터에 대해 개인정보 재확인 및 검증을 진행하고 있다 .
개인정보 재검증은 AI 허브에 공개된 데이터에 이름 · 주소 · 전화번호 등 민감 정보가 포함됐을 가능성을 점검하고 , 이미 비식별화된 데이터를 다시 한번 검증하는 절차다 .
그러나 지난 2 개월 동안 재검증을 마친 데이터는 311 종 중 7 건 , 전체에 2% 에 불과하다 . 이 속도라면 전체 검증을 마치는 데만 약 7 년이 넘게 걸린다 .
문제는 규모에 비해 인력이 턱없이 부족하다는 점이다 . 250TB 를 문서 파일로 환산하면 300 쪽 책 2 억 3 천만 권 , 약 696 억 쪽에 해당한다 . 이는 지난 SKT 해킹 당시 유출된 10GB 보다 무려 25,800 배 큰 규모지만 , 이를 검증하는 인력은 고작 6 명뿐이다 .
AI 허브는 과학기술정보통신부와 NIA 가 2017 년부터 운영해 온 공공 데이터 플랫폼으로 , 인공지능 학습용 데이터를 구축 · 개방하여 연구자와 기업이 활용하도록 지원하는 국가사업이다 .
현재 900 종이 넘는 데이터가 공개되어 있으며 , 음성 · 이미지 · 영상 · 의료 등 다양한 분야를 포함하는 핵심 인프라이지만 , 이번 개인정보 노출 의혹으로 신뢰도에 큰 타격을 입고 있다 .
신성범 의원은 “ 국민은 그것이 실제 개인정보인지 , 단순히 가상 데이터인지 여부보다 자기 이름과 주소가 노출된 것처럼 보였던 사실 자체에 불안을 느낀다 ” 라며 , “ 아직 검증되지 않은 데이터에 도대체 어떤 정보가 들어 있을지 국민은 우려할 수밖에 없다 .” 라고 지적했다 .
이어 "6 명이 250TB 에 달하는 데이터를 검증한다는 것은 국민을 안심시키기엔 터무니없다 ” 라며 “NIA 에만 맡겨둘 것이 아니라 과기정통부가 단순히 인력을 늘리는 것을 넘어 , 검증 시스템을 강화하는 등 특단의 대책을 마련해야 한다 ” 고 강조했다