ADVERTISEMENT
오피니언 김병필의 인공지능 개척시대

진짜 같은 가짜 데이터로 인공지능 가르치기

중앙일보

입력

지면보기

종합 27면

김병필 KAIST 기술경영학부 교수

김병필 KAIST 기술경영학부 교수

최근 인공지능 분야의 핵심 동향을 한 가지만 꼽으라면 단연 ‘대용량화’를 들 수 있다. 최근 수년 동안 더 큰 용량의 인공지능을 개발하기 위한 치열한 경쟁이 펼쳐져 왔다. 인공지능 대용량화에 있어 걸림돌이 되는 것은 무엇보다도 데이터 확보 문제다. 인공지능 용량을 키우려면 그만큼 학습 데이터도 더 많이 소요되기 때문이다. 이제 인공지능 학습에 수백 기가바이트(GB) 이상의 데이터가 소요되는 경우도 흔하다.

이처럼 방대한 학습 데이터를 수집하고 활용하는 것에는 사회적·제도적 제약이 적지 않다. 특히 개인정보 문제가 크다. 다량의 학습 데이터에 개인정보가 다소간 포함되는 것은 불가피하다. 자율주행 학습을 위해 사용되는 도로주행 영상에는 수많은 보행자의 얼굴과 차량 번호가 포함된다. 인공지능 챗봇 학습을 위해 수집한 대화 데이터에는 개인의 신상을 드러내는 내용이 들어있기 마련이다. 모두 법적으로 개인정보에 해당한다. 개인정보 보호법을 엄격하게 해석·적용하면 그 활용이 쉽지 않다. 인공지능 산업 발전을 위해서는 개인정보를 이용할 여지를 늘려야 한다는 주장이 끊임없이 제기되는 이유다.

AI에 방대한 학습데이터 필요
개인정보 보호가 첨예한 이슈
개인정보 뺀 가상 데이터 합성
AI 학습에 활용하는 사례 늘어

일러스트 = 김지윤 기자 kim.jeeyoon@joongang.co.kr

일러스트 = 김지윤 기자 kim.jeeyoon@joongang.co.kr

그렇다고 인공지능 산업 발전을 앞세워서 개인정보 보호를 소홀히 할 수는 없는 노릇이다. 개인정보 보호를 도외시한 인공지능은 거센 사회적 저항에 부딪힐 수 있기 때문이다. 미국 클리어뷰AI 사의 사례를 반면교사로 삼을 필요가 있다. 그 미국 회사는 SNS에 게시된 200억장의 사진을 이용해 얼굴인식 인공지능을 개발했다. 이 인공지능은 주로 경찰에 납품되어 범죄자를 찾는 데 사용되었다. 인공지능 회사가 SNS 이용자들이 올린 사진을 함부로 내려받아 범죄자 탐지 인공지능 학습에 사용할 수 있는지 세계적으로 논란이 되었다. 결국 각국의 개인정보 보호 당국은 클리어뷰AI 사에 수백억 원에 이르는 벌금을 부과하기에 이르렀다.

그러면 개인의 사생활 비밀을 보호하고 자유를 존중하면서도 인공지능 학습에 필요한 데이터를 충분히 확보할 수 있는 묘안이 없을까? 요즘 주목받고 있는 기술로 ‘합성 데이터’ 기법이 있다. 인공지능을 이용해 실제와 구별하기 힘든 수준의 가상 데이터를 생성하도록 한 다음, 그 가상 데이터를 이용해 우리에게 필요한 인공지능을 다시 학습시키는 것이다. 이처럼 복잡한 과정을 거치는 주요한 이유는 인공지능이 합성해 낸 가상 데이터는 더이상 개인정보에 해당하지 않아 비교적 자유롭게 이용할 수 있기 때문이다. 개인정보 보호를 위해 진짜 같은 가짜 데이터로 인공지능을 학습시키는 셈이다.

예컨대 자율주행 학습용 도로 영상 데이터를 생각해 보자. 컴퓨터 게임에서 흔히 볼 수 있는 것처럼 이제 현실과 구별하기 힘든 수준으로 정교한 그래픽 영상을 만들어 낼 수 있다. 이렇게 합성된 영상에는 개인정보가 포함되어 있지 않으니 별다른 제약없이 활용될 수 있다. 이러한 가상 데이터는 무한대로 합성해 낼 수 있을 뿐만 아니라, 여러 기상 악천후를 포함하여 온갖 종류의 도로 조건을 자유롭게 만들어 낼 수 있다는 장점도 있다.

얼마 전 재출시된 ‘이루다’ 챗봇에도 이러한 합성 데이터가 사용되었다. 작년에 나왔던 종전 챗봇은 개인정보가 포함된 이용자 대화를 그대로 사용했다. 개인정보보호위원회는 이러한 개인정보 활용이 개인정보 보호법 위반이라고 판단했다. 하지만 개선된 챗봇은 인공지능이 새로운 대화를 생성해 내도록 학습시켰다. 이처럼 생성된 합성 데이터를 이용하면 개인정보 보호 수준을 한층 높일 수 있게 된다.

이처럼 개인정보 보호 수준을 높이면서도 인공지능 학습을 가능케 하는 기술이 발전하고 활용되기 시작한 것은 반가운 일이다. 우리는 흔히 개인정보 보호와 인공지능 기술 발전은 서로 대척점에 있는 것처럼 여긴다. 두 가치 중 하나를 선택해야 하는 갈등 관계에 있는 것처럼 생각한다. 하지만 최근의 합성 데이터 기술의 발전상을 보면 꼭 그러한 것만은 아니라는 생각도 든다. 새로운 기술을 통해 개인정보의 보호와 활용이라는 두 마리 토끼를 모두 쫓을 수도 있다. 최근 들어 ‘연합 학습’이나 ‘차분 프라이버시’와 같이 인공지능 분야에서의 프라이버시 증진 기술들이 주목받는 이유이다. 이처럼 적절한 규제는 오히려 새로운 기술 발전을 추동하는 원동력이 될 수도 있다. 우리 사회의 개인정보 보호 규제가 신뢰할 수 있는 인공지능 기술 발전을 이끌어낼 수 있기를 기대해 본다.

김병필 KAIST 기술경영학부 교수