[과학의 달인] 세계 최초 다크 웹 전용 AI 언어 모델 ‘다크버트’ / YTN… | 質問の答えを募集中です! [과학의 달인] 세계 최초 다크 웹 전용 AI 언어 모델 ‘다크버트’ / YTN… | 質問の答えを募集中です!

[과학의 달인] 세계 최초 다크 웹 전용 AI 언어 모델 ‘다크버트’ / YTN…

未分類
[과학의 달인] 세계 최초 다크 웹 전용 AI 언어 모델 ‘다크버트' / YTN 사이언스
■ 서상덕 / S2W 대표

[앵커] 최근 마약 거래, 해킹, 악성 코드 등 사이버 범죄 수법이 나날이 증가하고 더욱 지능적으로 변하고 있는데요. 이런 사이버 범죄가 일어나고 있는 익명 기반의 네트워크인 ‘다크 웹’을 학습한 AI 모델을 국내 스타트업과 카이스트 연구진이 공동으로 개발했습니다. 오늘 ‘과학의달인’ 에서는 다크 웹을 학습한 AI 모델 ‘다크버트’에 대해서 알아보겠습니다. S2W (에스투더블유) 서상덕 대표 나오셨습니다. 안녕하세요?

[인터뷰] 네 안녕하십니까

[앵커] 다크버트라는 이름의 소프트웨어더라고요. 이게 어떤 것인지 간단하게 소개해주실까요.

[인터뷰] 네 우리가 요즘 장안의 화제가 되는 chat GPT 같은 경우에는 사람들이 일반적으로 쓰는 말을 잘 학습해서 그런 문법적인 것이라던가 맥락을 잘 알고 있는 인공지능이라고 할 수 있겠습니다. 그래서 다크버트 같은 경우에는 저희가 다크웹 데이터를 학습을 시켜서 다크웹에 올라오는 여러 가지 범죄 관련된 내용이나 은어라던가 이런 정보에 대해서 특화된 범죄 데이터에 전문적인 언어모델이라고 할 수 있겠습니다.

[앵커] 네, 이게 버트는 무슨 뜻인가요?

[인터뷰] 버트는 구글에서 개발한 인공지능을 학습시키는 여러 가지 방법론 중 하나고요. GPT 같은 모델하고 비교를 하자면요. 버트는 조금 더 전문적인 영역에 관한 학습전용 모델입니다. 그래서 예를 들면, 바이오에 관한 학습을 많이 한 모델은 바이오 버트 라고도 불리고, 법률적인 용어를 많이 학습한 모델은 니걸버트라고 많이 불립니다. 저희 같은 경우는 다크웹에 전문적으로 학습이 잘 되어있는 모델이라서 다크버트라고 명명을 했습니다.

[앵커] 그러니까 다크웹 전용 AI 언어모델이 다크버트다 이런 말씀이신 것 같은데요. 우선 다크웹이 어떤 것인지 설명 좀 해주실까요?

[인터뷰] 네 다크웹은 요즘 사회면에 많이 등장하고 있어서 들어보신 분들은 많으실 겁니다. 다크웹이라고 하면 인터넷상에서 좀 어두운 공간에 있는 것을 말하고 있는데, 여기는 좀 익명화 기술이 적용되어 있어서 어떤 사람이 접속했는지, 어떤 사람들이 여기서 서비스를 하고 있는지, 철저하게 베일에 가려져 있습니다. 그러다 보니까 이 안에서는 좀 반사회적이거나 범죄 관련된 것들 주로 마약이라던가 또는 개인정보, 신용카드 유출정보를 거래하는 블랙마켓, 또 해킹에 관한 여러 가지 노하우를 공유하는 포럼 같은 것들이 다크웹에 존재하는 대표적인 유해사이트라고 할 수 있겠습니다.

[앵커] 아 그렇군요. 그러니까 범죄에 이용되는 그런 정보들이 많이 퍼져있는 인터넷상의 숨겨진 공간이다 이렇게 보면 될 것 같은데요. 그렇다면 개발하신 다크버트가 마치 범죄자가 된 것처럼 다크웹에 있는 여러 가지 은어라든지 거래정보라든지 이런 것들이 다 학습했다고 보면 되겠네요?
그렇다면 학습도 보통 일이 아닐 것 같은데, 어떻게 하신 건가요?

[인터뷰] 네 범죄자라기보다는 범죄에 관한 수사 전문성을 가지고 있는 그런 친구라고 보면 될 것 같고요. 그 학습을 시키기 위해서는 기본적으로 많은 양의 데이터 잘 정제되어있는 데이터들이 필요합니다. 저희 S2W라는 회사가 기본적으로 다크웹에 관한 자료를 수집하고 분석하는 일을 계속해오고 있고, 저희가 수집하는 양이라던가 분석정확도가 세계에서 가장 높은 수준이라고 자부를 하고 있습니다. 그러다 보니까 저희 내부에는 데이터가 매우 많고요. 이런 데이터들을 분류하고 학습하는 것을 사람이 할 수 없을 정도의 많은 양이 밀려들어 오기 때문에 과거부터 지금까지 AI를 통해 자동화하는 것을 하고 있었습니다. 최근에 이 모델을 정교하게 만들기 위해서 600만 페이지가 넘는 데이터들을 분석가들이 준비하고, 학습시켜서 다크버트를 설계하고 출현을 시키게 되었습니다.

[앵커] 조금 전 600만 페이지에 달하는 방대한 데이터라고 말씀해주셨는데 그런 데이터들이 공개되어있는 것도 아닐 테고, 잘 모아서 학습을 시키려면 보통이 아닐 것 같습니다. 이렇게 많은 양의 정보를 어떻게 모으신 걸까요?

[인터뷰] 저희가 다크웹을 수집하는 기술력 부분에 대해서는 독자적인 노하우를 보유하고 있는 회사입니다. 그래서 이런 것들이 GPT를 학습시키는 양에 비하면 AI 업계에서는 큰 양은 아니지만 다크웹이라는 특수한 분야를 학습시키기 위해서는 특별히 정제된 양과 정교한 데이터가 필요하므로 카이스트 연구진이라던가 저희 연구진들이 많은 시간을 들여서 개발했다고 보시면 될 것 같습니다.

[앵커] 요즘 또 디지털 안에서 사이버 범죄가 굉장히 자주 일어나고 있다 보니까요. 다크버트 같은 기술이 필요할 것 같은데요. 결과적으로 다크버트가 왜 필요한 걸까요?

[인터뷰] 다크버트는 용도는 다크웹에 관련된 범죄수사를 위한 목적이라고 생각해주시면 될 것 같아요. 그래서 인공지능 이라는 게 자동으로 범죄자를 검거하거나 이런 수준까지는 와있지 않지만, 우리가 우발범죄가 자주 일어날 수 있는 우범지대에 CCTV가 있다거나 범죄를 모의하거나 진행하고 있는 채널을 모니터링 할 수 있다고 하면 실제 범죄를 검거하거나 예방하는 데 큰 도움이 되겠죠. 비슷하게 다크웹 상에서도 이런 범죄가 유발될 수 있는 여러 가지 데이터들을 정교하게 모니터링을 할 수 있습니다. 예컨대 어떤 신종마약에 관한 콘텐츠가 급증한다거나 또는 새로운 해킹도 구가 발견된다거나 중요한 기관이나 기업의 데이터가 사이트에 유출됐을 때 다크버트가 정확하게 인지하고 모니터링을 해줌으로써 수사기관이나 정보기관을 도와서 산업기술 유출이라던가 개인정보 유출을 막는 일에 도움을 줄 수 있습니다.

[앵커] 말 그대로 다크웹의 경찰관이 생겼다. 이렇게 이해하면 좋을 것 같은데요. 그런데 사이버 범죄 관련된 최신 정보나 은어, 신조어 같은 것들이 하루가 다르게 달라지고 있는데 이런 것들을 다크버트가 알아차리고 대처를 하는 건가요?

[인터뷰] 네, 맞습니다. AI라는 것은 처음에 학습을 시킬 때 과거 데이터를 바탕으로 학습을 하게 됩니다. 어느 정도 이해력이나 추론…



 ⬇人気の記事!⬇

タイトルとURLをコピーしました