[과학의 달인] “칙칙폭폭” 소리 듣자 기차 등장…영상 생성 AI 기…

[과학의 달인] "칙칙폭폭" 소리 듣자 기차 등장…영상 생성 AI 기술 / YTN 사이언스

■ 오태현 / 포스텍 전자 전기공학과 교수

[앵커] 사람은 특정 소리를 들으면 그 장면을 바로 상상할 수 있는 능력이 있죠. 바로 심상형 공감각이라고 하는데요. 국내 연구진이 이러한 사람의 감각을 AI에 적용해 AI가 소리만 듣고 영상을 스스로 생성하는 기술을 개발했습니다. 오늘 ‘과학의 달인’에서는 ‘영상 생성 AI 기술’에 대해 이야기 나눠보겠습니다. 포스텍 전자 전기공학과 오태현 교수와 함께합니다. 안녕하세요.

[인터뷰] 안녕하세요.

[앵커] 교수님께서 개발하신 영상 생성 AI 기술이라는 게 어떤 기술인지 소개해주세요.

[인터뷰] 최근 생성 AI의 발달로 인해서 영상 AI 생성 기술은 이제 대중에게 낯선 기술이 아닐 것 같습니다. 텍스트를 입력해주면 고화질의 영상을 생성해주는 기술들을 기반으로 한 결과들이 많이 공유되고 있고, 서비스들도 활발하게 이뤄지고 있습니다. 이번에 저희가 연구한 기술은 ‘Sound2Scene’이라고 불리는 기술로, 소리를 듣고 시각적인 장면을 상상해서 그려주는 ‘영상 생성 AI 기술’입니다.

예를 들어, 사람은 길을 걷다가도 뒤에서 다가오는 자동차 소리를 듣고 피할 수 있죠. 직접 바라보지 않고도 소리에 의지하여 주변 환경을 파악할 수 있습니다. 또, 사람은 소리를 통해서, 실내에서 창밖을 직접 내다보지 않아도 창문 밖의 장면을 시각적인 이벤트로 상상할 수 있는 능력이 있습니다. 예를 들어서, 짹짹거리는 소리가 들리면 “참새가 왔구나”를 알고, “야옹” 거리는 소리가 들리면 “고양이가 왔구나”하는 식으로, 사람은 주변 환경의 소리와 시각적인 이벤트를 연결해서 상상할 수 있는 능력이 있습니다. 이를 심상형 공감각 (Associator)이라고 할 수 있을 것 같습니다.

즉, 실제로 관찰하지 않더라도, 다른 감각을 통해 시각 이미지를 상상할 수 있는 능력이죠. 이번 연구는 그런 “사람이나 동물이 가질 수 있는 심상형 공감각을 AI로 재현해낸 연구이다”라고 할 수 있을 것 같습니다.

[앵커] 네, 기존에 이런 이미지 생성해줘야 하면 만들어주는 생성 기술은 많이 들어봤는데요. 이런 소리로 영상을 생성하는 AI 기술이 이전에도 있었을까요?

[인터뷰] 좋은 질문이신데요. 저희 연구가 소리에서 영상을 생성하는 첫 번째 연구는 아닙니다. 과거에도 다양한 시도가 있었지만, 한정된 소리의 종류만 다룰 방법들 뿐이었습니다. 예를 들어, 악기의 솔로 연주를 들려주면 해당 악기 사진을 보여주는 기술은 있었습니다. 악기는 각기 고유한 음색을 지니고 있어 구분하기도 쉽고, 이미지로 생성하기도 상대적으로 쉬웠습니다. 그러나 당시의 AI 기술로는 보다, 다채롭고 복잡한 일상생활과 같은 자연의 소리는 다룰 수가 없었습니다.

본격적으로 일상 물체에 대해 다룬 것은 2019년부터였습니다. 대만의 한 연구팀은 소리로부터 영상 생성을 좀 더 일반화하려는 시도를 시작했습니다. 기존에 한정된 범주의 물체에서 벗어나서, 동물이나 자동차와 같은 최대 9개의 서로 다른 일상 물체에 대한 영상을 생성하는 데까지는 성공했지만, 사람이 인식하기 힘든 저해상도의 결과를 보여주었습니다. 이후에 저희 연구 직전까지 발표된 연구들도 모두 5~9개의 한정된 종류의 장면과 물체만 생성할 수 있었었고요.

반면에, 저희 연구는 50가지 이상의 물체와 환경의 소리 및 그 조합을 다룰 수 있게 일반화했다고 볼 수 있습니다. 50가지 이상의 물체와 장면의 종류에 대해서 학습하였고 사람이 봤을 때, 소리로부터 명확하게 인식할 수 있는 영상 결과를 생성한 첫 연구입니다. 또, AI 모델의 설계상 장면의 종류 수나 범위를 제한하는 요소가 없기 때문에, 추후 더 다양한 학습 비디오를 사용하면 더 다양한 장면과 물체에 대해서도 확장 가능한 방법이라고 생각합니다.

[앵커] 그러니까, 이런 아이디어는 기존에도 있었지만, 최근에 발전된 AI 기술을 만나서 이제는 구현할 수 있었다. 이렇게 이해하면 좋을 것 같은데요, 그렇다면 지나치게 작은 소리나 지나치게 큰 소리도 인식을 할 수 있는 건가요?

[인터뷰] 일단 첫 번째로 마이크에 소리가 녹음 가능할 만큼은 커야겠죠. 너무 작으면 안 될 것 같고, 또 반대로 마이크의 녹음 한계 볼륨이 있을 텐데요. 그걸 넘는 큰 소리를 녹음하면 전혀 다른 노이즈 소리로 들리는 경험들이 있으실 겁니다. 이 경우에는 예측되지 않는 결과가 나올 수 있을 것 같습니다.

그런데 저희가 연구 중에 볼륨 관련해서 흥미로운 결과를 관찰했는데요. 저희가 만든 AI 모델은 대략 3만 개의 Youtube 비디오 데이터로 학습하였습니다. 흥미롭게도 그냥 유튜브 비디오를 계속 보여주면서 학습시켰는데도 불구하고 기차 소리가 작으면 먼 기차가, 큰 기차 소리에는 가까운 기차가 나오는 등, 볼륨과 물체와의 물리적인 거리 관계를 스스로 학습한 결과를 보여주었습니다. 이는 볼륨 크기에 따른 장면의 효과나 물리적인 관계를 AI가 비디오만 시청하고도 스스로 학습할 수 있었다고 볼 수 있겠습니다.

[앵커] 굉장히 신기하네요. 사람 목소리를 들려주면 음성에 따라 외형이 다른 얼굴이 나오는지도 알 수 있을까요?

[인터뷰] 아쉽게도 현재 저희 Sound2Scene 연구에서는 목소리 차이에 따른 사람을 구분하지는 못합니다. 이는 학습에 사용한 데이터의 차인데요. 저희가 수행한 Sound2Scene 연구에서는 강아지 짖는 소리, 고양이 우는 소리, 불꽃놀이, 비행기 소리 그런 소리 등 대략 50개의 넓은 범주의 비디오를 사용하여 학습시켰기 때문에, 사람 목소리에 특화되어 있지 않습니다. 그러나 만약 사람의 인터뷰나 대화를 포함하는 학습 비디오를 많이 사용하면 사람의 목소리를 구분하여 얼굴을 생성하는, 목소리 전문 생성 AI를 만들 수 있을 겁니다.

이런 접근방식은 제가 주저자로 2019년에 MIT 연구진과 개발한 ‘Speech2Face’ 연구에 적용되었습니다. 이번 연구의 전신이 된 연구인데요. 이 연구에서는 대규모 유튜브 비디오를 통해 사람 얼굴과 목소리 사이의 관계를 학습해내고 영상 생성까지 가능함을 최초로 보였습니다. 이 ‘Speech2Face’ 연구는 이번에 소개해드린 So…