2019-11-19 08:22:31

컴퓨터 비전에는 정말 다양한 분야가 있다. 대표적인 이미지 분류, 물체 검출, 의미적 분할부터 시작해서, 오늘 소개할 image captioning까지. 우선 캡션에 대해서 잠시 설명할 필요가 있을 것 같다. 캡션(caption)이란 사진이나 삽화에 붙인 설명을 의미한다. 다음 그림을 참고하자. 

 

 

컴퓨터 비전에서 image captioning이란 컴퓨터가 사진을 보고 적절한 설명을 자동으로 붙이는 것을 의미한다. 따라서 image captioning 알고리즘의 입력(input)은 이미지가 되고, 출력(output)은 문장이 된다. 

 

im2txt라고 불리는 image captioning 알고리즘이 이미지들을 보고 출력한 문장들을 살펴보자. 꽤 이미지들을 잘 묘사하지 않았는가?

 

 

불과 몇년 전만 해도 상상 속에서만 가능하던 일들이 컴퓨터 비전을 통해 하나하나 실현되어 가고 있다. 신기하면서도 무서운 일이다. 하지만 시각장애인분들에게는 매우 희망적인 연구 성과라고 생각한다. 카메라만 가지고 다니면, 앞에 있는 장면에 대한 묘사를 들을 수 있기 때문이다. 과학 기술이라는 것은 항상 누가 어떤 목적을 가지고 사용하는가에 따라 세상을 이롭게 하거나, 아니면 세상을 파괴하기도 한다. 

 

 

<참고자료>

[1] https://github.com/zzsza/Deep_Learning_starting_with_the_latest_papers/blob/master/Lecture_Note/03.%20CNN%20Application/12.Image-Captioning.md, zzzsza, "이미지를 설명하는 문장을 만들어내는 Image Captioning"