컴퓨터 비전에는 정말 다양한 분야가 있다. 대표적인 이미지 분류, 물체 검출, 의미적 분할부터 시작해서, 오늘 소개할 image captioning까지. 우선 캡션에 대해서 잠시 설명할 필요가 있을 것 같다. 캡션(caption)이란 사진이나 삽화에 붙인 설명을 의미한다. 다음 그림을 참고하자.
컴퓨터 비전에서 image captioning이란 컴퓨터가 사진을 보고 적절한 설명을 자동으로 붙이는 것을 의미한다. 따라서 image captioning 알고리즘의 입력(input)은 이미지가 되고, 출력(output)은 문장이 된다.
im2txt라고 불리는 image captioning 알고리즘이 이미지들을 보고 출력한 문장들을 살펴보자. 꽤 이미지들을 잘 묘사하지 않았는가?
불과 몇년 전만 해도 상상 속에서만 가능하던 일들이 컴퓨터 비전을 통해 하나하나 실현되어 가고 있다. 신기하면서도 무서운 일이다. 하지만 시각장애인분들에게는 매우 희망적인 연구 성과라고 생각한다. 카메라만 가지고 다니면, 앞에 있는 장면에 대한 묘사를 들을 수 있기 때문이다. 과학 기술이라는 것은 항상 누가 어떤 목적을 가지고 사용하는가에 따라 세상을 이롭게 하거나, 아니면 세상을 파괴하기도 한다.
<참고자료>
[1] https://github.com/zzsza/Deep_Learning_starting_with_the_latest_papers/blob/master/Lecture_Note/03.%20CNN%20Application/12.Image-Captioning.md, zzzsza, "이미지를 설명하는 문장을 만들어내는 Image Captioning"
'Research > 컴퓨터비전, 영상처리' 카테고리의 다른 글
[IQA] 2D 이미지 품질 평가 데이터베이스들: LIVE, CSIQ, TID2013 (2) | 2019.12.16 |
---|---|
[IQA] visual masking 현상을 고려한 IQA 알고리즘, MAD (1) | 2019.12.10 |
[IQA] 표준편차 풀링을 제안한 GMSD, 빠름 주의 (2) | 2019.12.09 |
image classification과 fine-grained image classification의 차이 (0) | 2019.11.21 |
[IQA] 왜곡으로 인한 LBP(local binary pattern)의 변화를 이용한 알고리즘, NRSL (0) | 2019.11.18 |
[IQA] 가상의 참조 이미지를 만들어서 평가에 활용하는 NR 방식 알고리즘, BMPRI (0) | 2019.11.12 |
[IQA] 저주파 신호의 왜곡에 더 민감하단 특성을 이용한 UQI-HVS (0) | 2019.11.11 |
[IQA] SSIM의 전신, UQI (0) | 2019.11.08 |