DISTS는 올해(2020년) IEEE Transactions on pattern analysis and machine intelligence에 게재된 논문 "Image Quality Assessment: Unifying Structure and Texture Similarity"에서 제안된 FR-IQA 방법입니다. DISTS는 제목에도 썼듯이 구조의 왜곡에 민감하면서, 텍스쳐 리샘플링은 용인해주는 FR-IQA 방법입니다. 무슨 말인지 모르시겠죠?ㅋㅋ 무슨 말인지 이해가 안되야 정상입니다. 그러니 끝까지 천천히 읽어주세요.^^
먼저 SSIM과 같은 많은 FR-IQA 방법들은 사람의 시각시스템이 이미지의 구조(structure) 변화에 민감하다는 것에 착안해서 이미지의 구조를 나타내는 어떠한 특성맵을 원본 이미지와 왜곡 이미지에서 도출합니다. 그 다음에 그것들이 얼마나 유사한가를 측정합니다. SSIM과 같은 구조의 왜곡에 민감한 방법들은 상당히 잘 작동하는 좋은 FR-IQA 방법입니다. 그런데 어떤 경우에는 잘 작동하지 않습니다. 아래 그림을 보시죠.
첫번째 행의 왜곡 이미지의 경우 SSIM 점수가 0.81입니다. SSIM 점수는 1에 가까울 수록 더 좋은 품질을 나타냅니다. 두번째 행의 왜곡 이미지의 경우 SSIM 점수가 0.30입니다. 사실 두번째 이미지의 경우 원본 이미지와 큰 차이가 없어보이지 않나요?? 그런데 분명한 차이가 있는 첫번째 왜곡이미지보다 두번째 왜곡이미지의 품질을 SSIM은 낮게 평가합니다. 사실 픽셀 단위로 살펴보면 두번째 행의 이미지들이 더 큰 차이가 있습니다. 그런데 사람의 시각시스템은 같은 텍스쳐(이 경우에는 잔디)의 이미지인 경우 실제로는 차이가 있어도 그 차이를 쉽게 인식하지 못합니다. 텍스쳐 리샘플링(texture resampling) 때문입니다. 자세히 살펴보세요. 분명히 같은 잔디지만, 배치에 차이가 있습니다. 그런데 그것을 쉽게 인식하지 못하게 하는 것이 텍스쳐 리샘플링입니다.
이러한 텍스쳐 리샘플링을 용인할 수 있는 FR-IQA 방법이 좀 더 사람이 지각하는 방식을 닮았다고 말할 수 있습니다. 오늘 소개해드리는 DISTS가 바로 그것을 추구한 방법입니다. DISTS는 어떻게 만들어졌길래 텍스쳐 리샘플링도 이해할 수 있을까요? 바로 다음과 같은 알고리즘을 갖고 있습니다.
우선 원본 이미지와 왜곡 이미지를 이미지넷에 미리 훈련된 VGG16에 통과시킵니다. 거기서 얻은 딥 특성맵들과 입력 이미지들의 유사도를 각각 두 개의 metric으로 측정합니다. 하나의 metric은 원본 이미지의 딥 특성맵과 왜곡 이미지의 딥 특성맵의 평균을 비교하는 것입니다. 이것은 텍스쳐의 유사도를 측정하기 위해 사용됩니다. 또 하나의 metric은 원본 이미지의 딥 특성맵과 왜곡 이미지의 딥 특성맵의 correlation을 비교하는 것입니다. 이것은 구조의 유사도를 측정하기 위해 사용됩니다.
결과적으로 입력 이미지를 비교함으로 3개의 l 점수, 3개의 s 점수를 얻게 되고(r, g, b 채널 이미지), 64개+128개+256개+512개+512개의 l 점수 및 s 점수를 얻게 됩니다. 그것들에 가중치들을 부여해서 모두 합한 다음에 1에서 뺌으로 최종 점수를 얻게 됩니다.
그 가중치 알파들과 베타들은 훈련을 통해 얻습니다. 알파와 베타를 훈련시킬 때, 두 개의 손실함수를 합한 것을 사용하는데 하나는 이미지품질평가 데이터과 연관된 것이고, 다른 하나는 텍스쳐분류 데이터셋과 연관된 것입니다. ground-truth 이미지 품질 라벨과 예측된 D 사이의 절대차가 작아지도록 알파와 베타가 조정되는 동시에, 텍스쳐가 같은 것에 대해서는 D가 작아지도록 알파와 베타를 조정합니다. 그렇기 때문에 DISTS는 결과적으로 구조적 변화에 민감함을 유지하면서 텍스쳐 리샘플링은 용인하게 되는 것이죠.
관련 글
'Research > 컴퓨터비전, 영상처리' 카테고리의 다른 글
이미지에서 노이즈 제거하는 디노이징 알고리즘, NLmeans 설명 (python 코드 포함) (0) | 2020.09.18 |
---|---|
[IQA] FR IQA 알고리즘들을 평가하는 새로운 방법, 2AFC (0) | 2020.08.18 |
[IQA] DeepFL-IQA (2020년) 알고리즘 설명 (0) | 2020.08.14 |
[IQA] 2020년 현재 가장 큰 IQA 데이터베이스, KADID-10k (10,125장의 왜곡 이미지) (0) | 2020.08.14 |
[IQA] NSS 특성과 CNN으로 얻은 특성을 함께 조합해서 이미지 품질 평가에 활용한 NR IQA 방법 (0) | 2020.08.03 |
얼굴 랜드마크(facial landmark)란? (0) | 2020.08.01 |
머리 자세 추정(head pose estimation)에서 pitch, roll, yaw angle이란? (1) | 2020.07.31 |
동적 텍스처(dynamic texture) 분류란? (0) | 2020.06.29 |