2017-09-21 16:10:55

엣지 검출(edge detection)은 이미지 프로세싱에서 빼놓을 수 없는 중요한 한 요소이다. 우리는 경험적으로 엣지 정보가 중요하다는 것을 알고 있다. 색에 대한 정보가 전혀 없는 만화책을 생각해보자. 엣지 정보만으로도 우리는 별 어려움 없이 상황과 내용을 파악해서 심지어 중독이 될 지경이다. 또한 누군가를 대상으로 그린 캐리커쳐를 생각해보자. 구지 색상을 활용하지 않아도 그 사람이 누군지 충분히 인식할 수 있다. 누군가에게 약도를 그려줄 때도 대강 윤곽만 그려줘도 큰 도움이 될 수 있다. 그렇다면 도대체 왜 우리는 엣지 정보만으로도 충분한 상황 판단이 되는 것일까?  답을 알기 위해서는 우리의 눈과 뇌에게 물어봐야한다.


우리는 두 눈을 통해서 매순간 엄청난 양의 시각 정보를 받아들인다. 빛 에너지를 전기적 활성으로 전환하는 광수용기(photoreceptor)를 통해 빛을 받아들이는데, 간상세포와 원추세포 두 종류가 있다. 우리는 한 눈에만 1억 2천만 개의 간상세포8백만 개의 원추세포를 갖고 있다. 간상세포는 명암을 구분하고, 원추세포는 색상을 구분하는데 주로 기여한다. (원추세포와 간상세포에 대해서는 이 글을 참고하자. => http://bskyvision.com/107일단 두 개를 구분하지 말고 각 눈에 1억 3천만 개 정도의 광수용기가 있다고 생각하자. 하나의 광수용기는 현재 보고 있는 장면(scene) 중에서 한 포인트의 명암의 정도를 반영한다. 200-300개 정도의 레벨로 명암을 나타낼 수 있다고 한다. 간편한 계산을 위해 256(2의 8승)의 레벨로 명암을 구분한다고 하자. 그러면 한 포인트(픽셀)에 해당하는 정보를 담기 위해 컴퓨터 용량 단위로 8bit(1byte)가 필요하다. 1억3천만 개의 광수용기가 있으므로 찰나의 한 장면 당 1억3천만 byte = 약 130megabyte(MB)의 용량이 필요한 것이다. 우리 눈이 1초당 30장면의 이미지만 받아들인다고 해도 130x30 = 3900MB = 3.9gigabyte(GB)에 이른다. 10초만 본다고 해도 39GB이고, 두 눈 다 생각하면 78GB로 데이터량이 엄청나게 크다. 


다행히도 우리의 시각 시스템은 효율적인 인코딩 시스템을 갖고 있다. 우선 불필요한 대부분은 버리고, 중요한 정보만을 전달한다. 무엇이 중요한 정보인지 결정하는 곳은 광수용기의 신호를 전달 받는 곳인 망막 신경절 세포(retinal ganglion cell)이다. 참고로 우리는 약 100만개의 망막 신경절 세포를 갖고 있다. 1억3천만개의 광수용기에 비해서는 매우 적다. 망막 신경절 세포는 변화 또는 엣지에 대한 정보만을 다루고, 나머지는 무시한다. 이미지 내에서 명암이나 색의 변화가 있는 부분, 즉 엣지에 대한 정보를 중요하다고 판단해서 다음 처리 단계인 시각 피질(visual cortex)로 보낸다. 따라서 데이터량이 상당히 줄어든다. 그렇다면 어떻게 이 작업이 가능한 것일까?


우선 망막 신경절 세포에 대한 충분한 이해가 필요하다. 뒤에 이어지는 내용들을 마음을 열고 천천히 살펴보면 분명 유익한 것을 얻을 수 있을 것이다. 망막 신경절 세포들은 어떤 유형의 수용야(receptive field)를 갖고 있느냐에 따라 ON-center 신경절 세포와 OFF-center 신경절 세포로 분류된다. 그림 1과 같이, ON-center 신경절 세포는 중앙 부분에 빛을 받을 때 가장 활성화되고, 주변부에 빛을 받을 때는 평소보다 억제되는 특성을 갖고 있다. OFF-center 신경절 세포는 반대로 중앙 부분에 빛을 받을 때 가장 억제되고, 주변부에 빛을 받을 때 평소보다 좀 더 활성화된다. 


그림 1. ON-center 신경절 세포와 OFF-center 신경절 세포. 그림 출처 [1]


그러면 만약에 중앙부와 주변부에 동시에 빛이 비친다면 어떻게 될까? ON-center 신경절 세포의 경우를 생각해보자(그림 2). 빛이 아예 비치지 않는 상황에서도 ON-center 신경절 세포는 어느 정도 활성화되어 있음을 볼 수 있다(그림 2(a)). 이것을 base line이라고 한다. 그런데 중앙부에만 빛이 비친다면, 훨씬 더 활성화 된다(그림 2(b)). 반면, 주변부에만 빛을 쏘면, 평상시에 어느 정도 활성화되어 있던 것(base line)조차도 억제된다(그림 2(c)). 만약 중앙부와 주변부 모두 빛을 비추면 base line 정도의 활성화 정도를 보인다. 중앙부에 빛이 비춰지면서 활성화되지만, 동시에 주변부에 비친 빛으로 인해 억제되므로 결국은 본전인 것이다. 그림 2를 바탕으로 OFF-center 신경절 세포의 경우는 충분히 상상해볼 수 있을 것이다. 


그림 2. ON-center 신경절 세포의 중앙부, 주변부, 또는 동시에 빛이 비칠 때의 반응. 그림 출처 [1]


이제 드디어 망막 신경절 세포들이 왜 엣지를 검출해내는지 확인할 차례가 왔다. 그럼 이어서 그림 3을 살펴보자. 가장 왼쪽 아래에 있는 두개의 ON-center 망막절 세포에는 빛이 비춰지지가 않는다. 그러다보니 둘다 base line의 활성화 정도를 보일 것이다. 그러나 세번째 세포를 보면, 주변부의 일부가 빛에 노출되었다. 결과적으로 억제될 것이다. 그리고 4번째 세포는 엣지의 딱 정중간에 위치해 있다. 중앙부의 절반과 주변부의 절반이 빛에 노출되어 있다보니 결과적으로는 base line 정도로 활성화된다. 이제 5번째 세포는 주변부의 일부를 제외하고는 나머지는 빛에 노출되어 있다. 활성화되는 비율이 억제되는 비율보다 크므로 base line보다는 좀 더 활성화된다. 마지막으로 오른쪽 상단에 있는 나머지 두 개는 중앙부, 주변부 가릴 것 없이 모두 다 빛에 노출되어 있으므로 결국 base line이다. 결국은 엣지 근처에 있는 망막 신경절 세포만 평상시보다 좀 더 활성화 되거나 좀 더 억제되는 것이다. 이러한 방식으로 망막 신경절 세포는 엣지 정보를 파악해내서 뇌에서 시각 정보를 처리하는 첫번째 장소인 일차시각피질(primary visual cortex)로 보낸다. 이러한 이유로 우리의 뇌는 주로 가장자리 정보를 가지고 상황을 판단하는데 익숙해져왔다고 추측할 수 있다.    


그림 3. 엣지에서의 on-center 망막절세포들의 반응. 그림 출처 [1]


우리가 지금 두 눈으로 보고 있는 장면이 그림 4와 같다면, 망막 신경절 세포에 의해 처리된 영상은 그림 5와 비슷하다고 볼 수 있다. 그림 5는 단순히 명암을 나타내는 그레이 이미지가 아니다. 엣지 검출 방법 중 하나인 Laplacian of a Gaussian(LoG) 연산자로 얻은 그림 5를 유심히 보면, 
별다른 밝기의 변화가 없는 곳은 회색으로 표현되어 있다. 이 회색을 base line이라고 생각하면 된다. 반면 엣지부분들을 살펴보면, 어두운 곳에서 밝은 곳으로 이동할 때 검은색 라인이 나왔다가 흰색 라인이 있는 것을 확인할 수 있다. 필자가 입고 있는 어두운 옷에서 비교적 밝은 광장의 바닥부분으로 시선을 이동해보면 (회색->검은색->흰색->회색)으로 변화된 것을 볼 수 있을 것이다. 검은색은 base line보다 억제된 상태, 흰색은 base line보다 활성화된 상태를 의미한다. 이 LoG 연산자가 망막 신경절 세포의 행동을 꽤 잘 흉내냈음을 그림 4, 5를 통해서 알 수 있다.

그림 4. 우리가 눈으로 본 이미지. 참고로 이 사진은 크로아티아 자그레브 반 옐라치치 광장에서.. 그림 5. 망막 신경절 세포들에 의해 처리된 이미지. 이 이미지는 LoG 연산자에 의해 산출했다.

이제 짧지 않은 글을 마무리하려고 한다. 매번 느끼는 것이지만 영상처리, 컴퓨터 비젼 분야를 잘 연구하려면 우선 사람이 어떻게 보고 어떻게 처리하는지를 잘 이해해야 한다. 엣지 검출이 중요한 이유도 엣지가 사람의 눈과 뇌가 중요하게 여기는 정보이기 때문이다. 그 이유를 요약하자면 다음과 같다. 우리가 매순간 눈으로 받아들이는 정보량은 어마어마하다. 그래서 뇌로 신호를 전달하기 전에 효율적인 압축 코딩이 필요하다. 이를 위해 망막에 있는 신경절 세포들이 불필요한 정보는 버리고 중요한 정보인 엣지를 검출해서 뇌에 있는 시각 피질로 넘겨준다. 뇌는 이것을 가지고 적절한 판단을 하고 행동을 하도록 지시를 내린다. 


지금까지 부족한 글 끝까지 읽으시느라 수고하셨습니다. 궁금한 것이 있으시거나 제가 잘못 이해한 것 있다면 댓글 남겨주세요! :D 






<참고 자료>

[1] Snowden, Thompson, Troscianko, "Basic Vision: an introduction to visual perception", Oxford 출판사, p. 46-58.