Visualizing Data in Maps

지도 그래프는 지도에 그래프를 더한 시각화 방법이다. 지도 그래프는 크게 지도 위에 위치를 나타내는 그래프와 구역을 나타내는 그래프로 나뉜다. 물론 이둘을 동시에 활용하는 것도 가능하다. 하지만 위치나 구역을 나타내기 위해서는 위치와 구역에 대한 위도 및 경도, 또는 좌표 정보를 알아야 한다. 따라서 이번 장에서느,ㄴ 먼저 지도 그래프를 그리기 위해 필요한 정보와 지도 그래프의 구조에 대해서 알아본다. 그 다음 버블지도, 산점지도, 시계열지도, 등치지역도, 텍스트지도 총 5가지 지도를 그리는 방법과 활용 방법을 알아본다.


지도그래프란?

지도그래프는 지도에 그래프를 더한 시각화 방법이다. 지도그래프는 다른 그래프로 알기 어려운 지역 특성을 그래프에 가미한다. 여기서 지역특성은 크게는 국가가 가진 특성부터 작게는 해당 지역이 가진 편의시설이나 인프라 등을 말한다. 그렇기에 그래프에 지도를 더하면 그래프를 보는 사람은 알고 있던 정보를 보다 폭넓게 활용할 수 있다. 즉, 그래프 하나로 더 많은 정보를 표현할 수 있는 것이다. 

하지만 지도 그래프는 '위치'나 '지역'에 대한 시각화 방법을 알아야 그릴 수 있다. 컴퓨터에게 위치나 지역에 대한 정보를 알려주지 않으면 지도를 그릴 수가 없느 ㄴ것이다. 위치를 나타내는 방법은 다양하다. 일상에서는 흔히 '주소'로 위치를 표현한다. 하지만 '주소'는 국가마다 표현방법이 다른다. 그렇기에 널리 사용하기 위한 시각화 방법으로는 적합하지 않다. 범용성이 낮기 때문이다. 그래서 대부분의 시각화 도구는 위도와 경도를 이용해 위치를 나타낸다. 한편 지역은 지도 위에 구역을 나눠 놓은 것을 말한다. 구역은 선으로 나뉘기 때문에 한 지역을 표현하려면 많은 점이 필요하다. 여기서 우리는 두 가지를 기역할 필요가 있다. 바로 위치는 위도와 경도로 표현한다는 점과 지역을 표현하기 위해서는 많은 점이 필요하다는 점이다.


지도그래프는 지도 위에 그래프를 덧그리는 방법으로 그린다. 가장 밑에 깔리는 지도는 데이터를 따로 확보하지 않아도 소프트웨어에서 자동으로 제공한다. 하지만 그 위에 그려지는 그래프는 미리 수집한 데이터가 있어야 한다. 지도 위에 그릴 수 있는 그래프의 유형은 크게 두 가지로 나눌 수 있다. 하나는 위치를 찍는 그래프이고, 다른 하나는 구역을 나타내는 그래프이다. 점을 찍는 그래프는 위도와 경도를 이용한다. 여기에는 버블지도, 산점지도, 시계열지도, 텍스트 지도가 있다. 다음으로 구역을 나타내는 그래프는 등치 지역도가 있다. 이 등치 지역도는 다른 지도와 함께 사용할 수도 있다. 만약 위치를 나타내는 그래프와 등치지역도를 모두 사용한다면 지도그래프는 총 세 개의 층을 가진다. 가장 밑에는 지도, 그 위에는 등치 지역도, 맨 위에 위치를 나타내는 지도가 그려지는 것이다.


위치와 경도

위치를 나타내는 방법은 위도와 경도, 좌표와 주소 등 매우 다양하다. 이 중 우리의 일상에서 가장 흔히 쓰이는 방법은 '주소'이다. '서울시 서초구 서초중앙로'와 같은 주소는 일상에서 위치를 나타낼 때 유용하게 쓰인다. 하지만 주소는 국가에 따라 표현방법이 다르다. 또한 특정한 사물의 경우, 위치를 정확하게 표현하기도 어렵다. 공원에 있는 벤치의 위치를 주소로 표현하기 어려운 것처럼 말이다. 게다가 텍스트를 열거하는 방식 역시 비효율적이다. 사람이 읽어보고 이해하기에는 편리하지만, 한 지역을 나타내기 위해 너무 많은 불필요한 정보들을 저장해야 한다.


이런 이유로 시각화 도구 대부분은 위도와 경도로 위치를 나타낸다. 먼저 위도와 경도에 대해 알아보자. 위도는 지구를 적도 중심으로 남과 북으로 나누고, 적도에서 떨어진 정도를 각도로 나타내 남위 00도로 표현한다. 반면 경도는 영국 런던의 그리니치 전문대를 기준으로 지구를 세로로 동서중심으로 나누고 본초 자오선으로부터 떨어진 정도를 동경 00도로 표현한다.


지도데이터

지도 그래프를 그리려면 위치(위경도) 정보가 필요하다. 그리고 구역을 나타내는 등치 지역도는 구역 정보가 필요하다. 하지만 매번 위치와 구역을 수집하는 것ㄴ 쉽지 않다. 위경도는 구글 지도 등으로 수집이 가능하지만, 구역은 어떤 데이터가 필요한지 감조차 오지 않기 때문이다. 그렇다고 크게 걱정할 필요는 없다. SAS에는 지역 위치와 구역 데이터가 이미 내장되어 있기 때문이다. 게다가 대한민국의 경우 시도, 시군구 단위 지도데이터가 포함되어 있어 이 데이터를 이용하면 손쉽게 지도를 그릴 수 있다.


SAS는 다양한 지도 데이터를 제공한다. 지도 데이터가 포함된 라이브러리에는 MAPS, MAPSGFK, MAPSSAS 세 가지가 있다. 이 중 MAPSGFK 라이브러리가 지속적으로 업데이트 되고 있는 최신 지도를 모두 포함하고 있기 때문에 이를 사용할 것을 권장하며, 실습에서도 MAPSGFK 라이브러리의 지도 데이터를 이요한다.

한편 MAPSGFK 라이브러리에는 두 유형의 데이터가 있다. 첫 번째 데이터 유형은 지도를 그리는 데 사용하는 데이터이다. 이 데이터는 'SOUTH_KOREA' 같은 영문 지역명으로 저장되어 있으며, 변수 ID, LONG, LAT 총 세가지 이다. 또한 구역을 나타내기 위해 지역 하나에 여러 위경도와 XY좌표가 포함되어 있다. 따라서 약간의 처리만 한다면 위치와 구역 모두를 나타낼 수 있다.

두 번째 데이터 유형은 지역 이름 뒤에 'ATTR'가 붙어 있는 데이터이다. 대한민국의 경우 'SOUTH_KOREA_ATTR'란 이름으로 저장되어 있다. 이 데이터는 지역 단위로 저장되어 있다. 즉, 데이터 한 줄은 지역 하나를 의미한다. 또한 데이터에는 ID, IDNAME, ISO 등의 변수가 있으며, 이 정보는 해당 지역의 이름이나 표준 코드를 포함하고 있다. 그러므로 이 정보를 잘 활용하면 인터넷에 공개되어 있는 다양한 지역 정보와 결합할 수 가 있다. 쉽게 설명하면 'SOUTH_KOREA_ATTR'의 ID와 'SOUTH_KOREA'의 ID는 같은 ID이다.

자주 자용하는 지역 데이터를 표로 정리해 두었다. 먼저 세계 각국을 대상으로 지도 그래프를 그리는 경우 'WORLD'와 'WORLD_ATTR'  데이터를 이용한다. 두 데이터는 ID를 기준으로 연결되어 있다. 이 데이터는 세계 각국을 비교하는 용도로 활용할 수 있다. 두 번째로 아시아만 시각화 하는 경우 'ASIS'와 'ASIA_ATTR' 데이터를 이용한다. 이용 방법은 WORLD 데이터와 같다. 마지막으로 대한민국의 각 시군구나 시도를 기준으로 시각화 하는 경우 'SOUTH_KOREA', 'SOUTH_KOREA_ATTR' 데이터를 사용한다. 시군구 단위로 기록된 데이터는 데이터에 ID 변수만 포함하면 바로 이용할수 있다. 다만 시도 단위 데이터의 경우 https://url.kr/z3ymen에 있는 'SOUTH_KOREA_SIDO' 데이터를 활용하거나 '더 알아보기 등치지역도 지역단위 조절하기를 참고하면 된다.


지도의 유형

지도 그래프는 지도 위에 그래프를 그리기 때문에 밑바탕이 되는 지도를 변경할 수가 있다. 이 때 필요에 따라 적당한 지도는 다르다. 어떤 경우 지역명이 선명하게 나온 지도가 편리할 수 있으며, 어떤 경우 그래프의 가독성을 높이기 위해 지역명이 두드러지지 않는 지도가 필요할 때도 있다. 표는 지도 유형에 따른 경로와 예시를 보여준다.









지역 지도

지역 지도는 지도를 구역으로 나눌 때 사용한다. 대표적인 지역 지도에는 등치 지역도가 있다. 지역 지도에서는 등치 지역도의 특징과 등치 지역도를 그리기 위해 필요한 데이터 등을 살펴본다. 또한 텍스트 지도에서는 위치 지도 중 하나인 텍스트 지오와 등치지역도를 함께 나타내는 방법을 알아본다.


등치지역도 Choropleth Map는 지역을 기준으로 구획을 나눈 뒤 구획별로 어떤 수치가 얼마나 큰지 작은지를 색으로 표현한다. 색이 진하면 값이 크다는 의미이고 색이 연하면 작다는 의미이다. 그림은 서울시 각 구별 인구 수를 등치 지역도로 나타낸 결과이다.

그림을 살펴보면 인구가 많은 구와 그렇지 않은 구를 색상을 통해 확인할 수 있다. 등치 지역도는 크게 구역을 나누는 지도 데이터와 각 구역의 특징 (이 경우 인구수)을 나타내는 반응 데이터 두 가지를 이용한다. 다만 등치 지역도 만을 이용 할 경우 각 구역이 어떤 지역인지 나타낼 수 없다. 이 때문에 투면도를 낮춰 각 지역명이 나타나게 하거나 텍스트 지도와 함께 사용한다. 텍스트 지도를 활용한 등치 지역도는 텍스트지도에서 자세히 알아본다.


데이터 


등치 지역도는 각 구역을 나누는 지도 데이터와 각 구역의 특징을 나타내는 반응 데이터 두 가지를 이용해 그릴 수 있다. 다만, 이 중 반응 데이터는 필수 구성 요소는 아니다. 그렇다면 왜 이 두가지 데이터를 이용하여 등치 지역도를 그리는 것일까? 지금부터 지도 데이터와 반응 데이터 각각에 대해 살펴보자.


지도 데이터

지도데이터는 등치지역도의 각 구역을 시각화하기 위해 필요한 데이터이다. 지역 데이터를 따로 수집하는 것도 가능하지만, 국가나 시도와 같은 행정구역을 나타낼 때는 MAPGFK에서 제공하는 지도 데이터를 활용할 수 있다. 또 등치 지역도의 지도 데이터는 등치 지역도만 그리는 경우와 지도 위에 덧칠해 그리는 경우, 구조적 차이가 있다. 먼저 등치 지역도만을 그릴때 필요한 데이터 구조부터 알아  보자

등치지역도만 그리는 경우

등치 지역도만을 위한 데이터는 그림과 같이 ID와 XY좌표 세가지 변수만 있으면 된다. 등치 지역도 작업은 지역 ID별로 XY좌표를 이용해 구역을 나누기 때문이다.


그림은 MAPSGFK.SOUTH_KOREA 데이터에서 서울 ID1='KR-11'만을 추출하여 그린 등치지역도이다. 그림은 데이터의 ID='KR-11110'은 종로구를 나타낸다. 그림에서 알 수 있듯이 종로구 하나에도 여러 좌표가 포함되어 있다.

지도 위에 등치 지역도를 덧칠해 그리는 경우

등치 지역도를 지도 위에 그리고 싶은 경우가 있다. 앞서 살펴본 그림은 지도 위에 등치 지역도를 덧대 그린 지도이다. 이 경우 각 지역의 위치를 지도에서 찾아야 하기 때문에 X와 Y 좌표 외에도 위도와 경도 데이터가 그림과 같이 추가로 필요하다.


그림은 등치지역도에 기본지도층을 포함한 결과이다. 기본 지도층은 SAS에서 제공하는 기본 지도를 말한다. 이 옵션을 선택할 경우 그림과 같이 등치지역도가 지도위에 덧그려진다.


반응 데이터

반응 데이터는 등치 지역도의 각 구역을 구분하거나 수치의 정도로 표현하고 싶을 때 사용한다. 예를들어 그림과 같이 각 지역별 인구수를 시각화하는 경우 반응 데이터에는 지역 ID와 인구수가 포함되고 반응변수에 인구수를 할당한다. 반응 데이터는 등치 지역도를 구성하는 필수 요소는 아니다. 반응 데이터의 구조는 그림과 같다. 이 때 반응 변수는 수치형과 명목형 변수를 모두 사용할 수 있다.


주의할점

보통 등치지역도를 이용한 데이터 시각화는 각 지역별 특징을 그림과 같이 나타내는 걸 목적으로 한다. 하지만 이 경우 해당 지역에 대한 사전 지식이 없다면 각 구역이 어떤 지역인지 알기 어렵다. 따라서 등치 지역도는 주로 텍스트지도와 함께 사용한다. 하지만 등치 지역도에 투명도를 줄 경우 그림과 같이 텍스트 지도 없이도 지역 구분이 가능하다.

그림은 등치지역도에 투명도를 넣은 것과 그렇지 않은 것을 비교한 결과이다. 투명도를 넣을 경우 후면에 나타난 지역명을 통해 각 지역을 어느 정도 구분할 수 있게 된다. 등치 지역도의 투명도는 등치 지역도 작업의 모양 밑에 있는 등치지역도 항목에서 그림과 같이 변경할 수 있다.


텍스트지도란?

텍스트지도는 지도의 특정 위치를 텍스트로 표시한다. 텍스트 지도는 산점지도와 비슷하게 특정 시설물이 어디에 얼마나 분포해 있는지 관찰할 때 사용할 수 있다. 하지만 텍스트 지도는 텍스트가 길어질 경우, 가리키는 위치가 어디인지 모호해진다는 단점이 있다. 따라서 지도에 

 


Post a Comment

0 Comments