Visualize This(비주얼라이즈 디스) : 빅데이터 시대의 데이터 시각화+인포그래픽 기법

 

Visualize_This
[구매하기]

역시 핵심은 데이터의 의미를 파악하는 것. 그리고 그 데이터를 사용자 입장에서 간결하고 명확하게 전달하는 것이다.

실제 다양한 도구와 데이터로 비주얼라이제이션을 경험할 수 있어서 좋았다.

조금 아쉬운 것은 대상이 데이터 분석가라고 생각했는데, 데이터 분석가가 일러스트나 포토샾같은 부분도 모두 다루는 것이 맞는지.. 모르겠다.

아무튼 데이터 수집에서 부터 데이터 형식화를 거쳐 도구를 이용해서 원하는 그래픽을 만든느데 까지 좋은 경험이 된 것 같다.

각 챕터별 요약…..

1장 데이터 스토리텔링
– 숫자 그 이상
: 데이터는 아무 의미없는 숫자와 문자의 나열일뿐이며 통계와 시각화를 통해 그이상을 찾아야 함. 시각화를 스토리 텔링 관점으로 접근

– 목표
: 데이터를 가지고 패턴과 관계대한 이야기를 해야 한다. 숫자라고 해서 항상 진실을 정확하게 표현하는 것은 아니며, 데이터가 정확한지 확인하라(출처, 핵심주제)

– 디자인
: 받아들이는 사람을 배려해라 . 대상이 되는 사람의 입장에서 깊이 생각(상징과, 축과 라벨, 그래프별 특성을 알고 사람을 배려한 그래프를 만들어라.

– 정리
: 의문에서 시작하여 날카로운 눈초리로 데이터를 조사하고 대상이 되는 사람들의 입장에서 목젓에 맞게 그래픽을 만들어라.

2장 데이터 다루기
– 데이터 수집 방법
: 데이터 시각화의 핵심은 데이터이므로 출처는 어디고, 언재, 어떻게, 누구를 대상으로 수집, 무엇에 관한 데이터이지 확인하라.
: python을 이용한 데이터 수집 예제(urllib2, BeautifulSoup 이용)

데이터를 찾는 방법

검색엔진 구글. 울프람알파
직접문의 관련분야의 정통한 학자를 찾아라
대학 데이터&스토리 라이브러리(http://lib.stat.cmu.edu), 버클리 데이터 연구소(http://sunsite3.berkeley.edu/wikis/datalab), UCLA 통계 데이터셋(www.stat.ucla.edu/data/)
데이터어플리케이션 프리베이스(www.freebase.com), 인포침스(infochimps.org), 넘브러리(numbrary.com), 어그데이터(aggdata.com), 아마존공공데이터(aws.amazon.com/publicdatasets), 위키피디아(wikipedia.org)

– 데이터 형식화
: 데이터 그래픽을 만드는 것보다 데이터를 형식화 하는 것이 훨신더 오래걸린다.
: python을 이용한 데이터 형식 변환 예제(BeautifulStoneSoup 이용)

데이터 형식화의 3가지 구분 텍스트(csv, tsv),json,xml
데이터 형식화 도구 구글 리파인, Mr. Data Converter, Mr. People, 스프레드시트

– 정리
데이터를 수집하고 데이터를 다루는 것은 시각화를 만드는 과정에서 매우 중요한 단계

3장 도구의 선택
– 종합세트 시각화
: 단순한 조작법이 장점이지만, 유연성을 포기, 데이터 활용법이 늘어날주록 소프트웨어의 지원범위밖의 기능을 원하게 될것

마이크로소프트 엑셀 쉽게 쓸수 있고 , 매우 파워풀함.
구글 스프레드시트 웹브라우져와 인터넷만 가능하면 어디서든 활용가능. 일부 엘셀보다 막강한 기능 제공, 구글 파이낸스
메니아이즈(many-eyes.com) IBM 비주얼 커뮤니케이션 연구실에서 진행, 인터렉티브 기능과 사용자 옵션, 업로드하는 모든데이터는 공공에 공개
타블로소프트웨어 윈도우 어플리케이션, 데이터 탐색과 시가적 분석을 목적. 특히 미학적인 부분, 인터페이스 디자인에 많은 신경. 업로드하는 모든데이터는 공공에 공개
YFD(your.flowingdata) 온라인 애플리케이션, 트위터에서 데이터를 수집해 여러 인터렉티브 시각화 도구로 패턴과 관계를 찾아줌

– 프로그래밍
: 프로그래밍 언어를 배워햐 하는 어려움, 특정 소프트웨어에 종속적이지 않음, 데이터의 한계극복

파이썬 대용량 데이터, 큰규모의 계산이 필요할떄 강점
PHP 배우고 활용하기 쉽다. GD 그래픽 라이브러리 지원, 대표적으로 스파크라인(sparkline.org)
프로세싱 디자이너와 데이터 아티스트 활요을 목적으로 만들어진 오픈소스 프로그래밍 언어. 준비와 실행이 빠르다. 작고 가벼우며, 몇줄의 코드로 애니메이션과 인터렉티브 그래픽을 만들수 있다. 단 결과물이 자바 애플릿이다.
플래시/액션스크립트 직관적이고 쉬운인터페이스으로 쉽고 다양한 조작과 인터렉션 추가. 플래시 런타임이 설치되어 있어야 함
HTML, javascript, css 브라우져의 발전으로 인한 성장, 프로토비즈(protovis), jQuery, Moo Tools 라이브러리와 같이 쓰면 파워풀, 단, 오래된 브라우져(IE6)는 지원안됨
R 통계학자가 만들고 통계학자들이 발전시킨 오픈소스 툴. 불편한 인터페이스과 투박한 그래픽 인터렉티브 그래픽이나 애니메이션에 취약. 많은 통계 라이브러리와 패키지 사용가능

– 일러스트레이션
: 단순히 그리고, 꾸미는 용도, 자신에게 맞는 도구를 선택하자.

프리젠테이션, 보고서, 출판물에 사용하기 위해서는 데이터 그래픽을 더 깔끔하게 다듬어야 함.

어도비 일러스트레이터 산업계의 표준, 유연함과 사용 편이성, 단 바싸다.
잉크스케이프 일러스트레이터의 오픈소스 버전
코렐드로우 일러스트레이터와 맞먹는 가격.

– 지도
: 지도를 활용한 데이터가 급증. 앞으로도 늘어날것. 사용자의 요구와 모양과 크기, 구분을 고려해서 선택.

구글, 야후, 마이크로소프트 지도 자바스크립트와 API를 통한 여러 연관 서비스에 활용가능, 구글 지도를 추천
ArcGIS 대규모 프로그램. 방대한 지도 데이터를 받아 다양한 작업을 수행할수 있도록 지원, 덩밀한 지도 데이터 시각화를 하고자 하면 고려
모디스트맵 플래시와 액션스크립트로 구동되는 타일기반의 지도. 지도 API라기보다 프레임워크에 가까움
폴리맵 모디스트맵의 자바스크립트 버전, 상재적으로 경량, 벡터이미지 사용, 최신버전의 브라우져만 지원
R 기능의 제약이 많고 문서화도 부족한편.

– 각자의 선택
적합한도구를 찾기 위해서는 목표가 무엇인지에 따라 달라진다.

정적인 데이터 그래픽 R과 일러스트레이터
웹어플맅케이션용 자바스크립트나 플래시 활용

목적에 맞게 여러도구를 조합

– 정리
어떤도구도 만병통치약이 될수없다. 망치를 잡게 됬다고 집을 지을수 있는 건 아니다. 중요한것은 데이터가 무엇을 의미하는지, 어떤 데이터를 쓸지, 어떤점을 중요하게 부각할 것인지 결정

4장 시간 시각화
– 무엇을 볼 것인가
시계열 데이터의 가장 중요한 특징은 트렌드, 경향성이다. 시간에 따라, 계절에 따른 변화와 패턴을 발견할견할수 있는 큰 그림을 보는 것이 중요

– 시간 나눔
: 분절성과 연속성을 설명하고 미국 핫도그 먹기 대회 데이터로 R과 일러스트를 이용한 막대그래프와 누적 막대그래프 그리기 예제를 설명

분절성 특정 시점 또는 특정 시간의 구간값. 시험의 평균통과률
연속성 데이터의 계속되는 연속성, 기온의 변화 데이터
막대그래프 가장 흔한 차트중 하나, 가로는 시간축, 세로는 값. 막대의 폭과 막대간의 간격은 의미를 갖지 않는다.
점그래프 면적을 표시할 필요가 없어서 더 적은 공간에 그릴수 있고, 한점에서 다음점으로 흐름을 파악하기 쉬움, 두변수의 연관관계를 표현

– 연속형 데이터
: 연속적인 데이터는 끊임없이 변화하는 현상과 추이를 표현. 연결된점은 점그래프의 점사이를 연결. 축이 너무 길면 변화의 패턴을 보기 어렵다.
세계은행이 방표한 세계인구 데이터로 R과 일러스트레이터를 이용한 시계열 그래프 그리기 예제
미국의 우편요금 요율 데이터로 R과 일려스트레이터응 이룡한 계단식 그래프 그리기 예제
LEOSS 통계적 방법론으로 데이터의 곡율에 맞는 추세션 그리기 예제

– 정리
시각화의 목적은 데이터를 일반적인 관점에서 보고 그 경향을 빠르게 파악하는 것. 데이터가 말하는 바를 익히고 나면, 그 내용을 데이터 그래픽을 보고 이야기 한다.

5장 분포 시각화
– 무엇을 볼 것인가
: 분포 그래픽에서 주목해야 할것은 분포 정도, 전체의 관점에서 각 부분의 관계를 보여줘야 함. 분포 데이터의 구분단위는 분류,세부분류,가짓수 -> 가능한 선택이나 결과들, 샘플 측정범위에서의 분류

– 전체의 부분
: 분포 데이터는 각 부분을 전부합치면 1또는 100%이 된다
: 플로잉 블로그의 설문조사 데이터로 프로토비즈(html,javascript) 이용한 그리기 예제
: 버락오바마 정책지지율 데이터로 프로토비즈(html,javascript) 이용한 그리기 예제
: 플로잉 블로그의 설문조사 데이터로 일러스트레이터를 이용한 그리기 예제

파이차트 시각화의 오랜친구, 원형을 각도를 기준으로 자린 조각으로 표현. 파이를 너무 많은 조각으로 자르지 않도록 유의
도넛차트 파이차트에서 중심부를 잘라내서 도넛형태, 각도보단 고각의 길이를 차이로 인식. 중심부의 공백을 라벨을 이용해 정보를 표시
누적 쌓아올리기 막대 그래프에 분류를 누적데이터로 표현, 전체 막대는 대분류값, 내부막대의 높이는 세부분류
트리맵 영역기반의 식가화, 각 사각형의 크기가 수치, 바깥 영역의 사각형은 대분류, 사객형의 내부는 세부분류. 위계구조가 있는 데이터나 트리구조의 테이터를 표시할떄 사용

– 시간에 따른 분포
: 누적연속그래프 : 몇개의 시계열 그래프를 차곡차곡 쌓아서 채운 그래프, 한 시점의 단면을 보면 그시점의 분포를 볼수있다, 연속적인 누적 막대그래프
: 플로잉 블로그의 상위100개 post 데이터로 R의 portfolio 패키지를 이용한 그리기 예제
: 연령별 인구분포 데이터로 일러스트레이터를 이용한 그리기 예제(비율정규화)
: 연령별 인구분포 데이터로 플래시(플레어-Flare)를 이용한 인터렉티브 그래프 그리기 예제

– 정리
: 분포데이터는 전체의 부분을 내타내며, 개별적인 값도 의미가 있지만 모든닶의 합또한 의미를 갖는다. 주의할것은 너무 많은 기능을 우겨넣으려면 그래프가 난삽해진다. 가장 단순한 형태를 유지하자.

6장 관계 시각화
– 무엇을 볼 것인가
: 상관관계를 알아야 깊이있는 탐색적 분석이 가능하다.

– 상관관계
: 데이터의 관계라고 하면 일반적으로 상관관계를 말하며, 인과관계도 있지만, 외부요인이나 연관요소로 인해 증명하기 어렵다. 상관관계를 표현 : 스캐터 플롯과 멀티플 스캐터 플롯
: 미국의 범죄율 데이터로 R을 이용한 주별 범죄 발생율의 나타내는 스캐터플롯 예제와 범죄 유형멸 스캐터플롯 행렬 예제와 비례 버블 차트 예제

– 분포
: 데이터가 어떤 수지를 기준으로 분포해 있는가를 본다. 히스토그램과 밀도 그래프를 사용
: 세계의 출산율 데이터로 R을 이용한 스템플롯, 히스토그램, 밀도 그래프 예제

– 비교
: 세계의 출산율 데이터로 R의 lattice 패키지를 이용한 히스토그램 행렬
: 스몰멀티플이란 공통의 의미를 탐고 있는 여러 작은 데이터 그래프를 하나의 그래픽에 붙여 넣는 기술, 다양한 그룹과 분류를 서로 비교

– 정리
: 모든 사람이 일상적으로 종합적인 분포 통계에 익숙하진 않으므로 심혈을 기울여 데이터를 설명하고 이야기 전달에 조심할 필요가 있다.

7장 비교 시각화
– 무엇을 볼 것인가
– 여러 변수의 비교
– 차원을 줄인다
– 아웃라이어 찾기
– 정리

8장 공간 시각화
– 무엇을 볼 것인가
– 위치 특정
– 영역
– 시간과 공간에 따라
– 정리

9장 목적에 맞는 디자인
– 자신을 위한 준비
– 독자를 위한 준비
– 시각적 신호
– 훌륭한 시각화
– 정리

 

This entry was posted in Reading. Bookmark the permalink.

댓글 남기기