거의 비슷한 데이터처럼 보인다.

 

 

거의다 유사한 데이터인 것 같았는데 시각화 해보니 다르게 보였다.

가시화를 왜 해야 하는지 보여주는 데이터이다.

단순하게 그림으로 본다 이런게 아니라 데이터의 신뢰성을 상승시키는 작업이 데이터 시각화이다.

 

 

x좌표는 연도 y 좌표는 합산된 값

사용자 입장에서는 이 그래프는 무엇을 말하는지 모를 수 있다. 색깔이 다 똑같기 때문에

 

그래서 하나하나 옵션을 집어넣어 보자.

 

col = y$continent : 대륙끼리는 다른 색깔로 칠해달라

 

모양을 바꿔보자. pch

pch = 몇 ## 으로 하면 하나의 모양으로 바뀐다.

pch = c(1:5) # 5개의 모양으로

pch = c(1:length(levels(y$continent))) # 만약 5개로 끝나지 않고 계속 바뀔거 같으면 levels을 이용할 수 있다. 

 

그럼 초록색은 뭐고 세모는 뭐지?

범례를 추가해야 한다.

legend

 

데이터를 가지고 가치를 가질 수 있게, 신뢰도를 높이기 위해 데이터 시각화를 사용한다.

 

  1. 직관적으로
  2. 핵심을 명확하게
  3. 경향과 이상값 확인
  4. 데이터의 문제점

 

gdp, 기대수명, 인구수의 항목의 범위 특징을 확인해보자.

 

plot(gapminder$gdpPercap, gapminder$lifeExp, col=gapminder$continent)
legend("bottomright", legend = levels(gapminder&continent)), pch=c(1:length(levels(gapminder$continent))), col=c(1:length(levels(y$continent))))

legend("범례의 위치", legend = 어떤 범례?)

 

그러나 이 그래프는 기호가 구분이 안되어 있다.

plot 에다가 pch를 추가해주면 된다.

 

그래프가 앞부분에 너무 몰려있다. 

이럴 때는 log를 사용한다.

 

 log scale 

plot(log10

 

 ggplot 

ggplot은 더 다양한 옵션값이 있다.

범례를 자동으로 나타내어 준다.

 

size = pop을 이용하면 크기에 따라 마커가 커진다.

 

투명도는 50%로 놓겠다. alpha = 0.5

 

 

 

관측연도 속성대로 보려면?

facet_wrap(~year)

 

어떠한 범례가 얼마만큼의 사이즈인지 알려주는 범례도 자동으로 추가된다.

 

 

 비교/순위 

데이터를 가로축에 놓으면? 글자가 겹쳐서 보기가 힘들다.

따라서 다른 시각으로 보기 위해서 x축 y축으로 바꾼다.

 

 로그 스케일 

reorder() : 재정렬

geom_bar() : 막대그래프

scale_y_log10() : 데이터가 구분이 안돼서 로그 스케일 씌운다.

coard_flip() : x축 y축 변경

 

 변화 추세 

 

투명도 alpha

geom_smooth() : 추세선

 

 분포, 구성비율 

 

 

boxplot은 이상한 값을 제거하거나 확인하는 데에도 사용할 수 있다.

 

 상관관계 

 

 

 

 plot() 

type = "l" # line 선

type = "p" # point 점

 

type = "b" # both 점 선 둘다

 

type = "h" # histogram 히스토그램

 

 pie, barplot() 

 

 

 matplot() 

matplot 함수는 벡터나 행렬의 데이터를 사용해서 다중 플롯을 구현하는데에 유용하다.

여러개의 플롯이 하나의 그래프를 나타낼 수 있다.

범례를 써야한다.

 

 hist() 

벨런스와 분포를 확인하는 히스토그램

 

 트리맵 

사각형 타일의 형태로 나타난다.

비율과 크기를 나타낼 수 있다.

데이터에 존재하는 계층구조로 표현된다.

 

 

 모자이크 플롯 

 

 

복사했습니다!