#dplyr 패키지
library(dplyr)
#distinct() 함수로 유니크한 값 추출하기
#distinct(데이터, 컬럼) 입력 시 입력한 컬럼의 유니크 값만 추출한다.
> test id test1 test2 1 1 10 25 2 2 10 35 3 3 20 25 4 4 30 35 5 5 30 45 |
#test1에서 중복된 값은 모두 제거하고 유니크한 값만 표시한다.
distinct (test, test1)
test1 1 10 2 20 3 30 |
#id와 test1의 값을 모두 체크해서 유니크 한 값만 표시한다.
distinct (test, id, test1)
id test1 1 1 10 2 2 10 3 3 20 4 4 30 5 5 30 |
####
#base 패키지의 unique() 함수와 duplicated() 함수도 유사하게 사용할 수 있다.
#하지만 dplyr의 distinst() 함수가 더 쓰기 편하다.
>test id test1 test2 1 1 10 25 2 2 10 35 3 3 20 25 4 4 30 35 5 5 30 45 6 5 30 45 |
#unique() 함수는 중복된 값을 제거하고 보여준다.
unique(test)
id test1 test2 1 1 10 25 2 2 10 35 3 3 20 25 4 4 30 35 5 5 30 45 |
#duplicated() 함수는 중복된 행이 있는지 TRUE / FALSE로 알려준다.
duplicated(test)
[1] FALSE FALSE FALSE FALSE FALSE TRUE |
#unique() 함수로 특정 컬럼의 중복 값을 제거해서 볼 경우는 다음과 같다
unique(test[,"test1"])
[1] 10 20 30 |
'데이터분석 > R' 카테고리의 다른 글
[R 프로그래밍] 데이터 보기 - table() 함수 (0) | 2018.09.01 |
---|---|
[R 프로그래밍] dplyr 패키지 함수들 (0) | 2018.09.01 |
[R 프로그래밍] 데이터 프레임 생성 시 stringsAsFactors 옵션 사용하기 (0) | 2018.09.01 |
[R 프로그래밍] 데이터 가공 - 데이터 합치기 : left_join(), bind_rows() (dplyr) (1) | 2018.09.01 |
[R 프로그래밍] 데이터 가공 - 그룹 별로 나눠서 요약 정보 보기 group_by(), summarise() (dplyr) (0) | 2018.08.26 |