본문 바로가기

데이터분석/R

[R 프로그래밍] 데이터 가공 - distinct() 함수로 유니크한 값 추출하기 (dplyr)

#dplyr 패키지

library(dplyr)


#distinct() 함수로 유니크한 값 추출하기

#distinct(데이터, 컬럼) 입력 시 입력한 컬럼의 유니크 값만 추출한다.


> test

  id test1 test2

1  1    10    25

2  2    10    35

3  3    20    25

4  4    30    35

5  5    30    45 


#test1에서 중복된 값은 모두 제거하고 유니크한 값만 표시한다.

distinct (test, test1)

  test1

1    10

2    20

3    30 


#id와 test1의 값을 모두 체크해서 유니크 한 값만 표시한다.

distinct (test, id, test1)

  id test1

1  1    10

2  2    10

3  3    20

4  4    30

5  5    30 





####

#base 패키지의 unique() 함수와 duplicated() 함수도 유사하게 사용할 수 있다.

#하지만 dplyr의 distinst() 함수가 더 쓰기 편하다.


>test

 id test1 test2

1  1    10    25

2  2    10    35

3  3    20    25

4  4    30    35

5  5    30    45

6  5    30    45


#unique() 함수는 중복된 값을 제거하고 보여준다.

unique(test)

  id test1 test2

1  1    10    25

2  2    10    35

3  3    20    25

4  4    30    35

5  5    30    45 


#duplicated() 함수는 중복된 행이 있는지 TRUE / FALSE로 알려준다.

duplicated(test)

[1] FALSE FALSE FALSE FALSE FALSE  TRUE 


#unique() 함수로 특정 컬럼의 중복 값을 제거해서 볼 경우는 다음과 같다

unique(test[,"test1"])

[1] 10 20 30