본문 바로가기

분류 전체보기

[R 프로그래밍] 데이터 가공 - 데이터 합치기 : left_join(), bind_rows() (dplyr) #dplyr 패키지의 left_join() 및 bind_rows()를 사용해서 열 및 행 합치기library(dplyr) #특정 컬럼을 기준으로 열 합치기 #left_join()을 사용해서 class컬럼을 기준으로 데이터 합치기#아래 테이블을 class를 기준으로 합쳐보자 > math_test_total class midterm final1 1 88 782 2 75 853 3 78 684 4 77 795 5 96 86 > class_name class name1 1 햇님반2 2 달님반3 3 별님반4 4 꽃님반5 5 풀님반 #left_join(테이블A, 테이블B, by="기준으로 삼을 컬럼 명")#math_test_total 테이블과 class_name을 class기준으로 합치려면 다음과 같이 입력한다.m.. 더보기
통계교육원 R기초 - 1일차 통계청 통계교육원에서 하는 R기초 인강나중에 찾아보는 용도로 기록. R studio를 많이 쓰지만 비주얼스튜디오에서도 R 지원. 텍스트 마이닝용 패키지 - 영어 -> tm- 한글 KoNLP 참고 사이트https://www.statmethods.net/https://www.r-bloggers.com/ 커뮤니티https://m.facebook.com/groups/krstudyhttps://m.facebook.com/groups/koreaRusers R기초 강의 유튜브 - 영어https://m.youtube.com/playlist?list=PLqzoL9-eJTNBDdKgJgJzaQcY6OXmsXAHU R기초 강의 유튜브 - 한글https://m.youtube.com/playlist?list=PLFe6bHk0e.. 더보기
[R 프로그래밍] 데이터 가공 - 그룹 별로 나눠서 요약 정보 보기 group_by(), summarise() (dplyr) #group_by()#데이터를 그룹 별로 묶기#데이터에서 특정 컬럼을 지정해서 그룹 별로 묶을 수 있다. #dataSample에서 class 별로 묶기dataSample %>% group_by(class)> exam %>% group_by(class)# A tibble: 20 x 5# Groups: class [5] id class math english science 1 1 1 50 98 50 2 2 1 60 97 60 3 3 1 45 86 78 4 4 1 30 98 58 5 5 2 25 80 65... -> A ttible : 데이터가 5열, 20행으로 이루어졌다는 것을 표시-> Group : class별 그룹이 5개가 생긴다. 그룹을 나눠서 보여주지는 않지만...group_by()는 출력한 결과를 .. 더보기
[R 프로그래밍] 데이터 가공 - 컬럼 추가하기 : mutate() (dplyr) 1. 기본 함수로 열 추가하기#기본 함수로 열을 추가할 수 있다.#기존 데이터 연산해서 열 추가하기dataSample$total % mutate ( total = AAA + BBB + CCC) #여러 개의 컬럼을 추가할 때는 콤마로 구분한다.dataSample %>% mutate ( total = AAA + BBB + CCC, mean = (AAA + BBB + CCC)/3 ) head(3) #mutate 함수를 쓰고 = 100, "pass","fail")) %>% arrange(test) %>% head dplyr 패키지의 함수를 사용할 경우 컬럼 이름만 입력해서 사용한다.기본 함수는 dataSample$AAA 라고 쓴다면, dplyr패키지의 함수들을 사용하면 AAA만 사용해도 됨 더보기
[R 프로그래밍] 데이터 가공 - arrange()로 정렬하기 (dplyr) #dplyr패키지를 사용함library(dplyr) #arrange()를 이용해서 AAA 컬럼 값 순서대로 정렬하기 (오름차순)dataSample %>% arrange(AAA) #내림차순으로 하려면 desc()를 적용하자dataSample %>% arrange(desc(AAA)) #콤마로 여러 개 지정 가능dataSample %>% arrange(AAA,BBB)--> AAA를 기준으로 오름차순으로 정렬 후, 그 안에서 BBB를 기준으로 오름차순 정렬--> AAA를 기준으로 정렬하되, 값이 같을 경우 BBB를 기준으로 정렬한다. #arrange도 다른 dplyr패키지의 명령어와 조합해서 사용 가능examName %>% filter (클래스 == 2) %>% arrange(desc(수학)) %>% head(.. 더보기
[R 프로그래밍] 데이터 가공 - select()로 필요한 변수만 추출하자 (dplyr) #dplyr 패키지 로드 필요library(dplyr) #select()는 데이터에 있는 수 많은 변수들 중 일부 변수만 추출해서 쓸 때 사용한다. #dataSample에서 AAA컬럼만 출력하기 (변수 추출하기)dataSample %>% select(AAA) #dataSample에서 여러 컬럼 출력하기 (여러 변수 추출하기)#dataSample에서 AAA,BBB,CCC컬럼을 출력해보자dataSample %>% select(AAA,BBB,CCC) #dataSample에서 특정 컬럼 제외하기 (특정 변수 제외하기)#dataSample에서 AAA컬럼을 제외하고 출력해보자dataSample %>% select (-AAA)#컬럼 이름이 한글이어도 문제없음dataSample %>% headnames(dataSamp.. 더보기
[R 프로그래밍] 컬럼 이름 바꾸기 : names(), rename() #name()을 사용해서 컬럼 이름 바꾸기 #library는 아래 두개 사용 중 library(ggplot2) library(dplyr) #examName 데이터에 id 컬럼의 이름이 "X...id"로 되어 있음 X...id class math english science 1 1 1 50 98 50 2 2 1 60 97 60 #X...id라니, 마음에 들지 않는다. examName의 컬럼 이름을 바꿔보자 #names 함수 사용 가능. #열 이름을 출력하기 names(examName) #아래와 같이 모든 이름의 컬럼을 바꿀 수 있다. #모든 컬럼의 이름 바꾸기. 단, 이 경우 입력하지 않는 컬럼은 NA로 표시된다. names(examName) test3 id midterm 1 6 30 2 7 40 #ren.. 더보기
[R 프로그래밍] 데이터 가공 - filter ()로 조건에 맞는 데이터 추출 (dplyr) dplyr 패키지를 통해 데이터 가공하기 # filter() : 조건에 맞는 데이터 추출 #dataSample 에서 aaa 컬럼의 값이 100 이상인 내용만 추출dataSample %>% filter ( aaa > 100 ) # --> 등호, 부등호를 이용해서 추출 가능# &와 |를 사용해서 and 조건과 or조건 지정 가능 # dataSample 에서 aaa가 1이고, bbb 컬럼 값이 50 이하거나 aaa컬럼 값이 2이고 ccc컬럼 값이 80 초과인 행만 추출dataSample %>% filter ((aaa == 1 & bbb 80)) #filter() 에서 부등호 말고, %in%과 c()조합으로 이용하기 #dataSample 에서 aaa 컬럼의 값이 1, 3, 4인 내용만 추출dataSample %.. 더보기
[R 프로그래밍] R에서 사용하는 연산자들 (논리 연산자, 산술 연산자) #조건을 지정할 때 쓰는 논리 연산자 = 크거나 같음== 같음!= 같지 않음| OR 연산자 (||가 아니라 |다)& AND 연산자 (&&가 아니라 &)%in% 매칭확인 #계산할 때 사용하는 산술 연산자+-*/ 사칙연산^ or ** 제곱%/% 나눗셈의 몫%% 나눗셈의 나머지 더보기
[R 프로그래밍] 평균 구하기, 머릿말만 보기...등 1. 평균 구하기#mean() 으로 평균 구할 수 있음#dataSample의 aaa컬럼 평균 구하기mean(dataSample$aaa) 2. 머릿말만 보기#head() 앞부분만 보기#dataSample의 앞부분만 출력head(dataSample) head의 경우 다른 dplyr패키지의 함수들과 %>%로도 조합할 수 있다. dataSample %>% head# 이렇게 하면 6줄만 나옴 dataSample %>% head(10)# 이렇게 하면 10줄만 나옴 dataSample %>% select(id) %>% head# 이렇게 하면 dataSample의 id만 추출해서 앞의 6줄만 보여준다. 3. 열 이름만 보기#names()의 경우에는 컬럼 이름만 볼 수 있다.names(dataSample) 더보기