본문 바로가기

데이터분석/R

[R 프로그래밍] 데이터 가공 - 컬럼 추가하기 : mutate() (dplyr) 1. 기본 함수로 열 추가하기#기본 함수로 열을 추가할 수 있다.#기존 데이터 연산해서 열 추가하기dataSample$total % mutate ( total = AAA + BBB + CCC) #여러 개의 컬럼을 추가할 때는 콤마로 구분한다.dataSample %>% mutate ( total = AAA + BBB + CCC, mean = (AAA + BBB + CCC)/3 ) head(3) #mutate 함수를 쓰고 = 100, "pass","fail")) %>% arrange(test) %>% head dplyr 패키지의 함수를 사용할 경우 컬럼 이름만 입력해서 사용한다.기본 함수는 dataSample$AAA 라고 쓴다면, dplyr패키지의 함수들을 사용하면 AAA만 사용해도 됨 더보기
[R 프로그래밍] 데이터 가공 - arrange()로 정렬하기 (dplyr) #dplyr패키지를 사용함library(dplyr) #arrange()를 이용해서 AAA 컬럼 값 순서대로 정렬하기 (오름차순)dataSample %>% arrange(AAA) #내림차순으로 하려면 desc()를 적용하자dataSample %>% arrange(desc(AAA)) #콤마로 여러 개 지정 가능dataSample %>% arrange(AAA,BBB)--> AAA를 기준으로 오름차순으로 정렬 후, 그 안에서 BBB를 기준으로 오름차순 정렬--> AAA를 기준으로 정렬하되, 값이 같을 경우 BBB를 기준으로 정렬한다. #arrange도 다른 dplyr패키지의 명령어와 조합해서 사용 가능examName %>% filter (클래스 == 2) %>% arrange(desc(수학)) %>% head(.. 더보기
[R 프로그래밍] 데이터 가공 - select()로 필요한 변수만 추출하자 (dplyr) #dplyr 패키지 로드 필요library(dplyr) #select()는 데이터에 있는 수 많은 변수들 중 일부 변수만 추출해서 쓸 때 사용한다. #dataSample에서 AAA컬럼만 출력하기 (변수 추출하기)dataSample %>% select(AAA) #dataSample에서 여러 컬럼 출력하기 (여러 변수 추출하기)#dataSample에서 AAA,BBB,CCC컬럼을 출력해보자dataSample %>% select(AAA,BBB,CCC) #dataSample에서 특정 컬럼 제외하기 (특정 변수 제외하기)#dataSample에서 AAA컬럼을 제외하고 출력해보자dataSample %>% select (-AAA)#컬럼 이름이 한글이어도 문제없음dataSample %>% headnames(dataSamp.. 더보기
[R 프로그래밍] 컬럼 이름 바꾸기 : names(), rename() #name()을 사용해서 컬럼 이름 바꾸기 #library는 아래 두개 사용 중 library(ggplot2) library(dplyr) #examName 데이터에 id 컬럼의 이름이 "X...id"로 되어 있음 X...id class math english science 1 1 1 50 98 50 2 2 1 60 97 60 #X...id라니, 마음에 들지 않는다. examName의 컬럼 이름을 바꿔보자 #names 함수 사용 가능. #열 이름을 출력하기 names(examName) #아래와 같이 모든 이름의 컬럼을 바꿀 수 있다. #모든 컬럼의 이름 바꾸기. 단, 이 경우 입력하지 않는 컬럼은 NA로 표시된다. names(examName) test3 id midterm 1 6 30 2 7 40 #ren.. 더보기
[R 프로그래밍] 데이터 가공 - filter ()로 조건에 맞는 데이터 추출 (dplyr) dplyr 패키지를 통해 데이터 가공하기 # filter() : 조건에 맞는 데이터 추출 #dataSample 에서 aaa 컬럼의 값이 100 이상인 내용만 추출dataSample %>% filter ( aaa > 100 ) # --> 등호, 부등호를 이용해서 추출 가능# &와 |를 사용해서 and 조건과 or조건 지정 가능 # dataSample 에서 aaa가 1이고, bbb 컬럼 값이 50 이하거나 aaa컬럼 값이 2이고 ccc컬럼 값이 80 초과인 행만 추출dataSample %>% filter ((aaa == 1 & bbb 80)) #filter() 에서 부등호 말고, %in%과 c()조합으로 이용하기 #dataSample 에서 aaa 컬럼의 값이 1, 3, 4인 내용만 추출dataSample %.. 더보기
[R 프로그래밍] R에서 사용하는 연산자들 (논리 연산자, 산술 연산자) #조건을 지정할 때 쓰는 논리 연산자 = 크거나 같음== 같음!= 같지 않음| OR 연산자 (||가 아니라 |다)& AND 연산자 (&&가 아니라 &)%in% 매칭확인 #계산할 때 사용하는 산술 연산자+-*/ 사칙연산^ or ** 제곱%/% 나눗셈의 몫%% 나눗셈의 나머지 더보기
[R 프로그래밍] 평균 구하기, 머릿말만 보기...등 1. 평균 구하기#mean() 으로 평균 구할 수 있음#dataSample의 aaa컬럼 평균 구하기mean(dataSample$aaa) 2. 머릿말만 보기#head() 앞부분만 보기#dataSample의 앞부분만 출력head(dataSample) head의 경우 다른 dplyr패키지의 함수들과 %>%로도 조합할 수 있다. dataSample %>% head# 이렇게 하면 6줄만 나옴 dataSample %>% head(10)# 이렇게 하면 10줄만 나옴 dataSample %>% select(id) %>% head# 이렇게 하면 dataSample의 id만 추출해서 앞의 6줄만 보여준다. 3. 열 이름만 보기#names()의 경우에는 컬럼 이름만 볼 수 있다.names(dataSample) 더보기
[R 프로그래밍] 컬럼 삭제하기 #avg 컬럼을 잘못 추가해서 삭제하려고 함. dataSample[,"avg"] 더보기
[R 프로그래밍] 기본 세팅, 맥에서 한글 사용하기 R프로젝트를 새로 연 후 기본 세팅 #패키지 인스톨 install.packages("이름") #라이브러리 사용 libaray("이름") #주로 쓰는 라이브러리 ggplot2 dplyr readxl - 엑셀 파일 읽기 writexl - 엑셀 파일에 쓰기 #주석처리는 #으로 함. #멀티라인 주석이 없다. 맥에서 사용하기 때문에 한글 지원이 잘 안되서 찾아봄. 메뉴에서 인코딩 변경 + 다음 세팅을 추가로 진행했더니 한글이 제대로 보인다. 한글 설정은 아래 블로그 참고함. http://r-bong.blogspot.com/2016/03/rstudio_26.html #현재 작업 공간의 인코딩 정보를 확인한다 localeToCharset() > localeToCharset() [1] "ASCII" 세팅 바꾸면 아래와.. 더보기
[R 프로그래밍] 시작 "Do it! 쉽게 배우는 R 데이터 분석" 책으로 시작 OSX에서 작업 중- R Studio 사용한다. 엑셀로 사용하다가 데이터가 많아지니 힘들어서 R을 알아보기 시작함.데이터 분석 도구로 R을 사용할 예정. 데이터 가공할 때 엑셀로 하니 느리다. R로 하면 빠르다고 하길래... 하면서 명령어들을 자꾸 까먹길래기록 용으로 만들었음 더보기