[关闭]
@Macux 2015-12-01T06:44:40.000000Z 字数 6347 阅读 1310

R语言_基础篇

R语言_学习笔记



Part 1:入门

1、在ubuntu下安装R

  1. sudo apt-get install r-base
  2. #可能需要取得现取得ROOT权限:su→"input your password"→ok;

2、在ubuntu下安装RStudio:
参看帖子

3、安装R包

  1. >install.packages("包名") #引号不可省略

4、加载R包

  1. >library(包名) #此处无引号

Part 2:数据结构(※)

1、向量。(R中处理数据的最基本的单位)

  1. > x <- c(1,2,3,4)
  2. [1] 1 2 3 4
  3. > y <-append(x,99,after=2)
  4. # after=2表示在向量x的第三个元素位置插入99。
  5. [1] 1 2 99 3 4
  1. > x <- c(1,2,4,5,6)
  2. > x[c(1,3)] #extract elements 1 and 3 of x
  3. > x[1:3] #extract elements 1 throuth 3 of x
  4. > x[-2] #exclude element 2
  1. > seq(from=12,to=30,by=3) #生成首项为12,末项为30,等差为3的等差数列。
  2. > seq(from=12,to=30,length.out=100)
  3. #生成首项为12,末项为30,个数为100个的等差数列。
  4. > rep(c(1,4,1,5),5)
  5. #将向量(1,4,1,5)重复5次
  6. > 3:15
  7. #生成3到15之间的整数
  1. > x <- c(1:10)
  2. > any(x>5)
  3. [1] TRUE
  4. > all(x>5)
  5. [1] FALSE

(1)、subset()输出的符合筛选条件的元素值;

  1. > x <- c(1,2,3,4,6)
  2. > subset(x,x>4)
  3. [1] 6

(2)、which()输出的符合筛选条件的位置;

  1. > x <- c(1,2,3,4,6)
  2. > which(x>4)
  3. [1] 5

两者都是用于筛选,更为常用的是subset()

(3)、ifelse()类似于常见的if-then-else结构;

  1. > x <- c(1,2,3,5,6)
  2. > ifelse(x>5,2*x,10*x) #x>5是一个布尔值向量,该函数返回的是向量。
  3. [1] 10 20 30 50 12

2、矩阵

  1. >ko <- matrix(c(1,2,4,5,7,9),2,3)
  2. #第一个“2”表示行数,第二个“3”表示列数。矩阵默认是按列存储。
  1. >ko <- matrix(c(1,2,4,5),2,2)
  2. >t(ko) #转置矩阵ko
  3. >solve(ko) #对矩阵ko求逆
  4. >po <- matrix(c(3,1,1,1),2,2)
  5. >po %*% ko #矩阵po与矩阵ko相乘
  6. >diag(n) #生成一个n阶的单位矩阵

3、列表

  1. #最简单创建列表的方法
  2. > list(1,2,3)
  3. [[1]]
  4. [1] 1
  5. [[2]]
  6. [1] 2
  7. [[3]]
  8. [1] 3
  9. #也可以对列表的各组件设置标签,例如:
  10. > list(ke=1,ko=2,lo=3)
  11. $ke
  12. [1] 1
  13. $ko
  14. [1] 2
  15. $lo
  16. [1] 3
  1. > k <- list(a=1,b=2)
  2. > k
  3. $a
  4. [1] 1
  5. $b
  6. [1] 2
  7. > k$c <- 4 #为列表k添加一个新的组件
  8. > k
  9. $a
  10. [1] 1
  11. $b
  12. [1] 2
  13. $c
  14. [1] 4
  15. > k$b <- NULL #删除列表k中的某一组件
  16. > k
  17. $a
  18. [1] 1
  19. $c
  20. [1] 4
  1. > unlist(k)
  2. a c
  3. 1 4
  1. > k1 <- list(a=c(1:9),b=c(2:10),c=c(7:13))
  2. > k1
  3. $a
  4. [1] 1 2 3 4 5 6 7 8 9
  5. $b
  6. [1] 2 3 4 5 6 7 8 9 10
  7. $c
  8. [1] 7 8 9 10 11 12 13
  9. > lapply(k1,mean)
  10. $a
  11. [1] 5
  12. $b
  13. [1] 6
  14. $c
  15. [1] 10

当lapply()返回的列表可以转化为矩阵或向量时,就可以使用sapply()。例如:

  1. > lapply(k1,mean)
  2. $a
  3. [1] 5
  4. $b
  5. [1] 6
  6. $c
  7. [1] 10
  8. > sapply(k1,mean)
  9. a b c
  10. 5 6 10
  11. #想要更简单,可以用unname()把元素名也去掉。
  12. > op <- sapply(k1,mean)
  13. > unname(op)
  14. [1] 5 6 10

4、数据框
用R做数据分析时,数据存储的类型都是数据框。

  1. # 注意输出的形式
  2. > dr <- data.frame(kids,ages)
  3. > dr
  4. kids ages
  5. 1 jack 12
  6. 2 jim 13
  7. > ko1 <- as.matrix(dr)
  8. > ko1
  9. kids ages
  10. [1,] "jack" "12"
  11. [2,] "jim" "13"
  1. > dfrmo <- data.frame(C1=v1,C2=v2,C3=v3,C4=f1,C5=f2)
  2. #v1,v2,v3为向量,f1和f2为因子。
  3. #C1~C5是数据框每一列的列名。
  4. #有一种很重要的参数:stringAsFactor,默认是TRUE,即当用字符向量创建数据框时,R会讲向量转换为“因子(factor)”
  1. > subset(dfrmo,select=c(col1,...,colk),subset=(kobe>81))
  2. #subset=(kobe>81)表示逻辑表达式。
  3. #select=c(col1,...,colk)表示要返回的是哪些列。

PS:筛选数据库的子集时,还可以参考更高大上的ddply()函数。(来自plyr包,详见《ggplot2》P165)

  1. > attach(dfrmo) #将数据框dfrmo添加到R的搜索路径
  2. #假设数据框dfrmo中有一列是Geo <- c(1,2,3,4,5),现在想把它拿出来,只需要:
  3. > ki <- Geo #此处已不需要dfrmo$Geo
  1. > dfrmo <- as.data.frame(mat)
  2. #mat可以是一个矩阵或是列表,现将其转换成数据框,并赋给变量dfrmo
  3. > colnames(dfrmo) <- c("lakers","spurs","clippers")
  4. #修改数据框dfrmo的列名

更高大上的修改列名(变量名)的方法

  1. 使用reshape包中的rename()函数
  2. > library(reshape)
  3. > states <- rename(states,c(Income = "Salary" )) #将数据框states中变量Income的名称改为Salary。
  1. > temp <- edit(dfrmo)
  2. # 此时会弹出编辑器窗口。待修改完成后,edit函数会把更新后的数据框赋给temp,但原数据框dfrmo未被修改。
  3. > dfrmo <- temp
  4. # Overwrite only if you're happy with the changes!
  1. 更为简单的修改数据框的方法:
  2. > fix(dfrmo)
  3. # 调用fix()函数启动修改器,它会自动保存修改结果并覆盖原数据框。但是一旦修改,就没有办法撤销。
  1. > clean <- na.omit(dfrmo)
  2. #把数据框dfrmo中含有NA值的那一行移除,并将新的数据框赋给clean.
  1. > bryant <- subset(dfrmo,select = -james)
  2. # All colums except james
  1. > kobebryant <- cbind(kobe,bryant)
  2. #按列合并。当两个数据框行数一样时,选择cbind
  3. > kobebryant <- rbind(kobe,bryant)
  4. #按行合并。当两个数据框的列数一样,且每一列分别对应同一属性,例如age,gender等时,选择rbind.

(1)、split()

  1. # 对数据框中的某一列进行分类。方法是利用因子来对向量进行分类,因子多为同一数据框的另一列。
  2. #该函数返回的是一个向量列表,列表的tag是因子名称。
  3. > group <- split(Cars$city,Cars$Origin) #Cars$Origin是因子

(2)、apply()

  1. #将函数应用于每行
  2. > apply(mat/dfrm,1,fun)
  3. #将函数应用于每列
  4. > apply(mat/dfrm,2,fun)
  5. #这里所调用的函数fun,都是以Vector作为参数的.

(3)、tapply()

  1. #将某一数据框中的某一列数据(连续型变量),按照另一列分组因子(名义型变量)进行分组,并传递给函数fun.
  2. > tapply(x,f,fun)
  3. #x为向量,f为分组因子,fun是以Vector为参数的函数

(4)、by()

  1. #它与tapply()最大的不同在于,它可以接收数据框或列表对象。
  2. > by(dfrm,fact,fun) #一般来说,因子也是源于原数据框dfrm.
  1. > m <- merge(df1,df2,by="name")
  2. #name是数据框df1和df2共有列的列名。

5、因子

  1. > Diabetes <- c("Type1","Type2","Type1","Type1")
  2. > Diabetes <- factor(Diabetes)
  3. #该语句将向量存储为(1,2,1,1),并在内部将其关联为1=Type1,2=Type2。
  4. > status <- c("Poor","Improved","Excellent","Poor")
  5. > status <- factor(status,ordered=TRUE)
  6. #该语句将向量存储为(3,2,1,3),并在内部将这些值关联为1=Excellent、2=Improved、3=Poor

对于因子概念的理解:
R在处理数据时,实质还是要回归原始,处理“0”和“1”这种二进制的数值型数据。引入“因子”,是为了说明在某些时候,数字并不是一般意义上的数字,例如名义型的数据,它们仅表示不同的类,故又称之为分类变量(categorical variable)

(1)、将一个字符串向量或数值向量,转换为因子。

  1. > lakers <-factor(c("kobe","fisher","kobe","paul"))
  2. > lakers
  3. [1] kobe fisher kobe paul
  4. Levels: kobe fisher paul

(2)、有几组数据,每组包含一个向量。先对这些向量合并成一个长向量并且同时创建一个平行向量来识别每个值的原始组。

  1. > comb <-stack(list(fresh=freshmen,soph=sophomores,jrs=juniors)) #stack()函数将列表合并为一个两列的数据框,两个列分别为values和ind。第一列包含数据,第二列包含它的平行因子。
  2. > print(comb)
  3. values ind
  4. 1 0.60 fresh
  5. 2 0.35 fresh
  6. 3 0.71 soph
  7. 4 0.38 soph
  8. 5 0.19 jrs
  9. 6 0.58 jrs

(3)、一个很有用的函数table()

  1. > table(Type)
  2. Type
  3. Compact Large Midsize Small Sporty Van
  4. 16 11 22 21 14 9

向量Type是一个因子,table()函数可以统计不同因子的频数。这在描述性统计和绘制拼图、条形图时,相当好用!!
6、不同结构化数据类型间的转换

  1. #向量篇
  2. h <- as.list(vec) #建立列表
  3. h <- matrix(vec,n,m) #建立n x m矩阵
  4. h <- as.data.frame(vec) #建立一列数据框
  5. h <- as.data.frame(rbind(vec)) #建立一行数据框
  6. #矩阵篇
  7. j <- as.vector(mat)
  8. j <- as.list(mat)
  9. j <- as.data.frame(mat)
  10. #列表篇
  11. k <- unlist(lst) #列表向向量
  12. k <- matraix(lst,n,m) #建立n x m矩阵
  13. k <- as.data.frame(lst) #将列表元素作为数据框列
  14. #数据框篇
  15. l <- as.vector(as.matrix(dfrm))
  16. #抽取数据框dfrm的所有元素,并使其成为一个长向量。
  17. l <- as.list(dfrm)
  18. l <- as.matrix(dfrm)

Part 3:读取数据

  1. > dfrm <- read.table("statistic.txt",header=TRUE)
  2. #header=TRUE 表示该数据有标题行。
  3. #若想防止read.table函数把字符串变量转化为因子,可以设置参数stringAsFactor=FALSE.
  1. > tbl <- read.csv("table-name.csv",header=TRUE)
  2. #可以设置参数as.is=TRUE(默认是FALSE),使字符型向量不被R视为Factor。
  1. > tbl <- read.csv("http://www.example.com/download.data.csv")
  1. > library(XML)
  2. > url <- 'http://en.wikipedia.org/wiki/World_population'
  3. > tbls <- readHTMLTable(url,which=k)
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注