R 数据库

数据是关系数据库系统以规范化格式存储。 因此,要进行统计计算,我们将需要非常先进和复杂的Sql查询。 但R语言可以轻松地连接到许多关系数据库,如MySql,Oracle,Sql服务器等,并从它们获取记录作为数据框。 一旦数据在R语言环境中可用,它就变成正常的R语言数据集,并且可以使用所有强大的包和函数来操作或分析。在本教程中,我们将使用MySql作为连接到R语言的参考数据库。

RMySQL包

R语言有一个名为“RMySQL”的内置包,它提供与MySql数据库之间的本地连接。 您可以使用以下命令在R语言环境中安装此软件包。

  1. install.packages("RMySQL")

将R连接到MySql

一旦安装了包,我们在R中创建一个连接对象以连接到数据库。 它使用用户名,密码,数据库名称和主机名作为输入。

  1. # Create a connection Object to MySQL database.
  2. # We will connect to the sampel database named "sakila" that comes with MySql installation.
  3. mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila',
  4. host = 'localhost')
  5. # List the tables available in this database.
  6. dbListTables(mysqlconnection)

当我们执行上面的代码,它产生以下结果:

  1. [1] "actor" "actor_info"
  2. [3] "address" "category"
  3. [5] "city" "country"
  4. [7] "customer" "customer_list"
  5. [9] "film" "film_actor"
  6. [11] "film_category" "film_list"
  7. [13] "film_text" "inventory"
  8. [15] "language" "nicer_but_slower_film_list"
  9. [17] "payment" "rental"
  10. [19] "sales_by_film_category" "sales_by_store"
  11. [21] "staff" "staff_list"
  12. [23] "store"

查询表

我们可以使用函数dbSendQuery()查询MySql中的数据库表。 查询在MySql中执行,并使用R语言fetch()函数返回结果集。 最后,它被存储为R语言中的数据帧。

  1. # Query the "actor" tables to get all the rows.
  2. result = dbSendQuery(mysqlconnection, "select * from actor")
  3. # Store the result in a R data frame object. n = 5 is used to fetch first 5 rows.
  4. data.frame = fetch(result, n = 5)
  5. print(data.frame)

当我们执行上面的代码,它产生以下结果:

  1. actor_id first_name last_name last_update
  2. 1 1 PENELOPE GUINESS 2006-02-15 04:34:33
  3. 2 2 NICK WAHLBERG 2006-02-15 04:34:33
  4. 3 3 ED CHASE 2006-02-15 04:34:33
  5. 4 4 JENNIFER DAVIS 2006-02-15 04:34:33
  6. 5 5 JOHNNY LOLLOBRIGIDA 2006-02-15 04:34:33

带过滤条件的查询

我们可以传递任何有效的select查询来获取结果。

  1. result = dbSendQuery(mysqlconnection, "select * from actor where last_name = 'TORN'")
  2. # Fetch all the records(with n = -1) and store it as a data frame.
  3. data.frame = fetch(result, n = -1)
  4. print(data)

当我们执行上面的代码,它产生以下结果:

  1. actor_id first_name last_name last_update
  2. 1 18 DAN TORN 2006-02-15 04:34:33
  3. 2 94 KENNETH TORN 2006-02-15 04:34:33
  4. 3 102 WALTER TORN 2006-02-15 04:34:33

更新表中的行

我们可以通过将更新查询传递给dbSendQuery()函数来更新Mysql表中的行。

  1. dbSendQuery(mysqlconnection, "update mtcars set disp = 168.5 where hp = 110")

在执行上面的代码后,我们可以看到在MySql环境中更新的表。

将数据插入表中

  1. dbSendQuery(mysqlconnection,
  2. "insert into mtcars(row_names, mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb)
  3. values('New Mazda RX4 Wag', 21, 6, 168.5, 110, 3.9, 2.875, 17.02, 0, 1, 4, 4)"
  4. )

在执行上面的代码后,我们可以看到插入到MySql环境中的表中的行。

在MySql中创建表

我们可以在MySql中使用函数dbWriteTable()创建表。 如果表已经存在,它将覆盖该表,并将数据帧用作输入。

  1. # Create the connection object to the database where we want to create the table.
  2. mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila',
  3. host = 'localhost')
  4. # Use the R data frame "mtcars" to create the table in MySql.
  5. # All the rows of mtcars are taken inot MySql.
  6. dbWriteTable(mysqlconnection, "mtcars", mtcars[, ], overwrite = TRUE)

执行上面的代码后,我们可以看到在MySql环境中创建的表。

删除MySql中的表

我们可以删除MySql数据库中的表,将drop table语句传递到dbSendQuery()中,就像我们使用它查询表中的数据一样。

  1. dbSendQuery(mysqlconnection, 'drop table if exists mtcars')

执行上面的代码后,我们可以看到表在MySql环境中被删除。