Web开发

注册

 

发新话题 回复该主题

大数据分析R和RStudio使用指南 [复制链接]

1#

在大数据分析R和RStudio使用指南中,我们将学习如何使用RStudio开始使用R进行编程。我们将安装R和RStudioRStudio,这是R的非常流行的开发环境。我们将学习RStudio的关键功能,以便自己开始在R中进行编程。

如果您已经知道如何使用RStudio,并且想学习一些技巧,窍门和快捷方式,请查看此AAA教育文章。

目录

1.安装R

2.安装RStudio

3.首先看一下RStudio

4.控制台

5.全球环境

6.安装tidyverse软件包

7.将tidyverse软件包加载到内存中

8.识别装载的包裹

9.获取有关包装的帮助

10.获取功能帮助

11.RStudio项目

12.保存您的“真实”工作。删除其余的。

13.R脚本

14.运行代码

15.访问内置数据集

16.风格

17.具有RMarkdown的可复制报告

18.使用RStudioCloud

RStudio入门

RStudio是用于在R中进行编程的开源工具。RStudio是一种灵活的工具,可帮助您创建可读的分析,并将代码,图像,注释和图形保持在一个地方。值得了解RStudio在R中进行数据分析和编程的功能。

使用RStudio在R中进行数据分析和编程具有许多优点。以下是RStudio提供的一些示例:

1)直观的界面使我们能够跟踪保存的对象,脚本和图形

2)具有颜色编码语法等功能的文本编辑器,可帮助我们编写简洁的脚本

3)自动完成功能可节省时间

4)用于创建包含项目代码,注释和视觉效果的文档的工具

5)专用的Project文件夹可将所有内容保存在一个地方

RStudio还可以用于以其他语言进行编程,包括SQL,Python和Bash等。

但是在安装RStudio之前,我们需要在计算机上安装R的最新版本。

一、安装R

R是可从下载官方R网站。查找网页的此部分:

要下载的R版本取决于我们的操作系统。下面,我们包括MacOSX,Windows和Linux(Ubuntu)的安装说明。

MACOSX

1)选择DownloadRfor(Mac)OSX选项。

2)查找R的最新版本(新版本会频繁发布并显示在页面顶部),然后单击.pkg文件进行下载。

3)打开.pkg文件,然后按照标准说明在MACOSX上安装应用程序。

4)将R应用程序拖放到该Applications文件夹中。

视窗

1)选择DownloadRforWindows选项。

2)选择base,因为这是我们在计算机上的第一个R安装。

3)请按照标准说明安装Windows程序。如果要求我们选择CustomizeStartup或AcceptDefaultStartupOptions,请选择默认选项。

Linux/Ubuntu

1)选择DownloadRforLinux选项。

2)选择Ubuntu选项。

3)选择与您相关的Linux软件包管理系统Ubuntu。

RStudio与R的许多版本兼容(R版本3.0.1或更高版本,截至年7月)。与RStudio分开安装R后,用户可以选择适合他们需要的R版本。

二、安装RStudio

现在已经安装了R,我们可以安装RStudio。

当我们到达RStudio下载页面时,让我们单击RStudioDesktopOpenSourceLicenseFree选项的“下载”按钮:

通常会自动检测到我们的操作系统,因此我们可以通过单击“下载RStudio”按钮直接为我们的计算机下载正确的版本。如果我们要为另一个操作系统(而不是正在运行的操作系统)下载RStudio,请向下导航至页面的“所有安装程序”部分。

三、首先看一下RStudio

首次打开RStudio时,我们可能会看到这样的布局:

但是背景颜色将是白色,因此不要期望在RStudio首次启动时看到这种蓝色背景。以了解如何自定义RStudio的外观。

当我们打开RStudio时,也会启动R。新用户经常犯的一个错误是打开R而不是RStudio。要打开RStudio,请在桌面上搜索RStudio,然后将RStudio图标固定在首选位置(例如,桌面或工具栏)。

四、控制台

让我们从介绍Console的一些功能开始。这Console是RStudio中的一个标签,我们可以在其中运行R代码。

请注意,在控制台位于窗玻璃包含三个选项卡:Console,Terminal和Jobs(这可能取决于所使用的版本RStudio的)。我们现在将重点放在Console。

当我们打开RStudio时,控制台包含有关我们正在使用的R版本的信息。向下滚动,然后尝试键入一些这样的表达式。按Enter键查看结果。

如我们所见,我们可以使用控制台立即测试代码。当我们输入类似的表达式时1+2,在按下Enter键后,我们将在下面看到输出。

我们可以将此命令的输出存储为变量。在这里,我们将变量命名为result:

在-被称为赋值运算符。该运算符将值分配给变量。上面的命令被翻译成以下句子:

该result变量的值为一加二。

RStudio的一项不错的功能是用于键入分配运算符的键盘快捷键-:

1)MacOSX:Option+-

2)Windows/Linux:Alt+-

我们强烈建议您记住此键盘快捷键,因为从长远来看,它可以节省大量时间!

当我们result在控制台中键入内容并按Enter键时,我们将看到的存储值3:

当我们在RStudio中创建变量时,会将其另存为R全局环境中的对象。在下一节中,我们将讨论环境以及如何查看存储在环境中的对象。

五、全球环境

我们可以将全球环境视为我们的工作空间。在R中进行编程时,我们定义的任何变量或导入并保存在数据框中的数据都存储在我们的全局环境中。在RStudio中,我们可以Environment在界面右上角的标签中查看全局环境中的对象:

我们会result在Environment标签中的值下看到所有创建的对象,例如。注意,将3显示存储在变量中的值。

有时,全局环境中的命名对象太多会造成混乱。也许我们想删除全部或部分对象。要删除所有对象,请单击窗口顶部的扫帚图标:

要从工作空间中删除选定的对象,请从下拉菜单中选择“网格”视图:

在这里,我们可以选中要删除的对象的框,然后使用扫帚图标将其清除GlobalEnvironment。

六、安装tidyverse软件包

R中的许多功能来自使用软件包。包是代码,数据和文档的可共享集合。软件包本质上是我们上面安装的R程序的扩展或附件。

R中最受欢迎的软件包集合之一被称为“tidyverse”。tidyverse是为处理数据而设计的R程序包的集合。tidyverse软件包具有共同的设计理念,语法和数据结构。Tidyverse包“一起玩”。使用tidyverse,您可以花费更少的时间来清理数据,从而可以将更多的精力放在分析,可视化和建模数据上。

让我们学习如何安装tidyverse软件包。最常见的“核心”tidyverse软件包是:

1)readr,用于数据导入。

2)ggplot2,用于数据可视化。

3)dplyr,用于数据操作。

4)tidyr,用于数据整理。

5)purrr,用于函数式编程。

6)tibble,对于小标题,是对数据帧的现代重新构想。

7)stringr,用于字符串操作。

8)forcats,用于处理因素(分类数据)。

要在R中安装软件包,我们使用内置install.packages()功能。我们可以一一安装上面列出的软件包,但是幸运的是,tidyverse的创建者提供了一种通过单个命令安装所有这些软件包的方法。在控制台中键入以下命令,然后按Enter键。

该install.packages()命令仅需要用于首次下载和安装软件包。

七、将tidyverse程序包加载到内存中

将软件包安装到计算机的硬盘驱动器上之后,该library()命令用于将软件包加载到内存中:

使用将包加载到内存中可以library()使给定包的功能可在当前R会话中使用。R用户通常在其硬盘驱动器上安装数百个R软件包,因此一次加载所有软件包效率低下。相反,我们指定特定项目或任务所需的R包。

幸运的是,核心tidyverse软件包可以通过一个命令加载到内存中。这是命令和输出在控制台中的外观:

Attachingpackages输出的部分指定了软件包及其装入内存的版本。本Conflicts节指定了我们刚刚加载到内存中的程序包中包含的任何函数名,这些函数名与已经加载到内存中的函数具有相同的名称。使用上面的示例,现在如果我们调用filter()函数,R将使用dplyr软件包中为此函数指定的代码。这些冲突通常不是问题,但是值得阅读输出消息以确保。

八、识别装载的包裹

如果需要检查加载了哪些软件包,可以参考控制台右下角窗口中的“软件包”选项卡。

我们可以搜索软件包,然后选中软件包旁边的框以加载它(代码显示在控制台中)。

或者,在控制台中输入以下代码将显示当前已加载到内存中的所有软件包:

哪个返回:

返回当前加载到内存中的软件包名称的另一个有用的函数是search():

九、获取有关包装的帮助

我们已经学习了如何安装和加载软件包。但是,如果我们想了解有关已安装软件包的更多信息该怎么办?这很简单!单击Packages选项卡中的程序包名称会将我们带到Help所选程序包的选项卡。如果单击该tidyr包,我们将看到以下内容:

或者,我们可以在控制台中键入以下命令并获得相同的结果:

软件包的帮助页面提供了对软件包中每个功能的文档的快速访问。在软件包的主要帮助页面上,您还可以在可用的“小插图”上进行访问。小插图提供了有关软件包或如何使用软件包中特定功能的简要介绍,教程或其他参考信息。

产生以下可用选项列表:

从那里,我们可以选择一个特定的小插图来查看:

现在,我们看到“透视图”小插图显示在Help选项卡中。这就是为什么RStudio是使用R进行编程的强大工具的一个示例。我们可以在不离开RStudio的情况下访问功能和软件包文档以及教程!

十、获取功能帮助

正如我们在上一节中了解到的那样,我们可以通过单击中的包名称Packages,然后单击功能名称以查看帮助文件来获得有关功能的帮助。在这里,我们看到包中的pivot_longer()函数tidyr在此列表的顶部:

如果单击“pivot_longer”,则会得到以下信息:

Console使用以下任何函数调用,我们都可以达到相同的结果:

请注意,如果包含该功能的软件包尚未加载到内存中Help,则该pivot_longer()功能(或我们感兴趣的任何功能)的特定选项卡可能不是默认结果。通常,最好在寻求功能帮助之前确保已加载特定的程序包。

十一、RStudio项目

RStudio提供了强大的功能,可让您保持井井有条;项目。在进行多个分析时,保持有条理很重要。RStudio的项目使您可以将所有重要工作放在一个地方,包括代码脚本,绘图,图形,结果和数据集。

导航到FileRStudio中的选项卡,然后选择,创建一个新项目NewProject...。然后指定您是否要在新目录或现有目录中创建项目。在这里,我们选择“新目录”:

如果您使用的是R软件包或ShinyWeb应用程序,则RStudio提供专用的项目类型。在这里,我们选择“NewProject”,它将创建一个R项目:

接下来,我们给我们的项目起一个名字。“将项目创建为:的子目录”显示文件夹在计算机上的位置。如果我们批准该位置,请选择“创建项目”,否则请选择“浏览”,然后在计算机上选择该项目文件夹所在的位置。

现在在RStudio中,我们看到项目的名称显示在屏幕的右上角。我们还在选项卡中看到该.Rproj文件Files。我们添加到该项目或在该项目内生成的任何文件将显示在Files选项卡中。

当您需要与同事共享工作时,RStudio项目非常有用。您可以将项目文件(以结尾.Rproj)与所有支持文件一起发送,这将使您的同事更轻松地重新创建工作环境并重现结果。

十二、保存您的“真实”工作。删除其余的。

该技巧来自我们的23个RStudio技巧,窍门和快捷方式文章文章,但它非常重要,因此我们也在这里分享它!

练习良好的内务管理,避免将来遇到不可预见的挑战。如果创建值得保存的R对象,大数据分析R和RStudio使用指南

分享 转发
TOP
发新话题 回复该主题