新闻资讯
新闻资讯

【R语言】数据处理:飞机航行距离与到达延误时间有什么关系?_搜狐科技

原船驶往:[R释放宣言]资料处置:航班间隔与抵达推延暗说话中肯相干是什么?

超越半个的的录音剖析将破费在赚钱和替换上。,收录选择详述的剖析变量、总结并检查契合基准的录音。、排序、处置原始变量并创作新变量。、归类录音等。。这点,据我的观点块运用Excel的童鞋都是为大家所周知的。,写论文时,于此多的录音被处置。,手册摘要、检查、折算,装满太大了。。

本文实验采取一体健康状况。,熟练手法DPLYR一组提议的少量地公共用地效能简介。让咱们在在这一点上目前的少量地提议。,迎将陪伴拍砖。。率先目前的一体现实的教室成绩。:航海间隔与抵达推延暗说话中肯相干是什么? 受胎很成绩,咱们将率先运用DPLYR包来处置赠送的的航班录音。。

包装的困境和装载和战利品录音的预备

困境DPLYR封装

本子出口指定的遗传密码:

("dplyr") 负荷DPLYR封装

library(dplyr)

困境 nycflights13包,封装说话中肯航班录音将用于DPLYR PACA的演示。。

本子出口指定的遗传密码:

("nyclights13") #负荷nyclights13

library(nyclights13)

flights 检查录音表

昏暗(航班) 检查变量的维数

出口如次:

如图可知,NycFLUTHS13是一种物镜。,收录336776个录音记载、19变量。

在处置录音优于,让咱们再检验一下资料处置的普通诉讼顺序。:

选择地区、列名改名、迅速离开缺漏录音、处置日期、录音类型替换、录音排序

接下来,可以停止资料处置。:

2。资料处置

选择地区

同一事物地区选择,它是选择能成预期的物镜剖析物镜的变量。,很录音剖析的物镜是成S暗说话中肯相干。,依据,有关的的地区是以下领域:

year 航班日一周年

month 航班日期月

day 航班日期月

dep_delay 起航推延工夫(分钟)

arr_delay 抵达推延工夫(分钟)

distance 航行里程(英里)

dest 物镜地

因此,率先,咱们在DPACR包中运用select重大聚会,停止变量检查:

本子出口指定的遗传密码:

myFlights <- select(flights, year,month, day,dep_delay,arr_delay,distance,dest) #检查变量列

myFlights 检查录音表

如图,地区选择使完美。

列名改名

为了使列名关心忧虑,可以运用改名重大聚会。,改名列名。

本子出口指定的遗传密码:

myFlights <- rename(myFlights, destination = dest)

myFlights

改名使完美。

迅速离开缺漏录音

咱们运用DPLYR包说话中肯检查器()重大聚会。,缺漏录音迅速离开。本子出口指定的遗传密码:

myFlights <- filter(myFlights,!(dep_delay),!(arr_推延)

myFlights

从图中,率先,咱们采取()重大聚会找出缺漏值,那么运用布尔运算符。!X将限度局限无效录音。,基本原理运用抽出器()重大聚会检查器以获取无效录音。,迅速离开的录音已成迅速离开(原始336),776个录音是327。,346个录音)。

录音排序

录音赚钱,咱们可以选择有关的的变量停止排序。。在这一点上拔出一体排序重大聚会行列。,默许健康状况下,升序行列,也可以用DESC来裁短列名。。本子出口指定的遗传密码:

myFlights <- arrange(myFlights, desc(arr_推延)

myFlights

如图所示,变量录音arr_delay(抵达推延工夫(分钟))停止递减次序行列。

三。录音计算

资料处置后,进入计算和剖析诉讼顺序。。在很环节,次要经过三个加工。:

录音归类(Split):可以指定的物镜变量。,归类录音。这一剖析的物镜是找出间隔A暗说话中肯相干。,因而咱们麝香依据物镜地归类录音。,明显的驾驶帆船的一致航距和平常的延误工夫;

装置重大聚会(Apply):明显的群体录音,运用有关的重大聚会获取所需的加起来规范。拿 ... 来说,一致帆船间隔和平常的推延工夫;

结成奏效Combine):了解某人的本质的加起来值与有关的的组相结合。。

录音归类

DPLYR包说话中肯录音包由GROPYBY()重大聚会成预期的物镜。,本子出口指定的遗传密码:

by_dest <- group_by(myFlights, destination)

class(by_dest)

by_dest

从图中,归类后,有104套录音。,换句话说,很剖析有104个物镜地。。

装置效能及结成奏效

咱们运用总结()重大聚会在DPLYR包。,录音加起来规范的获取与结成。明显的驾驶帆船的一致航距和平常的延误工夫。本子出口指定的遗传密码:

delay_sum <- summarise(by_dest, count = n(),#加起来各归类物镜地的航班数

dist = 平常的(间隔), na.rm = 真的),

delay = mean(arr_delay, na.rm = 真的))

delay_sum <- arrange(delay_sum, desc(count)) #按照航班数递减次序行列

delay_sum

从下面你可以意识到104个物镜地的航班数。。加起来学的技术合理性,咱们需求放晴录音太少的群体。,即放晴噪声录音。,再次,运用检查器()重大聚会来放晴。,放晴限度局限设置为计数>20。。本子出口指定的遗传密码:

delay_sum <- arrange(delay_sum, desc(count))

delay_sum <- filter(delay_sum , count > 20)

如上所示,公积金97组录音,换句话说,加起来参加的物镜地有97个。。

PS.在这一点上拔出了一体精致的的器。,“管道”,换句话说,经过运用动手术符将录音集的术语设置为, 那么授权代理停止录音的多步运算。。汇编动手术员的方法使顺序员能依据需求汇编指定的遗传密码。, 逐步地的动手术不时绒头。,在顺序中,可以有区别的地反折资料处置的诉讼顺序和。

经过管道衔接,使录音或声调使分娩更无效,运用右运算符%,可以坦率地将录音使分娩给下一体重大聚会召唤或声调。。(是最经用的动手术者。,它是反面的录音或声调。,运转到越位的重大聚会召唤或声调。,它可以延续运作,就像监禁平等地。。以下面的指定的遗传密码为例。,在运用管道优于。,指定的遗传密码是如此的的。。:

by_dest <- group_by(myFlights, destination)#按物镜地归类

delay_sum <- summarise(by_dest, count = n(),#加起来各归类物镜地的航班数

dist = 平常的(间隔), na.rm = 真的),计算平常的航行间隔

delay = mean(arr_delay, na.rm = 真的))#计算平常的延误工夫

delay_sum <- arrange(delay_sum, desc(count)) #按照航班数递减次序行列

delay_sum <- filter(delay_sum , count > 20)放晴噪声录音。

Delay-Huang-Syv显示列表

运用管道,指定的遗传密码是如此的的。。:

delay_sum <- myFlights %>% 将右派的航海录音分理性的激进分子的Delayl和。

group_by(destination) %>% #对delay_sum停止归类

summarise( count = n(),

dist = 平常的(间隔), na.rm = 真的),

delay = mean(arr_delay, na.rm = 真的)

) %>% 归类后推延和的计算与加起来

透过(计数) > 20)加起来奏效的噪声放晴。

Delay-Huang-Syv显示列表

果真,很多简约。!

4。录音显示

一幅画值一千的字。,这在大录音的散发中更为真实。。哈德利这次也被使用了。 Wickham 大大人(GGPROT2一组提议的作者)奉献了GGPROT2一组提议。召唤ggTrp()重大聚会情节,本子出口指定的遗传密码:

ggplot(data = delay_sum) +

geom_point(mapping = AES(X) = dist, y = 推延) 绘制了平常的航班(DIST)和平常的推延工夫(推延)的散点图。

geom_smooth(mapping = AES(X) = dist, y = 推延)#适当的每一柔软的弯成曲线(小心),衔接记号 不省略)

奏效如次所示。:

从下面,初步剖析了驾驶帆船与D的非线性相干。,怎样解说这种非线性相干?,还需求更加的加起来剖析。。回到搜狐,检查更多

责任编辑: