新闻资讯
新闻资讯

【R语言】数据处理:飞机航行距离与到达延误时间有什么关系?_搜狐科技

原头衔的:[R释放宣言]资料处置:旅行间隔与抵达推延中间的相干是什么?

超越半个的的创纪录的剖析将破费在整顿和替换上。,包罗选择详述的剖析变量、总结并滤光器适合基准的创纪录的。、排序、处置原始变量并引起新变量。、归类创纪录的等。。这点,依我看大部分勤勉Excel的童鞋都是东窗事发的。,写论文时,如许多的创纪录的被处置。,手册摘要、滤光器、间隔的,负荷太大了。。

本文冲击采取每一案件。,魔术的DPLYR包装盒的许多的通俗的功用简介。让本人在嗨高处许多的提议。,欢送资助者拍砖。。率先高处每一实践的教室成绩。:航海间隔与抵达推延中间的相干是什么? 受胎非常的地成绩,本人将率先勤勉DPLYR包来处置假设的的旅行创纪录的。。

包装的建立和装载和战利品创纪录的的预备

建立DPLYR封装

本子出口法典:

("dplyr") 装载量DPLYR封装

library(dplyr)

建立 nycflights13包,封装切中要害旅行创纪录的将用于DPLYR封装的演示。。

本子出口法典:

("nyclights13") #装载量nyclights13

library(nyclights13)

flights 检查创纪录的表

昏暗(航班) 检查变量的维数

出口列举如下:

如图可知,NycFLUTHS13是一种男朋友。,包括336776个创纪录的记载、19变量。

在处置创纪录的先发制人,让本人再倒转一下资料处置的普通步。:

选择零件、列名改名、剔除缺乏创纪录的、处置日期、创纪录的类型替换、创纪录的排序

接下来,可以举行资料处置。:

2。资料处置

选择零件

同一事物零件选择,它是选择可以期末考试阶段剖析行动的变量。,非常的地创纪录的剖析的行动是到达S中间的相干。,像非常的,符合的的零件是以下场地:

year 旅行日一周年

month 旅行日期月

day 旅行日期月

dep_delay 降落推延工夫(分钟)

arr_delay 抵达推延工夫(分钟)

distance 航行里程(英里)

dest 行动地

职此之故,率先,本人在DPACR包中勤勉select功能,举行变量滤光器:

本子出口法典:

myFlights <- select(flights, year,month, day,dep_delay,arr_delay,distance,dest) #滤光器变量列

myFlights 检查创纪录的表

如图,零件选择期末考试阶段。

列名改名

为了使列名伺侯听说,可以勤勉改名功能。,改名列名。

本子出口法典:

myFlights <- rename(myFlights, destination = dest)

myFlights

改名期末考试阶段。

剔除缺乏创纪录的

本人勤勉DPLYR包切中要害滤光器器()功能。,缺乏创纪录的剔除。本子出口法典:

myFlights <- filter(myFlights,!(dep_delay),!(arr_推延)

myFlights

从图中,率先,本人采取()功能找出缺乏值,此后勤勉布尔运算符。!X将限度局限无效创纪录的。,期末考试勤勉拒绝者()功能滤光器器以获取无效创纪录的。,剔除的创纪录的已成剔除(原始336),776个创纪录的是327。,346个创纪录的)。

创纪录的排序

创纪录的整顿,本人可以选择符合的的变量举行排序。。嗨拔出每一排序功能整理。,默许影响下,升序整理,也可以用DESC来使还原列名。。本子出口法典:

myFlights <- arrange(myFlights, desc(arr_推延)

myFlights

如图所示,变量创纪录的arr_delay(抵达推延工夫(分钟))举行递减次序整理。

三。创纪录的计算

资料处置后,进入计算和剖析步。。在非常的地环节,次要经过三个行动方向。:

创纪录的归类(Split):可以明确提出行动变量。,归类创纪录的。这一剖析的行动是找出间隔A中间的相干。,因而本人霉臭推理行动地归类创纪录的。,辨别行动地一致航距与平均的延误工夫;

勤勉功能(Apply):辨别群体创纪录的,勤勉符合的功能获取所需的合乎情理对象。比如,一致帆船间隔和平均的推延工夫;

结成结实Combine):解决的合乎情理值与符合的的组相结合。。

创纪录的归类

DPLYR包切中要害创纪录的包由GROPYBY()功能期末考试阶段。,本子出口法典:

by_dest <- group_by(myFlights, destination)

class(by_dest)

by_dest

从图中,归类后,有104套创纪录的。,更确切地说,非常的地剖析有104个行动地。。

勤勉功用及结成结实

本人勤勉总结()功能在DPLYR包。,创纪录的合乎情理对象的获取与结成。辨别行动地一致航距与平均的延误工夫。本子出口法典:

delay_sum <- summarise(by_dest, count = n(),#合乎情理各归类行动地的航班数

dist = 平均的(间隔), na.rm = 真的),

delay = mean(arr_delay, na.rm = 真的))

delay_sum <- arrange(delay_sum, desc(count)) #按照航班数递减次序整理

delay_sum

从下面你可以变卖104个行动地的航班数。。合乎情理学的技术合理性,本人必要预防创纪录的太少的群体。,即预防噪声创纪录的。,再次,勤勉滤光器器()功能来预防。,预防限度局限设置为计数>20。。本子出口法典:

delay_sum <- arrange(delay_sum, desc(count))

delay_sum <- filter(delay_sum , count > 20)

如上所示,余渣97组创纪录的,更确切地说,合乎情理插上一手的行动地有97个。。

PS.嗨拔出了每一晴朗的的器。,“管道”,更确切地说,经过勤勉手术符将创纪录的集的系统命名法设置为, 此后接连着举行创纪录的的多步运算。。写手术员的方法使顺序员可以推理必要写法典。, 逐步地的手术不休堆。,在顺序中,可以不寻常的地揭晓资料处置的步和。

经过管道衔接,使创纪录的或态度发射更无效,勤勉右运算符%,可以径直将创纪录的发射给下每一功能必要或态度。。(是最经用的手术者。,它是反面的创纪录的或态度。,运转到向右转舵的功能必要或态度。,它可以陆续运作,就像链子平等地。。以下面的法典为例。,在勤勉管道先发制人。,法典是非常的的。。:

by_dest <- group_by(myFlights, destination)#按行动地归类

delay_sum <- summarise(by_dest, count = n(),#合乎情理各归类行动地的航班数

dist = 平均的(间隔), na.rm = 真的),计算平均的航行间隔

delay = mean(arr_delay, na.rm = 真的))#计算平均的延误工夫

delay_sum <- arrange(delay_sum, desc(count)) #按照航班数递减次序整理

delay_sum <- filter(delay_sum , count > 20)预防噪声创纪录的。

Delay-Huang-Syv显示列表

勤勉管道,法典是非常的的。。:

delay_sum <- myFlights %>% 将正确的航海创纪录的分分配左边的的Delayl和。

group_by(destination) %>% #对delay_sum举行归类

summarise( count = n(),

dist = 平均的(间隔), na.rm = 真的),

delay = mean(arr_delay, na.rm = 真的)

) %>% 归类后推延和的计算与合乎情理

拒绝者(计数) > 20)合乎情理结实的噪声预防。

Delay-Huang-Syv显示列表

事实上,很多简明的。!

4。创纪录的显示

一幅画值一千字。,这在大创纪录的的伸出中更为真实。。哈德利这次也被应用了。 Wickham 大极乐(GGPROT2包装盒的作者)奉献了GGPROT2包装盒。必要ggTrp()功能密谋,本子出口法典:

ggplot(data = delay_sum) +

geom_point(mapping = AES(X) = dist, y = 推延) 绘制了平均的旅行(DIST)和平均的推延工夫(推延)的散点图。

geom_smooth(mapping = AES(X) = dist, y = 推延)#器材一则柔软的海湾(注重),衔接记号 不省略)

结实列举如下所示。:

从下面,初步剖析了航行与D的非线性相干。,方法解说这种非线性相干?,还必要而且的合乎情理剖析。。回到搜狐,检查更多

责任编辑: