熟练掌握可以极大地提高数据分析与挖掘的效率

栏目:车市动态    来源:TechWeb    阅读量:10287   作者:樊华    发布时间:2021-12-24 15:08   

这篇文章小编来讲讲lambda方法以及它在pandas模块当中的运用,熟练掌握可以极大地提高数据分析与挖掘的效率

熟练掌握可以极大地提高数据分析与挖掘的效率

导入模块与读取数据

我们第一步需要导入模块以及数据集

importpandasaspddf=pd.read_csvdf.head 创建新的列

一般我们是通过在现有两列的基础上进行一些简单的数学运算来创建新的一列,例如

df=+df/10)/2

但是如果要新创建的列是经过相当复杂的计算得来的,那么lambda方法就很多必要被运用到了,我们先来定义一个函数方法

defcustom_rating:if'Thriller'ingenre:returnmin(10,rating+1)elif'Comedy'ingenre:returnmax(0,rating—1)elif'Drama'ingenre:returnmax(5,rating—1)else:returnrating

我们对于不同类别的电影采用了不同方式的评分方法,例如对于惊悚片,评分的方法则是在原来的评分+1和10分当中取一个最小的,而对于喜剧类别的电影,则是在0分和原来的评分—1当中取一个最大的,然后我们通过apply方法和lambda方法将这个自定义的函数应用在这个DataFrame数据集当中

df=df.apply(lambdax:custom_rating(x('Genre'),x('Rating')),axis=1)

我们这里需要说明一下axis参数的作用,其中axis=1代表跨列而axis=0代表跨行,如下图所示

筛选数据

在pandas当中筛选数据相对来说比较容易,可以用到amp,

#单个条件,评分大于5分的dfdf_gt_5=dfgt,5)#多个条件:AND—同时满足评分高于5分并且投票大于100000的And_df=df(gt,5)amp,(df('Votes')gt,100000))#多个条件:OR—满足评分高于5分或者投票大于100000的Or_df=df(gt,5)

这些都是非常简单并且是常见的例子,但是要是我们想要筛选出电影的影名长度大于5的部分,要是也采用上面的方式就会报错

df.split(""))gt,=5)

output

AttributeError:'Series'objecthasnoattribute'split'

这里我们还是采用apply和lambda相结合,来实现上面的功能

#创建一个新的列来存储每一影片名的长度df=df.apply(lambdax:len(x('Title').split("")),axis=1)#筛选出影片名长度大于5的部分new_df=df(dfgt,=5)

当然要是大家觉得上面的方法有点繁琐的话,也可以一步到位

new_df=df.split(""))gt,=5,axis=1))

例如我们想要筛选出那些影片的票房低于当年平均水平的数据,可以这么来做。

我们先要对每年票房的的平均值做一个归总,代码如下

year_revenue_dict=df.groupby).agg('Revenue(Millions)':np.mean).to_dict('Revenue(Millions)')

然后我们定义一个函数来判断是否存在该影片的票房低于当年平均水平的情况,返回的是布尔值

defbool_provider:returnrevenuelt,year_revenue_dict(year)

然后我们通过结合apply方法和lambda方法应用到数据集当中去

new_df=df'),x('Year')),axis=1))

我们筛选数据的时候,主要是用.loc方法,它同时也可以和lambda方法联用,例如我们想要筛选出评分在5—8分之间的电影以及它们的票房,代码如下

df.locgt,5)amp,(x("Rating")lt,8))(("Title","Revenue(Millions)")) 转变指定列的数据类型

通常我们转变指定列的数据类型,都是调用astype方法来实现的,例如我们将Price这一列的数据类型转变成整型的数据,代码如下

df.astype('int')

会出现如下所示的报错信息

ValueError:invalidliteralforintwithbase10:'12,000'

因此当出现类似12,000的数据的时候,调用astype方法实现数据类型转换就会报错,因此我们还需要将到apply和lambda结合进行数据的清洗,代码如下

df=df.apply(lambdax:int(x.replace(',','')),axis=1) 方法调用过程的可视化

有时候我们在处理数据集比较大的时候,调用函数方法需要比较长的时间,这个时候就需要有一个要是有一个进度条,时时刻刻向我们展示数据处理的进度,就会直观很多了。随着自动驾驶和高级驾驶员辅助系统的兴起,汽车制造商和自动驾驶公司对关键部件的安全性提出了更严格的要求。激光雷达作为汽车感知的“眼睛”,在未来全天候自动驾驶安全应用中发挥着重要作用。ISO26262被公认为全球最权威的汽车功能安全标准,涵盖产品全生命周期,包括功能安全管理,概念阶段,系统阶段,硬件开发,软件开发,生产运营,支持流程,安全分析等环节。。

这里用到的是tqdm模块,我们将其导入进来

fromtqdmimporttqdm,tqdm_notebooktqdm_notebook.pandas

然后将apply方法替换成progress_apply即可,代码如下

df=df.progress_apply(lambdax:custom_rating(x('Genre'),x('Rating')),axis=1)

output

当lambda方法遇到if—else

当然我们也可以将if—else运用在lambda自定义函数当中,代码如下

Bigger=lambdax,y:xifelseyBigger(2,10)

output

10

当然很多时候我们可能有多组if—else,这样写起来就有点麻烦了,代码如下

df.apply(lambdax:"低分电影"ifxlt,3else("中等电影"ifxgt,=3andxlt,5else("高分电影"ifxgt,=8else"值得观看")))

看上去稍微有点凌乱了,这个时候,小编这里到还是推荐大家自定义函数,然后通过apply和lambda方法搭配使用

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

熟练掌握可以极大地提高数据分析与挖掘的效率