python大数据(二)

scipy

安装方法是先下载whl格式文件,然后通过pip install “包名” 安装。whl包下载地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/scipy-0.18.1-cp35-cp35m-win_amd64.whl

matplotlib 数据可视化分析

我们安装这个模块直接使用pip install即可。不需要提前下载whl后通过 pip install安装。

下面请看代码:

from matplotlib import  pylab
import numpy# 下面2行定义X轴,Y轴x=[1,2,3,4,8]
y=[1,2,3,4,8]# plot的方法是这样使用(x轴数据,y轴数据,展现形式)pylab.plot(x,y)   # 先把x,y轴的信息塞入pylab里面,再调用show方法来画图pylab.show()    # 这一步开始画图,默认是至线图

画出的图是这样的:

下面说说修改图的样式

关于图形类型,有下面几种:
  1. 直线图(默认)

  2. - 直线

  3. -- 虚线

  4. -. -.形式

  5. : 细小虚线

关于颜色,有下面几种:
  1. c-青色

  2. r-红色

  3. m-品红

  4. g-绿色

  5. b-蓝色

  6. y-黄色

  7. k-黑色

  8. w-白色

关于形状,有下面几种:
  1. s 方形

  2. * 星形

  3. p 五角形

我们还可以对图稍作修改,添加一些样式,下面修改圆点图为红色的点,代码如下:

pylab.plot(x,y,'or')   # 添加O表示画散点图,r表示redpylab.show()

我们还可以画虚线图,代码如下所示:

pylab.plot(x,y,'r:')pylab.show()

还可以给图添加上标题,x,y轴的标签,代码如下所示

pylab.plot(x,y,'pr--')   #p是图形为五角星,r为红色,--表示虚线pylab.title('for learnning')   # 图形标题pylab.xlabel('args')   # x轴标签pylab.ylabel('salary')   # y轴标签pylab.xlim(2)    # 从y轴的2开始做线pylab.show()

直方图

利用直方图能够很好的显示每一段的数据。下面使用随机数做一个直方图。

data1 = numpy.random.normal(5.0,4.0,10)   # 正态随机数pylab.hist(data1)
pylab.show()


Y轴为出现的次数,X轴为这个数的值(或者是范围)

还可以指定直方图类型通过histtype参数:

图形区别语言无法描述很详细,大家可以自信尝试。

  1. bar :is a traditional bar-type histogram. If multiple data
    are given the bars are aranged side by side.

  2. barstacked :is a bar-type histogram where multiple
    data are stacked on top of each other.

  3. step :generates a lineplot that is by default
    unfilled.

  4. stepfilled :generates a lineplot that is by default
    filled.

举个例子:

sty=numpy.arange(1,30,2)
pylab.hist(data1,histtype='stepfilled')
pylab.show() 

子图功能

什么是子图功能呢?子图就是在一个大的画板里面能够显示多张小图,每个一小图为大画板的子图。
我们知道生成一个图是使用plot功能,子图就是subplog。代码操作如下:

#subplot(行,列,当前区域)pylab.subplot(2,2,1)   # 申明一个大图里面划分成4块(即2*2),子图使用第一个区域(坐标为x=1,y=1)pylab.subplot(2,2,2)  # 申明一个大图里面划分成4块(即2*2),子图使用第二个区域(坐标为x=2,y=2)x1=[1,4,6,9]
x2=[3,21,33,43]
pylab.plot(x1,x2)   # 这个plot表示把x,y轴数据塞入前一个子图中。我们可以在每一个子图后使用plot来塞入x,y轴的数据pylab.subplot(2,1,2)  # 申明一个大图里面划分成2块(即),子图使用第二个区域(坐标为x=1,y=2)pylab.show()

实践小例子

我们现在可以通过一堆数据来绘图,根据图能够很容易的发现异常。下面我们就通过一个csv文件来实践下,这个csv文件是某个网站的文章阅读数与评论数。
先说说这个csv的文件结构,第一列是序号,第二列是每篇文章的URL,第三列每篇文章的阅读数,第四列是每篇评论数。
我们的需求就是把评论数作为Y轴,阅读数作为X轴,所以我们需要获取第三列和第四列的数据。我们知道获取数据的方法是通过pandas的values方法来获取某一行的值,在对这一行的值做切片处理,获取下标为3(阅读数)和4(评论数)的值,但是,这里只是一行的值,我们需要是这个csv文件下的所有评论数和阅读数,那怎么办?聪明的你会说,我自定义2个列表,我遍历下这个csv文件,把阅读数和评论数分别添加到对应的列表里,这不就行了嘛。呵呵,其实有一个更快捷的方法,那么就是使用T转置方法,这样再通过values方法,就能直接获取这一评论数和阅读数了,此时在交给你matplotlib里的pylab方法来作图,那么就OK了。了解思路后,那么就写吧。

下面看看代码:

csv_data = pandas.read_csv('F:\Learnning\CSDN-python大数据\hexun.csv')
dt = csv_data.T   # 装置下,把阅读数和评论数转为行readers=dt.values[3]   
comments = dt.values[4]
pylab.xlabel(u'reads')
pylab.ylabel(u'comments')   # 打上标签pylab.title(u"The Article's reads and comments")
pylab.plot(readers,comments,'ob')
pylab.show()