python数据分析

一、实验目的

  1. 理解什么是数据清洗,数据清洗的分类及意义。
  2. 理解掌握Python数据分析中常见的几种数据存取方法。
  3. 掌握Python科学计算库Numpy的下载使用。
  4. 以房天下西安站二手房源数据为分析对象,使用Numpy+Pandas库对数据进行探索性分析。

二、实验过程

  1. 阅读教材,查阅资料熟悉理解数据清洗的分类:编码问题、缺失值分析、去除异常值、
  2. 以Pandas库对象为基础熟悉掌握Python数据分析中常见的几种数据存取方法:
    >(1)CSV文件存取
    (2)JSON文件的存取
    (3)XLSX文件的存取
    (4)MySQL文件的存取。
  3. 下载熟悉Numpy科学计算库的使用。
  4. 阅读教材、查阅资料以房天下西安站二手房源为分析对象,使用Numpy+Pandas对数据进行探索性分析。

三、代码

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df=pd.read_excel("E:\\Python Cord\\houseinfo.xlsx",encoding='gbk')
df.info()
len(df.house_hid.unique())
df_duplicates=df.drop_duplicates(subset='house_hid',keep='first')
df_duplicates.info()
df_notnull=df_duplicates.dropna()
df_notnull.info()
df_clean=df_duplicates[['id','house_hid','acreage','type','high','structure','innerAcreage','unitPrice','years','tradingRights']]
df_clean.head()
df_clean.years.value_counts()
plt.style.use('ggplot')
df_clean.years.hist()
plt.show()
from matplotlib.font_manager import FontProperties
font_zh=FontProperties(fname="E:/Python Cord/msyh.ttc")
df_laber=df_clean.boxplot(column='years',by='structure')
for label in df_laber.get_xticklabels():
    label.set_fontproperties(font_zh)
plt.show()

四、实验结果

2

相关推荐

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

微信扫一扫

微信扫一扫

微信扫一扫,分享到朋友圈

python数据分析
嘿!有什么能帮到您的吗?
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close