一、实验目的
- 理解什么是数据清洗,数据清洗的分类及意义。
- 理解掌握Python数据分析中常见的几种数据存取方法。
- 掌握Python科学计算库Numpy的下载使用。
- 以房天下西安站二手房源数据为分析对象,使用Numpy+Pandas库对数据进行探索性分析。
二、实验过程
- 阅读教材,查阅资料熟悉理解数据清洗的分类:编码问题、缺失值分析、去除异常值、
- 以Pandas库对象为基础熟悉掌握Python数据分析中常见的几种数据存取方法:
>(1)CSV文件存取
(2)JSON文件的存取
(3)XLSX文件的存取
(4)MySQL文件的存取。 - 下载熟悉Numpy科学计算库的使用。
- 阅读教材、查阅资料以房天下西安站二手房源为分析对象,使用Numpy+Pandas对数据进行探索性分析。
三、代码
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df=pd.read_excel("E:\\Python Cord\\houseinfo.xlsx",encoding='gbk')
df.info()
len(df.house_hid.unique())
df_duplicates=df.drop_duplicates(subset='house_hid',keep='first')
df_duplicates.info()
df_notnull=df_duplicates.dropna()
df_notnull.info()
df_clean=df_duplicates[['id','house_hid','acreage','type','high','structure','innerAcreage','unitPrice','years','tradingRights']]
df_clean.head()
df_clean.years.value_counts()
plt.style.use('ggplot')
df_clean.years.hist()
plt.show()
from matplotlib.font_manager import FontProperties
font_zh=FontProperties(fname="E:/Python Cord/msyh.ttc")
df_laber=df_clean.boxplot(column='years',by='structure')
for label in df_laber.get_xticklabels():
label.set_fontproperties(font_zh)
plt.show()