用python写的房价分析脚本

分析基础是之前的shell分析脚本后的csv文件。但是我现在分析的是平均房价等等信息。由于之前那个csv文件格式不是特别好,所以没法使用二维数组这种方式来分析,所以只能简单的使用的一维数组。

分析的步骤基本如下,读入文件,然后根据关键用正则把每个数据读入到一个数组中,方法有点笨,因为原日志文件中有”平米”,’万元’,所以分2次读入的,不直到能否跟简单点,尝试过用group(),但是在compile中没法使用,所以大家有什么好的方法可以回复给我。

#!/usr/bin/python
#coding:UTF-8

import re


f = open('../../house/today.anjuke.2010-08-27.csv','r')

totalDolar=[]
totalPingmi=[]
re_obj = re.compile(r"\d+万元")
re_num = re.compile(r"\d+|\d+\.\d+")
re_ping = re.compile(r"\d+平米|\d\.\d+平米")
for row in f:

  for match in re_obj.findall(row):
        for num in re_num.findall(match):
            totalDolar.append(int(num))

  for pingmi in re_ping.findall(row):
        for pingmiNum in re_num.findall(pingmi):
            totalPingmi.append(int(pingmiNum))

#print totalPingmi
print '共有房产: %d套' % len(totalDolar)
print '所有房产总价: %d万元' % sum(totalDolar)
avg=float(sum(totalDolar))/(len(totalDolar))
avgPingmi=float(sum(totalDolar))/(sum(totalPingmi))
print '每套均价:%f万元' % avg
print '每平米均价:%f万元' % avgPingmi
#break
f.close()

###########################################

Best regards
Timo Seven
blog: http://www.timoseven.com
twitter: http://twitter.com/zauc
Linux System Admin & MySQL DBA

关于 Timo
XNIX SA & MYSQL DBA

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: