Python工具分析风险数据

释放双眼，带上耳机，听听看~！

小安前言随着网络安全信息数据大规模的增长,应用数据分析技术进行网络安全分析成为业界研究热点，小安在这次小讲堂中带大家用Python工具对风险数据作简单分析，主要是分析蜜罐日志数据，来看看一般大家都使用代理ip干了一些啥事。大家可能会问小安啥是蜜罐，网上一些黑客或技术人员经常做一些＂事情＂的时候，需要

小安前言

随着网络安全信息数据大规模的增长,应用数据分析技术进行网络安全分析成为业界研究热点，小安在这次小讲堂中带大家用Python工具对风险数据作简单分析，主要是分析蜜罐日志数据，来看看一般大家都使用代理ip干了一些啥事。

大家可能会问小安啥是蜜罐，网上一些黑客或技术人员经常做一些＂事情＂的时候，需要隐藏自己身份，这样他们会使用代理IP来办事。而蜜罐(Honeypot)是一种新型的主动防御的安全技术，它是一个专门为了被攻击或入侵而设置的欺骗系统——既可以用于保护产品系统，又可用于搜集黑客信息，是一种配置灵活、形式多样的网络安全技术。

说得通俗一点就是提供大量代理IP，引诱一些不法分子来使用代理这些代理ip，从而搜集他们的信息。

数据分析工具介绍

工欲善其事，必先利其器，在此小安向大家介绍一些Python数据分析的“神兵利器“。

Python中著名的数据分析库Panda

Pandas库是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建，也是围绕着 Series 和 DataFrame 两个核心数据结构展开的，其中Series 和 DataFrame 分别对应于一维的序列和二维的表结构。

Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。这个库优点很多，简单易用，接口抽象得非常好，而且文档支持实在感人。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

数据可视化采用Python上最常用的Matplotlib库

Matplotlib是一个Python的图形框架，也是Python最著名的绘图库，它提供了一整套和Matlab相似的命令API，十分适合交互式地进行制图。

我们有了这些“神兵利器“在手，下面小安将带大家用Python这些工具对蜜罐代理数据作一个走马观花式的分析介绍。

1引入工具–加载数据分析包

启动IPython notebook，加载运行环境：

%matplotlib inline
import pandas as pd
from datetime import timedelta, datetime
import matplotlib.pyplot as plt
import numpy as np

2数据准备

俗话说: 巧妇难为无米之炊。小安分析的数据主要是用户使用代理IP访问日志记录信息，要分析的原始数据以CSV的形式存储。这里首先要介绍到pandas.read_csv这个常用的方法，它将数据读入DataFrame。

analysis_data = pd.read_csv(‘./honeypot_data.csv’)

对的, 一行代码就可以将全部数据读到一个二维的表结构DataFrame变量，感觉很简单有木有啊！！！当然了用Pandas提供的IO工具你也可以将大文件分块读取，再此小安测试了一下性能，完整加载约21530000万条数据也大概只需要90秒左右，性能还是相当不错。

3数据管窥

一般来讲，分析数据之前我们首先要对数据有一个大体上的了解，比如数据总量有多少，数据有哪些变量，数据变量的分布情况，数据重复情况，数据缺失情况，数据中异常值初步观测等等。下面小安带小伙伴们一起来管窥管窥这些数据。

使用shape方法查看数据行数及列数

analysis_data.shape

Out: (21524530, 22) #这是有22个维度，共计21524530条数据记的DataFrame

使用head()方法默认查看前5行数据，另外还有tail()方法是默认查看后5行,当然可以输入参数来查看自定义行数

analysis_data.head(10)

（点击大图可查看细节）

这里可以了解到我们数据记录有用户使用代理IP日期，代理header信息，代理访问域名，代理方法，源ip以及蜜罐节点信息等等。在此小安一定一定要告诉你，小安每次做数据分析时必定使用的方法–describe方法。pandas的describe()函数能对数据进行快速统计汇总：

对于数值类型数据，它会计算出每个变量：

总个数，平均值，最大值，最小值，标准差，50%分位数等等；

非数值类型数据，该方法会给出变量的：

非空值数量、unique数量(等同于数据库中distinct方法)、最大频数变量和最大频数。

由head()方法我们可以发现数据中包含了数值变量、非数值变量，我们首先可以利用dtypes方法查看DataFrame中各列的数据类型，用select_dtypes方法将数据按数据类型进行分类。然后，利用describe方法返回的统计值对数据有个初步的了解：

df.select_dtypes(include=[‘O’]).describe()

（点击大图可查看细节）

df.select_dtypes(include=[‘float64’]).describe()

proxy_retlength	scan_os_fp	scan_os_sub_fp	scan_scan_mode	dtype_details
count	6.417354e+06	0.0	0.0	0.0
mean	1.671744e+03	NaN	NaN	NaN
std	3.104775e+04	NaN	NaN	NaN
min	0.000000e+00	NaN	NaN	NaN
25%	NaN	NaN	NaN	NaN
50%	NaN	NaN	NaN	NaN
75%	NaN	NaN	NaN	NaN
max	2.829355e+07	NaN	NaN	NaN

简单的观察上面变量每一维度统计结果，我们可以了解到大家获取代理数据的长度平均1670个字节左右。同时，也能发现字段scan_os_sub_fp，scan_scan_mode等存在空值等等信息。这样我们能对数据整体上有了一个大概了解。

给TA买糖

共{{data.count}}人

人已赞赏

Python工具分析风险数据

小安前言

2017滴滴安全大会正式启动，1.12我们北京见！

DowginCw病毒家族解析

突发！！疑似12306 60w账户+410w联系人数据泄露

走进蒙面黑客的世界(专访杨卿)

紫光云招聘安全研发、安全服务岗位

默安科技9月华北招聘专场

【漏洞预警】Oracle WebLogic wls-wsat RCE CVE-2017-10271 & CVE-2017-3506

360政企安全集团华东安服事业部招聘