最近这几年,大数据异常火热,各行各业都在讨论、学习、研究大数据;同时,几乎每个行业都在与大数据衔接,出现了很多的大数据应用。现在的很多研究和工作都离不开大数据及其相关知识。


所以,学习、研究大数据是必要的。但是,要想真正理解大数据并应用好大数据,就必须清楚地理解数据分析;只有经过数据分析,我们才能真正用好大数据,发挥好大数据的威力。


所以,我决定写这篇文章通俗而又专业清晰地讲讲数据分析,希望能够帮助更多人入门数据分析,从而为这些数据分析学习者、研究者、爱好者的进一步学习和应用打下坚实的基础。

本场 Chat 的主要内容:

* 什么是数据分析(概念、作用、类型)?
* 数据分析的流程。
* 数据分析的三大误区。
* 数据分析与数据挖掘的区别。
* 几个常用指标和术语。
* 数据分析师的职业发展。
一、数据分析是神马

1. 何谓数据分析

用适当的统计分析方法和相应工具,对收集来的大量数据进行详细研究和概括总结,提取有用信息和形成结论,这一过程叫做数据分析。

数据分析有广义和狭义之分,广义的数据分析包括狭义的数据分析和数据挖掘。

2. 数据分析的三大作用

数据分析的三大作用:现状分析、原因分析、预测分析。

数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。

3. 数据分析的三个类别

数据分析的三个类别:描述性分析、探索性分析、验证性分析。

二、数据分析的过程(流程或者程序)

1. 数据分析的具体程序

* 明确分析目的和内容
* 数据收集
* 数据处理
* 数据分析
* 数据展现
* 撰写报告
2. 数据分析分步详解

* 明确分析目的和内容
首先,要明确分析目的。数据分析目的不明确会导致分析过程非常盲目。

然后,确定分析思路。梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。

最后,还要确保分析框架的体系化,使分析结果具有说服力。营销方面的理论模型有 4P、用户使用行为、STP 理论、SWOT 等;管理方面的理论模型有
PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART 等。

* 数据收集
一般数据来源:数据库、公开出版物(统计年鉴或报告)、互联网、市场调查等等。

* 数据处理

数据处理方法主要包括:数据清洗、数据转化、数据提取、数据计算等处理方法。(在做数据处理时,不要在原始数据上进行数据处理以防原始数据丢失,保留数据处理过程以便发现错误时查找)

* 数据分析
数据分析:用适当的统计分析方法和相应工具,对收集来的大量数据进行详细研究和概括总结,提取有用信息和形成结论,这一过程叫做数据分析。

与数据挖掘的关系是数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。

* 数据展现
一般情况下,数据是通过表格和图形等方式来呈现的。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等。

在一般情况下,能用图说明问题的就不用表格,能用表说明问题的就不用文字。

* 撰写报告
首先,好的数据分析报告,需要有一个好的分析框架、图文并茂、层次清晰、结构清晰、主次分明、一目了然。

另外,数据分析报告,还需要有明确的结论,没有明确结论的分析称不上分析。 此外,好的数据分析报告,一定要有建议或解决方案。

三、数据分析的三大误区

1. 分析目的不明确,为分析而分析。

2. 缺乏业务知识,分析结果偏离实际。数据分析师的任务不是单纯做数学题,数据分析师还必须懂

3. 一味追求使用高级分析方法,热衷研究模型。我们做的是数据分析,只要在成本范围内,能够快速高效完成即可,没必要过分追求技术方法。

四、数据分析与数据挖掘的区别

1. 数据分析有两种说法

即广义的数据分析和狭义的数据分析。广义的数据分析包括狭义的数据分析和数据挖掘,而我们常说的数据分析就是指狭义的数据分析。

2. 数据分析(狭义)

*
定义:简单来说,狭义的数据分析就是对数据进行分析。专业的说法,狭义的数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
*
作用:它主要实现三大作用:现状分析、原因分析、预测分析(定量)。狭义的数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
* 方法:主要采用对比分析、分组分析、交叉分析、回归分析等分析方法;
* 结果:狭义的数据分析一般都是得到一个指标统计量结果。比如,总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。
3. 数据挖掘

* 定义:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
*
作用:数据挖掘主要侧重解决四类问题,即分类、聚类、关联和预测(定量、定性)。数据挖掘的重点在寻找未知的模式与规律。比如,我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息。
* 方法:主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。
*
结果:输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。
4. 综合起来

*
数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。
五、几个常用指标和术语

1. 平均数、绝对数和相对数

*
绝对数就是总量指标,绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合指标;比如,一定总体范围内粮食总产量、工农业总产值、企业单位数等。
*
相对数就是相对指标,它是由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。相对数=比较数值(比数)/基础数值(基数),分母是用作对比标准的指标数值,简称基数;分子是用作与基数对比的指标数值简称比数。相对数的表现形式,通常以系数、倍数、成数、百分数或千分数表示。
2. 百分比和百分点

* 百分比是用来表示相对指标的一种常用形式,也叫百分率或百分数。百分比是以 100 为分母的分数,采用符号“ %
”(百分号)来表示。资料分析涉及的增长率、比重、普及率、占有率等常用百分比表示;比如 11%。
* 百分点是用以表达不同百分比之间的“算术差距”(即差)的正确单位,常用来表示以百分比形式的相对指标的变动幅度;比如, 13% 比 11% 多 3
个百分点。
3. 频数和频率

* 频数是指在多次试验中,某个时间出现的次数。
* 频率=频数/总数。
4. 比例和比率

* 比率,即比值,两数相比所得的值。比率表示总体中的一部分与总体作比较,一般用百分比的形式表示。
* 比例,比例表示总体中两个部分之间的比较,一般用几比几的形式表示。
5. 倍数与番数

* 番数是指原来数量的 2 的 N 次方倍,比如翻一番为原来数量的2倍(2 的一次方),翻两番为 4 倍(2 的二次方)。
* 倍数,比如 6 是 3 的两倍。
6. 同比与环比

* 同比是与历史同时期进行比较得到的数值。比如,2010 年 10 月和 2009 年 10 月比较。
* 环比是指与前一个统计期进行比较得到的数值。比如,2010 年 11 月和 2010 年 10 月比较。
六、数据分析师的职业发展

1. 数据分析的广阔前景

2018 年,数据分析师的需求量将增长 20%。即使你不是数据分析师,但数据分析技能也是未来必不可少的工作技能之一。

2. 数据分析师的职业要求

懂分析,懂工具,懂业务,懂管理,懂设计等等。

* 懂分析。
基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。

高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。

* 懂工具。
常用的数据分析工具有 Excel、PPT、Access、SPSS、SAS,先学会用 Excel,它能解决 80% 甚至 100% 的问题。

* 懂设计。
图表的设计是大学问,如图形的选择、版式的设计、颜色的搭配等,都需要掌握一定的设计原则。

* 懂可视化技术、会编程。
会可视化工具和技术,会编程,你将跨入中高级数据分析师行列。比如 ECchart、HighChart、numpy、matplotlib 等等,Python、R
编程语言等等。

本文首发于GitChat,未经授权不得转载,转载需与GitChat联系。

阅读全文: http://gitbook.cn/gitchat/activity/5ac0749383d40954d3e36640
<http://gitbook.cn/gitchat/activity/5ac0749383d40954d3e36640?utm_source=csdn_blog>

一场场看太麻烦?成为 GitChat 会员,畅享 1000+ 场 Chat !点击查看
<https://gitbook.cn/gitchat/vip?utm_source=vip_blog>

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:637538335
关注微信