常见的预测方法有单点预测,即确定性预测;区间预测;和概率预测三种方法。
单点预测,顾名思义,只能给出一个预测值,不能表达该预测值的可信度;
区间预测在单点预测的基础上,给出某次预测值在某一区间上的可信度,即能够给出一个预测范围,以及以多大的可能性落在这个范围;
概率预测是咋区间预测的基础上,给出一个概率分布,预测出所有可能出现的结果,以及对应的概率。这种方法比较全面,能够给出全局信息,适于风险相关的分析。目前在气象、地震、水文和农业相关方面用的比较多。
一、描述性统计
描述性统计是一类统计方法的汇总,揭示了数据分布特性。它主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。
1、缺失值填充:常用方法有剔除法、均值法、决策树法。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以在做数据分析之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、回归分析
回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律。
1. 一元线性分析
只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
2. 多元线性回归分析
使用条件:分析多个自变量X与因变量Y的关系,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
3.Logistic回归分析
线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。
4. 其他回归方法:非线性回归、有序回归、Probit回归、加权回归等。
三、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
1. 单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。
2. 多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3. 多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4. 协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,降低了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。
四、假设检验
1. 参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。
2. 非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
1)虽然是连续数据,但总体分布形态未知或者非正态;
2)总体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
一、掌握基础、更新知识。
基本技术怎么强调都不过分。这里的术更多是(计算机、统计知识), 多年做数据分析、数据挖掘的经历来看、以及业界朋友的交流来看,这点大家深有感触的。
数据库查询—SQL 数据分析师在计算机的层面的技能要求较低,主要是会SQL,因为这里解决一个数据提取的问题。有机会可以去逛逛一些专业的数据论坛,学习一些SQL技巧、新的函数,对你工作效率的提高是很有帮助的。
统计知识与数据挖掘 你要掌握基础的、成熟的数据建模方法、数据挖掘方法。例如:多元统计:回归分析、因子分析、离散等,数据挖掘中的:决策树、聚类、关联规则、神经网络等。
但是还是应该关注一些博客、论坛中大家对于最新方法的介绍,或者是对老方法的新运用,不断更新自己知识,才能跟上时代,也许你工作中根本不会用到,但是未来呢?行业知识 如果数据不结合具体的行业、业务知识,数据就是一堆数字,不代表任何东西。是冷冰冰,是不会产生任何价值的,数据驱动营销、提高科学决策一切都是空的。
一名数据分析师,一定要对所在行业知识、业务知识有深入的了解。例如:看到某个数据,你首先必须要知道,这个数据的统计口径是什么?是如何取出来的?这个数据在这个行业, 在相应的业务是在哪个环节是产生的?数值的代表业务发生了什么(背景是什么)?对于A部门来说,本月新会员有10万,10万好还是不好呢?先问问上面的这个问题:对于A部门,1、新会员的统计口径是什么。
第一次在使用A部门的产品的会员?还是在站在公司角度上说,第一次在公司发展业务接触的会员?2、是如何统计出来的。A:时间;是通过创建时间,还是业务完成时间。
B:业务场景。是只要与业务发接触,例如下了单,还是要业务完成后,到成功支付。
3、这个数据是在哪个环节统计出来。在注册环节,在下单环节,在成功支付环节。
4、这个数据代表着什么。10万高吗?与历史相同比较?是否做了营销活动?这个行业处理行业生命同期哪个阶段?在前面二点,更多要求你能按业务逻辑,来进行数据的提取(更多是写SQL代码从数据库取出数据)。
后面二点,更重要是对业务了解,更行业知识了解,你才能进行相应的数据解读,才能让数据产生真正的价值,不是吗?对于新进入数据行业或者刚进入数据行业的朋友来说:行业知识都重要,也许你看到很多的数据行业的同仁,在微博或者写文章说,数据分析思想、行业知识、业务知识很重要。我非常同意。
因为作为数据分析师,在发表任何观点的时候,都不要忘记你居于的背景是什么?但大家一定不要忘记了一些基本的技术,不要把基础去忘记了,如果一名数据分析师不会写SQL,那麻烦就大了。哈哈。
你只有把数据先取对了,才能正确的分析,否则一切都是错误了,甚至会导致致命的结论。
新同学,还是好好花时间把基础技能学好。因为基础技能你可以在短期内快速提高,但是在行业、业务知识的是一点一滴的积累起来的,有时候是急不来的,这更需要花时间慢慢去沉淀下来。
不要过于追求很高级、高深的统计方法,我提倡有空还是要多去学习基本的统计学知识,从而提高工作效率,达到事半功倍。以我经验来说,我负责任告诉新进的同学,永远不要忘记基本知识、基本技能的学习。
二、要有三心。1、细心。
2、耐心。3、静心。
数据分析师其实是一个细活,特别是在前文提到的例子中的前面二点。而且在数据分析过程中,是一个不断循环迭代的过程,所以一定在耐心,不怕麻烦,能静下心来不断去修改自己的分析思路。
三、形成自己结构化的思维。数据分析师一定要严谨。
而严谨一定要很强的结构化思维,如何提高结构化思维,也许只需要工作队中不断的实践。但是我推荐你用mindmanagement,首先把你的整个思路整理出来,然后根据分析不断深入、得到的信息不断增加的情况下去完善你的结构,慢慢你会形成一套自己的思想。
当然有空的时候去看看《麦肯锡思维》、结构化逻辑思维训练的书也不错。在我以为多看看你身边更资深同事的报告,多问问他们是怎么去考虑这个问题的,别人的思想是怎么样的?他是怎么构建整个分析体系的。
四、业务、行业、商业知识。当你掌握好前面的基本知识和一些技巧性东西的时候,你应该在业务、行业、商业知识的学习与积累上了。
这个放在最后,不是不重要,而且非常重要,如果前面三点是决定你能否进入这个行业,那么这则是你进入这个行业后,能否成功的最根本的因素。 数据与具体行业知识的关系,比作池塘中鱼与水的关系一点都不过分,数据(鱼)离开了行业、业务背景(水)是死的,是不可能是“活”。
而没有“鱼”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。如何提高业务知识,特别是没有相关背景的同学。
很简单,我总结了几点:1、多向业务部门的同事请教,多沟通。多向他们请教,数据分析师与业务部门没有利益冲突,而更向是共生体,所以如果你态度好,相信业务部门的同事也很愿意把他们知道的告诉你。
2、永远不要忘记了google大神,定制一些行业的关键字,每天都先看看定制的邮件。3、每天有空去浏。
Time Series Analysis Methods
Simple Moving Average Formula
Weighted Moving Average Formula
Exponential Smoothing Model
Logistic Regre等方法都可以解决。
根据你的实际,最简单的就是选前几个月的销售额进行平均。
也可以将越靠近的月份销售额给较大的权重,加权平均。
还可以将前面的数据进行回归分析,得出下个月的销售额。
都是理论方法,可能会受到季节因素、环境因素、营销因素等的影响,还有待实际验证。
总的分两种:
1 列表法
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。
2 作图法
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。
定量预测方法有:
加权算术平均法
用各种权数算得的平均数称为加权算术平均数,它可以自然数作权数,也可以项目出现的次数作权数,所求平均数值即为测定值。
趋势平均预测法
趋势平均预测法是以过去发生的实际数为依据,在算术平均数的基础上,假定未来时期的数值是它近期数值直接继续,而同较远时期的数值关系较小的一种预测方法。
指数平滑法
指数平滑法是以一个指标本身过去变化的趋势作为预测未来的依据的一种方法。对未来预测时,考虑则近期资料的影响应比远期为大,因而对不同时期的资料不同的权数,越是近期资料权数越大,反之权数越小。
(4)平均发展速度法
(5)一元线性回归预测法
根据x、y现有数据,寻求合理的a、b回归系数,得出一条变动直线,并使线上各点至实际资料上的对应点之间的距离最小。
设变动直线方程为:y=a+bx
(6)高低点法
高低点法是利用代数式y=a+bx,选用一定历史资料中的最高业务量与最低业务量的总成本(或总费用)之差△y,与两者业务量之差△x进行对比,求出b,然后再求出a的方法。
数据分析的三个常用方法:
1. 数据趋势分析
趋势分析一般而言,适用于产品核心指标的长期跟踪,比如,点击率,GMV,活跃用户数等。做出简单的数据趋势图,并不算是趋势分析,趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析。
趋势分析,最好的产出是比值。在趋势分析的时候需要明确几个概念:环比,同比,定基比。环比是指,是本期统计数据与上期比较,例如2019年2月份与2019年1月份相比较,环比可以知道最近的变化趋势,但是会有些季节性差异。为了消除季节差异,于是有了同比的概念,例如2019年2月份和2018年2月份进行比较。定基比更好理解,就是和某个基点进行比较,比如2018年1月作为基点,定基比则为2019年2月和2018年1月进行比较。
比如:2019年2月份某APP月活跃用户数我2000万,相比1月份,环比增加2%,相比去年2月份,同比增长20%。趋势分析另一个核心目的则是对趋势做出解释,对于趋势线中明显的拐点,发生了什么事情要给出合理的解释,无论是外部原因还是内部原因。
2. 数据对比分析
数据的趋势变化独立的看,其实很多情况下并不能说明问题,比如如果一个企业盈利增长10%,我们并无法判断这个企业的好坏,如果这个企业所处行业的其他企业普遍为负增长,则5%很多,如果行业其他企业增长平均为50%,则这是一个很差的数据。
对比分析,就是给孤立的数据一个合理的参考系,否则孤立的数据毫无意义。在此我向大家推荐一个大数据技术交流圈: 658558542 突破技术瓶颈,提升思维能力 。
一般而言,对比的数据是数据的基本面,比如行业的情况,全站的情况等。有的时候,在产品迭代测试的时候,为了增加说服力,会人为的设置对比的基准。也就是A/B test。
比较试验最关键的是A/B两组只保持单一变量,其他条件保持一致。比如测试首页改版的效果,就需要保持A/B两组用户质量保持相同,上线时间保持相同,来源渠道相同等。只有这样才能得到比较有说服力的数据。
3. 数据细分分析
在得到一些初步结论的时候,需要进一步地细拆,因为在一些综合指标的使用过程中,会抹杀一些关键的数据细节,而指标本身的变化,也需要分析变化产生的原因。这里的细分一定要进行多维度的细拆。常见的拆分方法包括:
分时 :不同时间短数据是否有变化。
分渠道 :不同来源的流量或者产品是否有变化。
分用户 :新注册用户和老用户相比是否有差异,高等级用户和低等级用户相比是否有差异。
分地区 :不同地区的数据是否有变化。
组成拆分 :比如搜索由搜索词组成,可以拆分不同搜索词;店铺流量由不用店铺产生,可以分拆不同的店铺。
细分分析是一个非常重要的手段,多问一些为什么,才是得到结论的关键,而一步一步拆分,就是在不断问为什么的过程。
借助工具,未至科技魔方是一款大数据模型平台,是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。
采用多种的数据采集技术,支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具,支持流程化的模型配置。
通过第三方插件技术,很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集,数据模型的搭建,数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程,平台主要包括数据采集部分,模型配置部分,模型执行部分及成果展示部分等。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:2.925秒