一、描述性统计
描述性统计是一类统计方法的汇总,揭示了数据分布特性。它主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。
1、缺失值填充:常用方法有剔除法、均值法、决策树法。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以在做数据分析之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、回归分析
回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律。
1. 一元线性分析
只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
2. 多元线性回归分析
使用条件:分析多个自变量X与因变量Y的关系,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
3.Logistic回归分析
线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。
4. 其他回归方法:非线性回归、有序回归、Probit回归、加权回归等。
三、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
1. 单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。
2. 多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3. 多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4. 协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,降低了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。
四、假设检验
1. 参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。
2. 非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
1)虽然是连续数据,但总体分布形态未知或者非正态;
2)总体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
常见的预测方法有单点预测,即确定性预测;区间预测;和概率预测三种方法。
单点预测,顾名思义,只能给出一个预测值,不能表达该预测值的可信度;
区间预测在单点预测的基础上,给出某次预测值在某一区间上的可信度,即能够给出一个预测范围,以及以多大的可能性落在这个范围;
概率预测是咋区间预测的基础上,给出一个概率分布,预测出所有可能出现的结果,以及对应的概率。这种方法比较全面,能够给出全局信息,适于风险相关的分析。目前在气象、地震、水文和农业相关方面用的比较多。
数据分析的三个常用方法:
1. 数据趋势分析
趋势分析一般而言,适用于产品核心指标的长期跟踪,比如,点击率,GMV,活跃用户数等。做出简单的数据趋势图,并不算是趋势分析,趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析。
趋势分析,最好的产出是比值。在趋势分析的时候需要明确几个概念:环比,同比,定基比。环比是指,是本期统计数据与上期比较,例如2019年2月份与2019年1月份相比较,环比可以知道最近的变化趋势,但是会有些季节性差异。为了消除季节差异,于是有了同比的概念,例如2019年2月份和2018年2月份进行比较。定基比更好理解,就是和某个基点进行比较,比如2018年1月作为基点,定基比则为2019年2月和2018年1月进行比较。
比如:2019年2月份某APP月活跃用户数我2000万,相比1月份,环比增加2%,相比去年2月份,同比增长20%。趋势分析另一个核心目的则是对趋势做出解释,对于趋势线中明显的拐点,发生了什么事情要给出合理的解释,无论是外部原因还是内部原因。
2. 数据对比分析
数据的趋势变化独立的看,其实很多情况下并不能说明问题,比如如果一个企业盈利增长10%,我们并无法判断这个企业的好坏,如果这个企业所处行业的其他企业普遍为负增长,则5%很多,如果行业其他企业增长平均为50%,则这是一个很差的数据。
对比分析,就是给孤立的数据一个合理的参考系,否则孤立的数据毫无意义。在此我向大家推荐一个大数据技术交流圈: 658558542 突破技术瓶颈,提升思维能力 。
一般而言,对比的数据是数据的基本面,比如行业的情况,全站的情况等。有的时候,在产品迭代测试的时候,为了增加说服力,会人为的设置对比的基准。也就是A/B test。
比较试验最关键的是A/B两组只保持单一变量,其他条件保持一致。比如测试首页改版的效果,就需要保持A/B两组用户质量保持相同,上线时间保持相同,来源渠道相同等。只有这样才能得到比较有说服力的数据。
3. 数据细分分析
在得到一些初步结论的时候,需要进一步地细拆,因为在一些综合指标的使用过程中,会抹杀一些关键的数据细节,而指标本身的变化,也需要分析变化产生的原因。这里的细分一定要进行多维度的细拆。常见的拆分方法包括:
分时 :不同时间短数据是否有变化。
分渠道 :不同来源的流量或者产品是否有变化。
分用户 :新注册用户和老用户相比是否有差异,高等级用户和低等级用户相比是否有差异。
分地区 :不同地区的数据是否有变化。
组成拆分 :比如搜索由搜索词组成,可以拆分不同搜索词;店铺流量由不用店铺产生,可以分拆不同的店铺。
细分分析是一个非常重要的手段,多问一些为什么,才是得到结论的关键,而一步一步拆分,就是在不断问为什么的过程。
数据分析落实到实处,一般就是围绕用户漏斗展开的。也就是人们常说的访问-激活-留存-交易-推荐。
这核心的5步会有不同维度的细分。
获客:来源、渠道、关键字、着陆页、地域、设备、访问时间、跳出率、访问深度、停留时间、新客量等等;
激活:DAU(日活跃用户)、MAU(月活跃用户)
留存:日留存率、周留存率、月留存率
交易:订单量、订单金额、LTV
推荐:是否传播(k>1)
需要获取以上数据,可以通过ptengine通过漏斗细分得到可视化图表。一般来讲,同比(本周和上周)、环比(本月第一周和上月第一周)、定基比(所有数据和当年第一周)即可获得数据的变化情况。
以上,其实不用很专业也能做好数据分析,获取数据并不难,难的是你能洞察数据背后的意义。
借助工具,未至科技魔方是一款大数据模型平台,是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。
采用多种的数据采集技术,支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具,支持流程化的模型配置。
通过第三方插件技术,很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集,数据模型的搭建,数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程,平台主要包括数据采集部分,模型配置部分,模型执行部分及成果展示部分等。
Time Series Analysis Methods
Simple Moving Average Formula
Weighted Moving Average Formula
Exponential Smoothing Model
Logistic Regre等方法都可以解决。
根据你的实际,最简单的就是选前几个月的销售额进行平均。
也可以将越靠近的月份销售额给较大的权重,加权平均。
还可以将前面的数据进行回归分析,得出下个月的销售额。
都是理论方法,可能会受到季节因素、环境因素、营销因素等的影响,还有待实际验证。
定量预测方法有:
加权算术平均法
用各种权数算得的平均数称为加权算术平均数,它可以自然数作权数,也可以项目出现的次数作权数,所求平均数值即为测定值。
趋势平均预测法
趋势平均预测法是以过去发生的实际数为依据,在算术平均数的基础上,假定未来时期的数值是它近期数值直接继续,而同较远时期的数值关系较小的一种预测方法。
指数平滑法
指数平滑法是以一个指标本身过去变化的趋势作为预测未来的依据的一种方法。对未来预测时,考虑则近期资料的影响应比远期为大,因而对不同时期的资料不同的权数,越是近期资料权数越大,反之权数越小。
(4)平均发展速度法
(5)一元线性回归预测法
根据x、y现有数据,寻求合理的a、b回归系数,得出一条变动直线,并使线上各点至实际资料上的对应点之间的距离最小。
设变动直线方程为:y=a+bx
(6)高低点法
高低点法是利用代数式y=a+bx,选用一定历史资料中的最高业务量与最低业务量的总成本(或总费用)之差△y,与两者业务量之差△x进行对比,求出b,然后再求出a的方法。
总的分两种:
1 列表法
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。
2 作图法
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:2.696秒