分析大数据,R语言和Linux系统比较有帮助,运用到的方法原理可以翻翻大学的统计学,不需要完全理解,重在应用。
分析简单数据,Excel就可以了。Excel本意就是智能,功能很强,容易上手。我没有见过有人说自己精通Excel的,最多是熟悉Excel。Excel的函数可以帮助你处理大部分数据。
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。
在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店, 直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。
当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算 法引入到 POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。
数据分析落实到实处,一般就是围绕用户漏斗展开的。也就是人们常说的访问-激活-留存-交易-推荐。
这核心的5步会有不同维度的细分。
获客:来源、渠道、关键字、着陆页、地域、设备、访问时间、跳出率、访问深度、停留时间、新客量等等;
激活:DAU(日活跃用户)、MAU(月活跃用户)
留存:日留存率、周留存率、月留存率
交易:订单量、订单金额、LTV
推荐:是否传播(k>1)
需要获取以上数据,可以通过ptengine通过漏斗细分得到可视化图表。一般来讲,同比(本周和上周)、环比(本月第一周和上月第一周)、定基比(所有数据和当年第一周)即可获得数据的变化情况。
以上,其实不用很专业也能做好数据分析,获取数据并不难,难的是你能洞察数据背后的意义。
使用R语言的时候,如果是少量数据,不妨使用c()或其他函数进行创建;但是对于大量数据,最好还是先通过其他更方便的软件创建数据文件,然后使用R读入这个文件。
.csv是非常好的数据文件格式,跨平台支持非常好。我在Excel或者SPSS中创建的数据,只要存为csv格式,就可以使用几乎任何数据处理软件对这些数据进行处理了。使用通用格式在多人合作、不同版本兼容等常见行为中,优势十分明显。另外,之所以使用不同的数据处理软件,第一,可以取长补短。比如有些工作SPSS很复杂的,可以用R语言几行命令搞定。第二,可以进行软件间处理结果对照,发现问题。
R语言中读取外部文件的最基本函数是read.table(),还有用来读csv的read.csv(), .csv是非常好的数据文件格式,跨平台支持非常好。
输入help(read.table)命令,就看到了关于数据输入函数的说明。
框内的数字是行变量和列变量之间的相关系数R,相关系数R绝对值越大,颜色越深(红正,蓝负)。统计学中,P值越小相关性越显著,一般来说 一个*代表显著相关(P值为0.01,选取不同参数可能不一样)、两个**代表极显著相关(P值为0.001)、三个***代表极极显著相关(P值为0.0001). 图中还可以看出,相关系数R的绝对值0.67(变量P50与T之间)以上的都显著相关,至少一个*。符合一般关于相关系数R值的显著性统计。
处理工程数据一般有三种方法:数据程序化处理、数据文件化处理、数据库处理。
数据程序化处理的优点是:充分将数据与程序结合在了一起。其缺点是数据无法共享,增加了程序的长度。
数据文件化处理的优点是:数据与程序作了初步的分离,实现了有条件的共享。其缺点有四点:①文件只能表示事物而不能表示事物之间的联系;②文件较长;③数据与应用程序之间仍有依赖关系;④安全性和保密性较差。
数据库处理的优点是:①数据共享,②数据集中,安全性和保密性好。③数据结构化,既表示了事物,又表示了事物之间的联系。
其缺点是:数据与应用程序无关联。
如果说数据挖掘是一门手艺,那么R语言就是工匠手里一种工具,要做出一件价值连城的艺术品需要先“利其器”,但更关键的是工匠能够“集百家之长,成一家之言“自成一派的创造力。
正所谓”操千曲而后晓声,观千剑而后识器"。建议初学者先了解一些机器学习的基础理论以及典型的应用领域实例,定下自己想要研究的方向后与行业相结合,然后再学习工具的使用。
R语言经典图书推荐:
《R in Action-Data Analysis and Graphics with R》链接:R语言实战 (豆瓣)
这本书从实用的统计研究角度,每一章节结合实际的例子讲解了R在创建数据集、绘制图形、数据管理、以及模型构建的使用方法,堪称经典。前两部分属于R基本功能介绍,第三部分以后才是精髓开始(包括了回归分析、方差分析、功效分析、广义线性模型、主成分和因子分析等统计方法详细的实例分析)。
《数据之魅-基于开源工具的数据分析》链接:数据之魅 (豆瓣)
作者是华盛顿大学理论物理学博士。这本书是数据分析系列著作的经典之一,包含大量的R语言模拟过程及结果展示,例举了很多数据分析实例和代码。吃透以后就能够对整个数据挖掘的流程有一个全方位的了解。
转载
数据分析师的工作一定要好好把握。关于数据分析师的思路和方法,小编觉得是这样的:
首先,你要明白什么是数据分析;
第二你要知道数据分析的目的;
第三、清楚数据分析的分类以及作用:现状分析、原因分析、预测分析第四,如何进行数据分析:
1.明确目的和思路
2.数据收集
3.数据处理
4.数据分析
数据处理好之后,就要进行数据分析,数据分析是用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
常用的数据分析工具,掌握Excel的数据透视表,就能解决大多数的问题。需要的话,可以再有针对性的学习SPSS、SAS等。
数据挖掘是一种高级的数据分析方法,你需要掌握数据挖掘基础理论,数据库操作Phython,R语言, Java 等编程语言的使用以及高级的数据可视化技术。要侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。
5.数据展现
一般情况下,数据是通过表格和图形的方式来呈现的。常用的数据图表包括饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图等。进一步加工整理变成我们需要的图形,如金字塔图、矩阵图、漏斗图、帕雷托图等。
图表制作的五个步骤:
确定要表达主题;确定哪种图表最适合;选择数据制作图表;检查是否真实;反映数据检查是否表达观点
6.报告撰写
数据分析的四大误区
1.目的不明确,为了做而作,导致分析效果不明确;
2.对与行业、公司业务还有其他考虑因素认知不清楚,分析结果偏离实际。
3.为了方法而方法,为了工具而工具,只要能解决问题的方法和工具就是好的方法和工具;
4.数据本身是客观的,但被解读出来的数据是主观的。同样的数据由不同的人分析很可能得出完全相反的结论,所以一定不能提前带着观点去分析。
每个人都有自己的工作特点和方法倾向,不过对于数据分析这种很有逻辑的工作,逻辑思路一定要处理清楚,该遵从的客观标准还是要严格遵守,而且数据分析只有产生了价值,你做的这份工作才算真在发挥了作用。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:2.813秒