同时展示多张图形,体现更多变量
有一个办法能让图形多元化,即将多张相似的散点图相邻排放,下面是一个实例。
所有变量都绘制在这些图形中,这样就可以一举进行大量比较。由于新军队真正关心的是营业额的比较情况,所以,我们只要继续观察浏览时间、页面浏览次数以及回访率与营业额的关系。
动动笔
你刚才已经创建了一张相当复杂的图形,观察一下这张图,想一想,对于新军队决定进行测试的各种风格页,这张图说明了什么?
你认为这张图能有效地体现数据吗?为什么?
注意看这些点,你可以看出主页2上的点的分布情况与其他两种主页的情况大不一样。你认为主页2有什么蹊跷?
你认为这三种风格页中哪一种最能有效地让新军队关心的变量实现最大值?为什么?
动动笔解答
新图形有助于你了解风格页的比较性能吗?
你认为这张图能有效地体现数据吗?为什么?
当然能,9张图上的每一个点代表一位网站用户的感受,所以,即使数据点已经汇总并求平均,还是能完全看到所有的点。看到所有的点后,就能方便地对点的分布情况进行评估,平均线则便于我们看出每种风格页相对于其他风格页的表现,以及相对于新军队的目标值的表现。
注意看这些点,你可以看出主页2上的点的分布情况与其他两种主页的情况迥然不同。
你认为主页2有什么蹊跷?
看起来主页2表现很差,与其他风格页相比,主页2带来的营业额不多,浏览时间和浏览页数也同样糟糕。每一位网站用户的统计值都低于新军队的目标。主页2太差劲了,应该立即从网站上撤下。
你认为这三种风格页中哪一种最能有效地让新军队关心的变量实现最大值?为什么?
主页3表现最棒,从营业收入上看,尽管主页1的营业收入高于平均值,主页3却可以说是遥遥领先;至于回访率,主页1领先;访问页数则是两者并驾齐驱,但人们在主页3上的逗留时间更长。主页1能够带来较高回访率,这很了不起,但无法与主页3的高营业额相抗衡。
世上没有 傻问题
问: 我该用哪种软件工具来创建这类图形?
答: 这些专业图形是用一个叫做R 的统计数据分析程序创建的,本书后续章节将对此详加叙述。不过不必拘泥于此,统计行业还有许多可供使用的图表制作工具,例如可以使用Adobe Illustrator绘图程序,甚至可以自己画图实现软件工具实现不了的图形设想。
问: Excel和OpenOffice可以用吗?它们也有绘图工具。
答: 可以,说得不错。它们有一些绘图工具,但数量有限,你也许能够设法在电子表格中创建一张这样的图表,但恐怕得打一场硬战。
问: 听起来你对电子表格数据制图不是很热心?
答: 许多严谨的数据分析师习惯于使用电子表格程序进行基本计算和列表,却不会幻想将电子表格程序作为制图工具,这样做会让人伤透脑筋:使用电子表格程序只能创建屈指可数的几种图表,不仅如此,程序往往还会勉强你设定决策格式,而你本不打算如此。并不是你不能 用电子表格程序绘制优秀的数据图形,而是这样做会惹麻烦上身,要是学会使用R 程序之类,就不会有那么多的麻烦。
问: 要是我正在寻找制图灵感,电子表格菜单会不会让我如愿以偿?
答: 办不到,办不到!如果你要寻找设计灵感,可能需要看几本Edward Tufte写的书,他是数据图形化方面的最高权威,他的著作宛如一座奇妙的数据图形化博物馆,数据图形化有时被他称为认知艺术。
问: 杂志、报纸、期刊文章怎么样?
答: 培养对出版物数据图形质量的敏感度是个不错的办法,有些人比别人更擅长设计启发性图形,如果长期关注出版物,凭感觉就能发现技高一筹的作品。良好的起步方法是数一数出版物图形中的变量,只要一幅图中的变量达到三个以上,出版物就更有可能提供知性的比较,效果比只有一个变量的图好。
问: 我该怎么看待那些被复杂化、艺术化但无助于分析的数据图形?
答: 说到利用计算机绘制新颖的图形,这个时代并不乏激情与灵气,有些图形能够成为深度数据分析的推动力,有些只是让人过过眼瘾。数据艺术 这一说本身无可厚非,只是,除非有助于更好地理解隐含的数据,否则请别将数据艺术与数据分析混为一谈。
问: 这么说有些东西能让人过眼瘾但对分析并无启发,反过来呢?
答: 这就看你自己了。不过,要是你在分析中遇到了举棋不定的事情,而图形却对此有所启发,那么很难想象这幅图形会让你看着不顺眼!
让我们看看客户的想法……
图形很棒,但网站掌门人仍不满意
你的客户,也就是新军队网站掌门人,刚刚给你发了一封邮件,对你的工作评点了一番。让我们看看他说了些什么……
他想知道的是因果关系。
对于他来说,搞清楚哪种设计风格有成效只是暂告一个段落;为了让网站尽可能红火,还需要你点拨一下,人们为什么对不同的网页有不同的反应?
另外,由于他是客户,我们肯定需要论述他所提出的理论。
优秀的图形设计有助于思考的原因
你和客户青睐的模型通常都会与数据吻合。
但免不了会有其他可能性,尤其是在大家愿意插上想像的翅膀寻求解释的时候。其他模型情况如何呢?
当你描述你的数据图形时,需要论述可相互换用的两种因果模型或图解。 能完成这个任务说明你非常公正:让客户知道你不仅会展示自己最喜欢的一面,还会彻头彻尾地考虑自己提出的原理中可能存在的问题点。
实验设计师出声了
实验设计师知道了网站掌门人的理论,他们发来了自己的想法,也许他们的意见让你能够评估一下网站掌门人对“为什么有的主页表现比别的主页好”的假设解释。
动动笔
让我们看看数据,看老大的假设是否成立。
这些数据与某个假设条件吻合吗?
假设1:网页速度是主页3表现最佳的原因。
假设2:轻松的冷色调是主页3表现最佳的原因。
动动笔解答
你发现网站掌门人的假设与数据的吻合程度怎样?
假设1:网页速度是主页3表现最佳的原因。
这个假设无法成立,根据实验设计师们提供的消息,主页3不是访问速度最快的页面。按照一般规律,人们可能会偏爱速度较快的主页,但页面加载速度无法解释主页3在实验中的成功表现。
假设2:轻松的冷色调是主页3表现最佳的原因。
这个假设与数据相符。主页3是表现最好的页面,而且主页3的色调最冷。数据并没有证实色调是主页3表现出众的原因,但数据与假设吻合。
实验设计师们有自己的假设
他们已经有机会看过你的散点图,给你发来了他们对事情的看法。这些人都是数据精英,他们的假设必定恰当。
动动笔
根据所了解到的信息,你想向客户提供哪些网站战略建议?
动动笔解答
根据你所绘制的数据图形和你评估下来解释得通的理论,你想建议客户如何处理网站?
继续使用主页3,对用户体验进行细化测试,细化内容包括各种导航方式、风格、内容等。对主页3与众不同的表现可以有各种各样的解释,应对此进行调查并形成图表,但很明显,主页3已然胜出。
客户欣赏你的工作
你创建了一个优秀的图形,新军队可以在此图形中迅速同步评估所有的测试变量。
你根据不同的假设条件对图形进行了评估,为客户提出了出色的后期测试建议。
订单从四面八方滚滚而来!
由于网站面目一新,访问量今非昔比,一派繁荣。你的实验结果图让客户了解到需要了解的东西,网站因而粉饰一新。
更妙的是,新军队着手展开持久的实验程序对新设计进行提升,他们用你的图形考察实验结果。好样的!
5 假设检验
假设并非如此
世事纷纭,真假难辨。
人们需要用庞杂多变的数据预测未来,然而免不了剪不断,理还乱。正因如此,分析师不会简单听信浮于表面的解释,也不会想当然地认可这些解释的真实性:通过数据分析的仔细推理,分析师能够异常细致地评估大量备选答案,然后将手头的一切信息整合到各种模型中。接下来要学的证伪法 即是一种切实有效的非直觉方法。
给我来块“皮肤”……
你来到“电肤”公司,这是一家手机“皮肤”制造商;你的任务是弄清楚手机巨头PodPhone下个月是否要出一款新手机,诸多商机悬而未决。
PodPhone公司即将发布一款手机,时间待定,电肤必须在手机发布之前 的一个月开始生产手机皮肤,才能赶上手机销售第一波。
要是电肤不备妥手机皮肤迎接产品发布,竞争对手将抢先下手 占领市场;要是电肤生产了手机皮肤而PodPhone却不发布产品,投在手机皮肤上的钱就会打水漂 ,天知道这些手机皮肤哪年哪月才能开卖啊!
我们何时开始生产新手机皮肤?
首当其冲的问题是何时开始生产手机皮肤新系列。
PodPhone总是出人意料地发布产品,因此电肤必须搞清楚发布时间。如果电肤能在PodPhone发布之前的一个月开始生产,那么就万事大吉了。你能帮助电肤吗?
动动笔
哪一类数据或信息能帮助你着手分析这个问题?
动动笔解答
着手工作前需要了解哪些信息?
PodPhone盼望新产品一鸣惊人,所以可能会采取措施避免他人摸清新产品发布时间。我们必须具有某种洞察力,才能摸清他们的新产品发布时间,同时要摸清他们的决策信息。
PodPhone不希望别人看透他们的下一步行动
PodPhone非常在意产品是否一鸣惊人,他们完全不希望别人得知他们的意图。所以,绝不能只看公开数据就等着“他们何时发布PodPhone”的答案从天而降。
你需要弄清楚如何将手头的数据与自己假设 的PodPhone新手机的发布时间进行比较 。不过,首先让我们看看手头关于PodPhone的主要信息……
我们得知的全部信息
这里有一些关于产品发布的零星信息,电肤把这些信息拼凑在一起。有些是公开信息,有些是机密信息,有些只是传言而已。
动动脑
根据上面这些要考虑的证据,你认为她的假设有道理吗?
电肤的分析与数据相符吗?
首席执行官站在PodPhone的角度简单扼要地介绍了一步步思路,我们用图解方式记述她的说法:
这个模型,或者说这个假设,与证据相符 ,没有证据证明这个模型是错误的;当然,也没有证据强有力地证明这个模型是正确的。
推理看来很严谨……
电肤得到了机密《战略备忘录》
电肤滴水不漏地 注意着PodPhone的动静,于是有时就有这样的资料送上门来。
这份《战略备忘录》概括了PodPhone计算产品发布日期时所考虑的大量因素,比电肤首席执行官想象的要细致得多。
动动笔
仔细想一想,PodPhone《备忘录》中提到的各种变量相互间有何关系。下面这些关系对是同升同降还是背道而驰?按照自己的答案,在圆圈中添上“+”或“-”。
动动笔解答
按照PodPhone的想法,下面这些变量对之间有何定量关系?
变量之间可以正相关,也可以负相关
观察数据变量有一个好办法,问一问“这些变量是正相关 还是负相关 ”,若一种变量增大意味着另一种变量也增大,则为正相关;若一种变量增大意味着另一种变量减小,则为负相关。
右边是PodPhone发现的更多其他关系,你如何利用这些关系建立一个更大的模型 ,指出PodPhone确信的观点,使这个模型有可能预见到PodPhone发布新手机的时机?
动动笔
让我们将这些正相关和负相关变量关系编织成一个模型。
请用对开页上指定的关系绘制一个网络。
动动笔解答
将PodPhone的观点放到网络中后,你的PodPhone模型看起来怎么样?
现实世界中的各种原因呈网络关系,而非线性关系
线性等于直觉 ,关于“为什么PodPhone有可能推迟产品发布”的线性解释可谓简单明了。
可是,仔细观察PodPhone的战略报告就会发现,不管细节如何,他们的真实想法要比简单的线性分布图透露的东西复杂得多,PodPhone意识到,他们要在一个活跃、多变、互有联系的系统 中制定决策。
作为一位分析师,你的视野要比这个简单的模型开阔才行,要渴望看出因果关系网络 。在现实世界 里,各种原因在相关变量构成的网络中传导……你的模型怎么可能独善其身呢?
假设几个PodPhone备选方案
PodPhone迟早会发布手机新产品,问题是——何时 ?
回答这个问题有各种依据,这些依据都能成为分析假设 ,下面是几个依据选项,指出了产品的可能发布时间,电肤交给你的任务就是选出其中的正确假设。
用手头的资料进行假设检验
通过理解PodPhone的心智模型和自己手头的证据,你搜集到大量信息,摸清了电肤的心头大事:PodPhone何时发布新产品。
你需要用某种方法 整理这些思路,形成可靠的预测。
假设检验的核心是证伪
请勿试图选出最合理的假设,只需剔除无法证实的假设 ——这就是假设检验的基础:证伪 。
选出看上去最可信的第一个假设的做法称为满意法 ,如下所示:
满意法其实非常简单:选出第一个选项,其余不作处理。相反,证伪法则如下所示:
看来,满意法和证伪法让你得出了同样的答案,对吗?可并非一贯如此。满意法的严重问题 是,当人们在未对其他假设进行透彻分析的情况下选取某种假设时,往往会坚持这个假设,即使反面证据堆积如山,也往往视而不见。证伪法则让人们对各种假设感觉更敏锐 ,从而防止掉入认知陷阱。
进行假设检验时,要使用证伪法,回避满意法。
动动笔
试试证伪法,划掉有证据证明其错误的假设。
你为什么相信证据证明你所选取的假设是错误的?
动动笔解答
哪种假设被证明是错误的?
你为什么相信证据证明你所选取的假设是错误的?
证据无疑证实了假设1是错误的,因为首席执行官公开表明明天绝不会发布新产品。首席执行官可能在撒谎,但这未免太离谱了,我们仍然能够剔除假设1。假设5也被证明是错误的,因为PodPhone已经在手机上投入了那么多的钱,手机可能推迟发布或进行调整,但是,除非公司消失,否则很难想象他们会取消新手机。
世上没有 傻问题
问: 看来证伪法是一种分析形式很复杂的方法,真的有必要用这种方法吗?
答: 这是一种了不起的办法,可以克服人们专注于错误答案而无视于其他答案的天然倾向。通过强迫自己以完全正规的方式思考问题,会减少因忽视重要的特征情况而犯错误的可能性。
问: 这类证伪法与统计学上的假设检验有何关系?
答: 你在统计课上(或在《深入浅出统计学》中)可能已经学过一种对候选假设(备择假设)和基准假设(原假设)进行比较的方法,其目的是识别出一种情况:如果这种情况为真,则原假设几乎不可能成立。
问: 那我们为什么不用那种方法呢?
答: 这种方法有一个优点,能让你把品质各异的异质数据综合起来,这是非常普通的证伪法,对于复杂的问题非常有用。但是,定下心来使用上述频率论者假设检验方法肯定 没错,因为对于数据与参数相吻合的检验,你是不会想用别的方法的。
问: 我想,要是同事们看到我用这个推理办法,肯定觉得我疯了。
答: 要是你能挖出一些真正重要的东西,他们肯定不会笑你。优秀分析师的理想是找到复杂问题的非直觉答案,你会愿意聘用一个思想保守的数据分析师吗?如果客户真正有兴趣从数据中挖掘一些新信息,就会寻觅能想人所不能想的人才。
问: 看来并非所有假设都一定能被证伪,比如,某些证据可能会对假设不利,却无法推翻假设。
答: 完全正确。
问: 数据在哪里呢?我希望能看到更大量的数据。
答: 并非只有数字表格才叫做数据。假设检验中所使用的证伪法让你对“数据”有更广博的观察,能综合大量异质数据,你几乎可以将任何数据放入证伪结构中。
问: 使用证伪法解决问题和使用优化法解决问题有何差别?
答: 两者是适用于不同情况的不同工具。在某些情况下,你希望冲进“Solver”调整变量,直到得到优化数据;在另一些情况下,你希望使用证伪法来剔除对数据的其他可能解释。
问: 好。要是我无法用证伪法剔除所有假设,该怎么办呢?
答: 这问题可以入选“智力大转盘”!让我们看看该怎么办。
如何在剩余三个假设中做出选择?
你知道,选出看上去证据最充足的假设并不是一个好办法,而证伪法只帮助你剔除了两个假设,现在该怎么办呢?
动动笔
每种假设剔除技术各有何优缺点?
将各种假设与证据进行比较,挑出最可信任的一种。
简单地罗列所有假设,让客户决定是否开始生产手机皮肤。
对假设进行评级,不利证据越少的排在越前面。
动动笔解答
选出自己最喜欢的假设剔除技术了吗?
将各种假设与证据进行比较,挑出最可信任的一种。
这种做法很危险。问题在于我所拥有的数据并不齐全,可能有一些确实非常重要的信息,而我尚未得知,若果真如此,那么根据所知道的情况选择假设就很有可能得出错误的答案。
简单地罗列所有假设,让客户决定是否开始生产手机皮肤。
这当然是一种选择,问题在于我实际上对结论不承担任何责任,换句话说,作为数据分析师,我却只做了数据传递工作,没出息。
对假设进行评级,不利证据越少的排在越前面。
这是最好的办法。我已经用证伪法把肯定不成立的假设剔除掉了。现在,即使无法剔除剩下的假设,也能借助证据找出最强的假设。
只要是通过观察诊断性对证据和假设进行比较,就不会如此。
只要证据能够帮助你按照强弱程度对假设进行排列,它就具有诊断性 ,因此,我们的做法就是:将假设与证据逐条进行比较,看看哪种假设具有最强的证据支持。
让我们好好看看这个方法……
术语角
诊断性 是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性,就能帮助你对假设排序。
借助诊断性找出否定性最小的假设
只要能够帮助你评估各种假设的相对强度,证据和数据就具有诊断性 。下表对各种证据和假设逐条进行了比较,“+”表示证据支持 假设,—表示证据不利 假设。
在第一张表中,证据具有诊断性。
另一张表格则相反,证据并无诊断性。
进行假设检验时,重点是要识别和找出诊断证据,非诊断证据不会给你带来任何进展。
让我们看看这些证据的诊断性……
练习
仔细查看手头的证据,与每一个假设进行比较,用加号和减号及诊断性来评定这些假设。
1 说出每一条证据是支持还是反对每种假设。
2 划掉不具有诊断性 的证据。
练习解答
你的假设评定下来如何?
1 说出每一条证据是支持还是反对每种假设。
2 划掉不具有诊断性 的证据。
无法一一剔除所有假设,但可以判定哪个假设最强
尽管手头的证据无法让你仅留下一个假设而剔除其余所有假设,却可以在剩下的三个假设中找出否定证据最少的一个假设。
要是没有更多信息,这个假设就是你最好的选择。
你刚刚收到一条图片短信……
你的同事刚才在一家餐厅看到了这一队PodPhone员工。
大家正在分发新手机 ,尽管你的线人没法凑得很近,但他认为这就是那款手机。
这是新证据。
最好再看看假设表,可以把这个新信息放到假设检验中,然后再做一次,也许会帮助你更进一步分析各种假设。
动动笔
再做一次假设检验,这次加入新证据。
1 在证据表中加入新证据;确定新证据的诊断强度。
2 这条新证据是否改变了你对“PodPhone是否将发布新手机(电肤是否该开始生产)”的估计?
动动笔解答
新证据改变你对于各种假设的相对强度的看法了吗?如何改变?
1 在证据表中加入新证据,确定新证据的诊断强度。
2 这条新证据是否改变了你对“PodPhone是否将发布新手机(电肤是否该开始生产)”的估计?
确定无疑。难以想象开发团队会在不打算很快发布新产品时开庆祝会和派发手机。我们已经剔除了手机明天上市的假设,因此假设2看来的确可能是最好的假设。
即将上市!
你的分析准确无误,电肤设计了一系列非常酷的手机皮肤,就等PodPhone新机型上市。
干得好!
6 贝叶斯统计
穿越第一关
数据收集工作永不停息。
必须确保每一个分析过程都充分利用所搜集到的与问题有关的数据。虽说你已学会了证伪法 ,处理异质数据源不在话下,可要是碰到直接概率 问题该怎么办?这就要讲到一个极其方便的分析工具,叫做贝叶斯规则 ,这个规则能帮助你利用基础概率 和波动数据做到明察秋毫。
医生带来恼人的消息
你没有眼花——医生给了你一份蜥蜴流感 诊断书。
好消息 是蜥蜴流感并不致命,在家治疗几个星期即可痊愈;坏消息 是蜥蜴流感极其麻烦,你不得不歇业,不得不与心爱的人离别好几个星期。
医生确信你已染病在身。不过,由于你对数据分析已经得心应手,所以可能想看看试验 结果,了解了解试验结果的准确性 。
动动笔
火速上网搜索蜥蜴流感诊断试验,收获如下:试验正确性分析报告。
根据这个信息,你觉得自己患蜥蜴流感的概率有多大?是如何得出这个判定的?
动动笔解答
你刚刚看过一些关于蜥蜴流感诊断试验有效性的数据,经你判断,你的患病几率如何?
蜥蜴流感诊断试验
正确性分析报告
若某人已患蜥蜴流感:试验结果为阳性 的概率为90%。
若某人未患蜥蜴流感:试验结果为阳性 的概率为9%。
根据这个信息,你觉得自己患蜥蜴流感的概率有多大?是如何得出这个判定的?
小心!
对于这类问题,大多数人的答案都是75%——这大错特错了。
75%不止是个错误答案——它连正确答案的边儿都没摸着。要是想着“我得蜥蜴流感的概率为75%”,据此开始推断,结果会错得更离谱!
在得出正确答案之前,有太多问题需要解决。
我们要彻底从头开始……
让我们逐条细读正确性分析
分析报告针对试验给出了两类平分秋色的断言,表明:“阳性”试验结果的概率随试验对象是否患蜥蜴流感而发生变化。
因此,让我们想象有两个不同的空间 :一个空间里有大量的人患蜥蜴流感,另一个空间里几乎没有 人患蜥蜴流感;然后再来观察未患蜥蜴流感的人的“阳性”概率断言。
动动笔
仔细观察第二条断言,回答下列问题:
蜥蜴流感诊断试验
正确性分析报告
若某人未患蜥蜴流感:试验结果为阳性 的概率为9%。
动动笔解答
患病的人数是否会影响被误诊为阳性的人数?
蜥蜴流感诊断试验
正确性分析报告
若某人未患蜥蜴流感:试验结果为阳性 的概率为9%。
情形1
如果100人中有90人 患病,那么未患病但试验结果为阳性的有多少人?
这表示有10人不患病,10人的9%等于1人,这1人的试验结果为阳性但未患病。
情形2
如果100人中有10人 患病,那么未患病但试验结果为阳性的有多少人?
这表示有90人不患病,90人的9%等于10人,这10人的试验结果为阳性但未患病。
蜥蜴流感到底有多普遍?
看起来,起码对于未患病但试验结果为阳性这种情况,蜥蜴流感在总人数中占的分量有显著差别。
其实,除非我们不仅知道试验正确性分析结果,而且知道有多少人已患蜥蜴流感 ,否则,我们根本无法判断某人得蜥蜴流感的可能性有多大。
你计算的是假阳性
在前面的练习中,你算出了被误诊 为阳性 的人数,这种情况称为假阳性 。
与假阳性相对的是真阴性。
除了小心假阳性,还应考虑真阴性 。真阴性指的是未患疾病且检验结果为阴性。
动动笔
你觉得该用哪个术语描述这种情况,其反义词是哪个?
动动笔解答
你想用哪个术语描述蜥蜴流感诊断试验的反面?
这些术语说的都是条件概率
条件概率 即以一件事的发生为前提的另一件事的发生概率。假如 某人的试验结果为阳性,他患蜥蜴流感的几率有多大?
这是你一直在用的两条断言的条件概率记法:
条件概率记法
让我们看看这个表达式中的每个符号的含义:
以阳性试验结果为条件的蜥蜴流感概率。
你需要算算
要弄清楚某人患蜥蜴流感的概率,其根本在于了解这些数字代表的实际人数 。
但首先要知道有多少人患了蜥蜴流感,然后可以用这些百分比来计算符合每个组的实际人数。
1%的人患蜥蜴流感
研究表明总人口中有1%的人患有蜥蜴流感——这个数据可以用来分析试验结果,从人类的角度上看,这个人数非常多,但从总体人口的百分比上看,这个数字非常小。
1%是基础概率 ,在根据试验结果单独分析每个人的情况之前,你就已经知道患有蜥蜴流感的人口只有1%,因此基础概率又称作事前概率 。
疾病追踪中心正在关注蜥蜴流感
研究表明全国有1%的人患有蜥蜴流感
上周的最新数据表明,全国有1%的人口感染蜥蜴流感,尽管蜥蜴流感很少夺人性命,但患者需要隔离,以防感染他人。
小心基础概率谬误
这是谬误!
务必警惕基础概率,基础概率数据不一定在每种情况下都存在,但是,假如确实有这个数据而你却不用,那么,你将毁于基础概率谬误 ,即忽略事前数据并因此作出错误决策。
在本例中,你对自己患蜥蜴流感概率的判断完全 取决于基础概率,由于数据表明基础概率为1%的人口患蜥蜴流感,那么,90%的试验真阳性率看起来就不那么能说明问题了 。
动动笔
计算一下你患蜥蜴流感的概率,假定以1000人为基础进行计算,将人数填写在以下空白中,按照基础概率和试验指标分组。
蜥蜴流感诊断试验
正确性分析报告
若某人已患蜥蜴流感:试验结果为阳性 的概率为90%。
若某人未患蜥蜴流感:试验结果为阳性 的概率为9%。
动动笔解答
你重新算出来的自己患蜥蜴流感的概率为多少?
蜥蜴流感诊断试验
正确性分析报告
若某人已患蜥蜴流感:试验结果为阳性 的概率为90%。
若某人未患蜥蜴流感:试验结果为阳性 的概率为9%。
我患蜥蜴流感的几率为9%!
你患蜥蜴流感的几率仍然非常低
用简单的整数思考复杂的概率
当你想像着自己在观察1000个人时,就已经从思考小数概率转换为思考整数 。我们的大脑生来不擅长处理概率数字,因此,将概率转变为整数,然后进行思考,是避免犯错误的一个有效办法。
搜集到新数据后,用贝叶斯规则处理基础概率
信不信由你,你刚刚用了一次人们常用的贝叶斯规则,这是一个强悍无比的统计公式,有了这个公式,你就能用基础概率和条件概率估计新的条件概率。
如果你想用数学方法进行计算,可以使用下面这个怪模怪样的公式:
贝叶斯规则可以反复使用
贝叶斯规则是一个重要的数据分析工具,它提供了一种把新信息整合到分析中的精确方法。
医生采纳了这个建议,又做了一项试验。让我们看看结果……
第二次试验结果:阴性
医生上次没给你选更可靠、更先进的蜥蜴流感试验,因为收费贵那么一点儿。可既然第一项试验(便宜点、但准确性差一点)结果为阳性,就得来真格的了……
小心!
你之前把这些概率理解错了。
最好再分析一遍数据。现在你知道了,不考虑基础概率就紧张试验结果(甚至紧张试验正确性统计),不过是在添乱罢了。
新试验的正确性统计值有变化
用基础概率和新的试验统计值可以算出你患蜥蜴流感的新概率。
动动笔
你认为基础概率会是多少?
动动笔解答
你认为基础概率会是多少?
基础概率不会是1%,新基础概率是9%,我们刚算过,这正是我自己的患病概率。
新信息会改变你的基础概率
拿到第一项试验结果时,你把大家 的蜥蜴流感发病率当做自己的基础概率。
但你从试验结果中了解到,你患蜥蜴流感的概率高于基础概率;这个高概率是你的新基础概率,因为现在你属于试验结果为阳性的人群。
让我们赶快再用贝叶斯规则算一算……
动动笔
让我们以试验结果为条件,用新试验结果和经过修正的基础概率算一算你患蜥蜴流感的概率。
高级蜥蜴流感诊断试验
正确性分析报告
若某人已患蜥蜴流感:试验结果为阳性 的概率为99%。
若某人未患蜥蜴流感:试验结果为阳性 的概率为1%。
动动笔解答
算出你患蜥蜴流感的新概率了吗?
高级蜥蜴流感诊断试验
正确性分析报告
若某人已患蜥蜴流感:试验结果为阳性 的概率为99%。
若某人未患蜥蜴流感:试验结果为阳性 的概率为1%。
我患蜥蜴流感的机会是0.1%!
放心多了!
你用贝叶斯规则控制概率,并且现在知道如何管理基础概率了。
避免基本概率谬误的唯一办法就是对基础概率提高警惕,而且务必要将基础概率整合到分析中。
现在不用怕感冒了……
7 主观概率
信念数字化
虚拟数据未尝不可。
真的。不过,这些数字必须描述你的心智状态,表明你的信念。主观概率 就是这样一种将严谨融入直觉的简便办法,具体做法马上介绍。随着讲解的进行,你将学会如何利用标准偏差 评估数据分布,前面学过的一个更强大的分析工具也会再次登台亮相。
背水投资公司需要你效力
背水投资公司是一家商号,依靠在发展中市场谋求模糊投资 赚钱。他们选择的投资别人很难理解,甚至很难发现。
公司的战略意味着他们对分析师的才干 十分倚重,需要分析师具备无懈可击的判断能力和良好的关系,以便帮助背水公司得到所需要的信息,制定妥善的投资决策。
生意倒是绝妙的生意,可分析师们的纷争已经快把公司吵垮 了——激烈的分歧使得人心涣散,这将成为投资的一场灾难。
背水公司的内部危机有可能迫使公司关闭。
分析师们相互叫阵
背水公司的分析师在许多地缘政治趋势方面分歧严重,这给打算根据他们的分析进行投资的投资人带来了极大的问题;导致分歧的问题五花八门。
分歧 到底出在哪里?要是你能帮忙搞清楚分歧所在并让分析师们达成共识,那就太好了。要不然,最起码,要是你能以某种方法确定分歧,让背水公司的老板们认清自己的方向,也算不错。
让我们看看争吵内容……
动动笔
看看分析师们发给你的电子邮件,这能帮你了解分歧内容吗?
导致分歧的主要问题有哪些?
每封邮件的撰写人都用了一大堆话来描述他们对各种事件的可能性的看法。列出他们提到的概率用词。
动动笔解答
看过分析师们的电子邮件后,你对他们的争议有何印象?
导致分歧的主要问题有哪些?
看来,分歧包括6个方面:1)俄罗斯下一季是否会补贴石油业?2)俄罗斯是否会收购欧航航空公司?3)越南今年是否会减税?4)越南今年是否会鼓励外国投资?5)印尼旅游业今年是否会翻身?6)印尼政府是否会投资生态旅游?
每封邮件的撰写人都用了一大堆话来描述他们对各种事情的可能性的看法。列出他们提到的概率用词。
他们的用词有:可能,极不可能,可能性更大,有可能,可能不,不可能,可能会,肯定,大有机会。
吉姆: 这么说,是让我们来评评谁对谁错?没问题,看看数据就行了。
弗兰克: 别急,这些分析师非同一般,他们训练有素,经验丰富,是正经研究那些国家的专家。
乔: 对的,首席执行官说他们想要什么数据就有什么数据,他们能得到世界上最棒的消息。他们花钱买专有数据,他们派人刺探政府消息,他们还派人在现场做第一手调查。
弗兰克: 地缘政治学是一门很难琢磨的学问,它预测的是单个事件 ,这类事件没有大量频率数据可供进行更详细的预测。他们从各种渠道搜集数据,据此进行有根据的猜想。
吉姆: 你是说这些家伙比我们精,我们其实没办法帮他们解决分歧。
乔: 我们的数据分析掺进去只会让争论更激烈。
弗兰克: 其实,争来争去都是各个国家即将发生的事情的一些假设,分析师们一听到那些表示可能性的字眼就心烦意乱,可能?大有机会?这些话到底是什么意思?
吉姆: 所以你想帮他们找出更妥当的字眼来表达他们的感受?嘿,这似乎是在浪费时间。
弗兰克: 要找的可能不是字眼,而是让他们的判断显得更精确 的东西,虽说这些判断不过是某些人的主观信念……
如何让概率用词更精确?
主观概率体现专家信念
如果用一个数字形式的概率来表示自己对某事的确认程度,所用的就是主观概率 。
主观概率是根据规律进行分析的巧妙方法,尤其是在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下。
主观概率可能表明:根本不存在真正的分歧
动动笔
起草一份电子表格框架,其中包括需要请各位分析师提供的主观概率。你会如何构思呢?
动动笔解答
你想用来描述分析师主观概率的电子表格外观如何?
分析师们答复的主观概率
现在我们已经有所进展。
尽管你还没有找到办法消除这些人的分歧,但进展是肯定的,真正的分歧已经浮出水面。
从一些数据看来,分歧可能根本没那么大,至少对有些事情是这样。
让我们看看首席执行官对这些数据的看法……
首席执行官不明白你在忙些什么
他似乎并不觉得这些结果对解决分析师之间的分歧会有所助益。
你可能该向首席执行官解释、申述自己搜集这些数据的理由……
动动笔
你的主观概率表……
……比这些愤怒的邮件更有助于分析吗?
为什么?
动动笔解答
你的主观概率表……
……比这些愤怒的邮件更有助于分析吗?
这些主观概率表明,有些方面分歧并不像原先想象的那么严重。主观概率是对分歧内容和分歧大小的一种精确规范,分析师用主观概率帮助自己抓住问题焦点,以图解决问题。
动动笔
每个数值用一个点表示,代表相应的主观概率。
动动笔解答
分析师主观概率表在散点图上看起来如何?
首席执行官欣赏你的工作
发件人:背水投资公司首席执行官
收件人:Head First
主题:谢谢!
现在这东西的确大有帮助。我能看出,我们确实还有好些方面需要集中力量搞些更好的消息。
员工们看来并没有真正的分歧,这真是太好了。
从现在开始,除非分析师们用主观概率给我提供分析,否则我什么也不想听(客观概率也可,要是他们能办到的话)。
你能帮我把这些分歧按照分歧严重程度排个队吗?我想知道哪个说法是最有争议的。
首席执行官
每个人都能理解主观概率 ,但它远没有得到充分的运用。
优秀的数据分析师同时也是优秀的沟通者,主观概率则是一种向别人精确地传达你的想法和信念的富有启示性的表达方法。
动动脑
用哪种方法量度分歧和评定问题能让首席执行官一眼就看出最严重的分歧和问题?
标准偏差量度分析点与平均值的偏差
你想使用标准偏差 ;标准偏差量度的是典型的分析点与数据集平均值的差距。
数据集中的大部分点都会落在平均值的一个标准偏差范围内。
标准偏差的单位取决于测量单位,在上面的例子中,偏离平均值一个标准偏差等于0.1,或者说10%,尽管不少点都偏离两个或三个标准偏差,但大部分点都比平均值高或低10%。
在此可以用标准偏差量度分歧。主观概率偏离平均值的标准偏差越大,分析师们在假设成立的可能性方面的分歧就越大。
练习
计算每种说法的标准偏差;然后,按照分歧程度从高到低给问题排序。
你会用哪个公式计算说法1的标准偏差?
练习解答
你发现了哪个标准偏差?
你会用哪个公式计算说法1的标准偏差?
STDEV(B2:U2)
世上没有 傻问题
问: 主观概率不算有某种欺骗性吗?
答: 欺骗性?它的欺骗性要比“的确可能”之类的含糊说法低得多。听别人说话的人可能会在别人说的话里加入各种各样的含义,因此,指定一个概率实际上是一种欺骗性小得多的传达个人信念的办法。
问: 我的意思是,当有人看到这些概率的时候,难道不可能(抱歉,用了这个词)有这种印象:给出概率的人看上去对自己信念很肯定,其实他们心里并不是那么肯定?
答: 你的意思是说,因为数字是白纸黑字,所以看起来要比实际情况显得更有说服力?
问: 正是。
答: 这个顾虑有道理。但主观概率像其他数据分析工具一样:如果以欺骗为目的,那么骗人是很容易的;但只要确保客户知道你给出的概率具有主观性,那么,精确地指出你的信念,实际上对客户是个天大的恩惠。
问: Excel能画这些有小点点的奇特图形吗?
答: 能画,但比较麻烦。这些图形是用一个叫做R的程序画的,里面有一个函数dotchart。你会在后面的章节里领略到R的魅力。
俄罗斯宣布售出所有油田,称对商业失去了信心
惊人转变,俄罗斯总统对国有工业嗤之以鼻
“石油业到此为止”,俄罗斯总统今日早间在莫斯科新闻发布会上语惊四座,“我们对这个行业已经失去信心,对开采资源不再感兴趣……”
这条新闻让你措手不及
分析师们的最初反应是深感忧虑。背水投资在俄罗斯石油业投资巨大,很大原因是因为大家对政府会继续支持石油业有共识,这一点你已经看出来了。
说法1
俄罗斯下一季会补贴石油业。
可这条新闻会导致这些投资的价值大幅缩水,因为人们会突然觉得俄罗斯石油业出大问题了。但话又说回来,这个说法可能是俄罗斯的一种策略,实际上他们可能根本不打算出售油田。
动动笔
这表示你的分析错了吗?
你该怎么处理这个新信息?
动动笔解答
你大错特错了吗?
分析肯定没错,它正确地反映了分析师们用有限的数据得出的信念;问题在于分析师们错了——没有理由相信使用主观概率能保证主观概率的正确性。
现在怎么办?
我们需要回头修订全部主观概率。既然已经有了更多更准确的信息,我们的主观概率也有可能更为准确。
动动笔
最好选一种能够把新信息整合到你的主观概率结构中的分析工具。你为什么选择该工具?
实验设计?
最优化?
美观的图形?
假设检验?
贝叶斯规则?
动动笔解答
最好选一种能够把新信息整合到你的主观概率结构中的分析工具。你为什么选择该工具?
实验设计?
设计一种可以得到更准确数据的实验有点难,因为所有的分析师都在评估地缘事件,看起来他们所分析的每一条数据都是观察数据。
最优化?
没有可靠的数字数据!我们学过的最优化工具都是假设你手头有数字数据和想要最大化和最小化的数字结果,而这里没有任何最优化信息。
美观的图形?
美观的数据图形总是能派上用场。一旦我们修订好主观概率,肯定想画一张新图形;但眼前,我们需要的是能提供更可靠数据的工具。
假设检验?
假设检验肯定能在这种问题中发挥作用,分析师们可以利用假设检验推导出有关俄罗斯动向的信念。但我们的工作是搞清楚新数据会让人们的主观概率发生什么变化,假设检验在这方面的作用尚不明确。
贝叶斯规则?
看起来有希望。我们也许能将每位分析师的第一个主观概率作为基础概率,用贝叶斯规则处理这个新信息。
贝叶斯规则是修正主观概率的好办法
贝叶斯规则可不是专门用来分析蜥蜴流感的!它对于主观概率也大有作用,通过它可以把新证据整合到针对假设条件的信念中。试算一下这个更常用的贝叶斯规则,其中H代表假设 (或者基本概率),E代表新证据 。
使用贝叶斯规则求主观概率的根本在于找出在假设成立的条件下,证据出现的概率 。
当你严格要求自己将一个主观概率分配给这个统计值之后,贝叶斯规则就能算出其余数据。
你已经有了这些数据:
你只需要让分析师们给你这些数据:
是可以。让我们看看这意味着什么……
面对面
今夜谈:贝叶斯规则先生和直觉先生
直觉: | 贝叶斯规则: |
我不明白,为什么分析师们不让我另外再给一个主观概率,上一次我不是做得很好嘛。 | |
|
你当然很棒,我迫不及待地要把你第一次提供的主观概率当做基础概率。 |
哦,谢谢你投我信任票,但我仍然对分析师得到我的第一意见后就把我一脚踢开不以为然。 | |
|
啊,并非如此!你依然非常重要,我们需要你提供更多的主观概率,指出我们在假设成立或假设不成立的条件下看到证据出现的几率。 |
我还是不明白,为什么我不能直接给你一个新主观概率,指出俄罗斯将继续支持石油业的几率? | |
|
用我来处理这些概率是一种严谨、正式的方法,可以将新数据整合到分析师的信念结构中。此外,即使分析师意识到自己的错误,我也能保证不让他们对自己的主观概率矫枉过正。 |
真的有人会这样想吗?当然,我明白有些人在计算患病概率时会用你,可对于主观概率也是如此吗? | |
|
不错,确实,分析师当然不必一有新消息就用我。但如果风险太大,他们就确实需要我。如果有人觉得自己可能得了某种病,或者有人要进行大额投资,他就想用分析工具。 |
我猜,我得学会告诉分析师在合适的条件下用你。我就是希望你多点儿直觉。 | |
|
要是你愿意,我们可以画1000幅俄罗斯形势图,就像上一章一样…… |
别!哥儿们,太烦人了…… |
练习
下面这张电子表格列出了从分析师们那儿收集的两组新主观概率。
1) P(E|S1):每位分析师针对“俄罗斯宣布他们将卖出油田”(E)给出的主观概率;假设条件:俄罗斯将继续支持石油业(S1)。
2) P(E|~S1),每位分析师针对“俄罗斯宣布他们将卖出油田”(E)给出的主观概率;假设条件:俄罗斯将不继续支持石油业(~S1)。
练习解答
你用哪个公式来实现贝叶斯规则,并以此得出“俄罗斯是否支持石油业”的新主观概率?
动动笔
用对开页上的数据在下图中画出每位分析师的主观概率点。
作为参照,图中给出了新报导出炉之前大家对“俄罗斯是否继续支持石油业”这个假设的信念(散点)。
新主观概率点和旧主观概率点的分布情况相比如何?
首席执行官完全知道该怎么处理这条新信息了
经过仔细调查,分析师们得出结论:不管俄罗斯是不是真的会停止支持石油业,俄罗斯媒体都有可能报导出售油田的消息。
因此,报导最终并未给他们的分析带来太大改变,虽然有三个例外,但在相同假设条件下,分析师们对于“俄罗斯会支持石油业”的新主观概率“[P(S1|E)] ”与他们先前给出的主观概率“[P(S1)] ”非常相似。
但分析师对了吗?
俄罗斯股民欢欣鼓舞!
分析师是对的:俄罗斯所谓的卖出油田是虚张声势,当众人意识到这一点,股市立即反弹,这对于背水投资来说真是太好了。
看来你的主观概率让背水投资公司冷静下来,大家各得其所!
8 启发法
凭人类的天性作分析
现实世界的风云变幻让分析师难以料事如神。
总有一些数据可望不可及,即使有所能及,最优化方法也往往艰深耗时 。所幸,生活中的大部分实际思维活动并非以最理性的方式展开,而是利用既不齐全也不确定的信息,凭经验进行处理,迅速做出决策。奇就奇在这些经验确实能够奏效 ,因此也是进行数据分析的重要而必要的工具。
邋遢集向市议会提交了报告
邋遢集是由数据邦市市政府资助的 一个非赢利团体,他们进行公共宣传,劝说人们不要乱扔垃圾。
他们刚刚把最近的工作结果汇报给了市政府,结果出乎意料。
最后一句话实在让人担心,要是没法说服市议会相信邋遢集的公共推广活动符合市政府预期,邋遢集很快就会惹上大麻烦。
邋遢集确实把镇上打扫得干干净净
在邋遢集开始管理之前,数据邦市确实可谓脏乱差,有些居民不珍惜家园,到处乱扔垃圾 ,这破坏了数据邦市的环境和外观,可邋遢集来了以后,一切都变了。
要是市政府削减资金就糟了 ,邋遢集需要你帮忙告诉大家他们的活动是成功的,这样市议会就会继续提供资金。
动动笔
想出可能使用的计量方法完成任务。到底该从哪里 获得散乱垃圾的减小量数据呢?
动动笔解答
到底该从哪里获得数据说明邋遢集的工作已经导致散乱垃圾量减小了?
可以请清运工把乱扔的垃圾和普通垃圾分开,然后分别称量;还可以在数据邦市这个以垃圾乱飞著称的小镇上设置一些专门收集垃圾的地方。邋遢集做过这样的计量了吗?
邋遢集已经 计量了自己的工作效果
邋遢集计量了自己的工作成果,但不是计量以上练习中所设想的垃圾量,他们另有一套 :公众调查。下面是一些调查结果。
他们的根本策略是改变人们的行为习惯 ,让他们不再乱扔垃圾。让我们看看他们的总结……
他们的任务是减少散乱垃圾量
而向人们宣传改变行为习惯的必要性将减少散乱垃圾量,对吗?这是邋遢集的基本立场,调查结果确实表明公众意识有所改善。
但市议会对此报告感受不深,你需要帮助邋遢集弄清楚他们是否完成了任务,然后说服市议会相信他们工作有成效。
动动笔
邋遢集的工作成果是否表明数据邦市的散乱垃圾量有所减小?
动动笔解答
数据是否表明散乱垃圾量在邋遢集的努力下有所减小?
假如有人相信报告中指出的人们信念的改变会对散乱垃圾量有影响,那么数据可能能够表明散乱垃圾量在邋遢集的努力下有所减小。但是,数据本身只谈到了公众观念,却没有任何与散乱垃圾量有关的明确信息。
计量垃圾量不可行
这可能是个问题 。市议会希望看到邋遢集拿出证据证明他们的活动减少了垃圾量,但我们给市议会的只有这份观点调查表。
如果直接计量垃圾量在物流上的确不可行,那么,提供垃圾减小量数据这个要求可能会让邋遢集功亏一篑。
问题刁钻,回答简单
邋遢集明白,大家希望他们做的是减小散乱垃圾量,但他们决定不作计量,因为这样做费用太高。
这办法快捷、方便、清楚,可这并不是市议会要看的东西。
对刁钻的问题做出这种反应实属极其常见、极其人性的现象。我们都碰到过在经济上或认知上 (下面很快会谈到这一点)很费力的刁钻问题,对于这种棘手的问题,人们天生的反应就是答非所问。
在分析问题时,这种简单化 的方法可能会显得极其错误,尤其对于数据分析师来说,但可笑的是,这方法在很多情况下确实有效,而且,正如你即将看到的,有时这是唯一的选择 。
数据邦市的散乱垃圾结构复杂
这是邋遢集的内部调查文件,文件记录了你有可能想计量的散乱垃圾项目。
这是邋遢集总监对这个庞大的系统的解释,她还谈了这种复杂性对邋遢集的工作造成的影响。
发件人:邋遢集总监
收件人:Head First
主题:我们为什么无法计量垃圾量
为了计量垃圾量,我们得在所有联络点(处理站、填埋点等)安排员工,随时待命。市里的工人不会为我们记录数据,因为他们已经够忙了。
在联络点安排员工会让我们的费用变成市里给我们的费用的两倍,就算不干别的 ,光是计量散乱垃圾量,也没有足够的钱来完成。
另外,市议会只关心垃圾量是完全错误的。
数据邦市的散乱垃圾其实是一个复杂的系统,扔垃圾的人各种各样,垃圾种类各种各样,扔垃圾的地点各种各样,忽视整个系统而只关心一个变量是不对的。
无法建立和运用统一的散乱垃圾计量模型
为了计量或设计一个最优化散乱垃圾控制方案而创建的任何模型都需要考虑极多的变量。
不仅需要用常用的量化理论 来了解这些元素之间的相互作用,还要知道如何处理其中一些变量(决策变量 ),以便使散乱垃圾量降至最低。
就算手头有所有的数据,这也是个麻烦事 ,何况你已经知道,要得到所有这些数据费用太高。
还有可能让市议会看到他们想看的东西吗?
吉尔: 乱七八糟,市议会要我们拿出没法拿出的东西。
弗兰克: 是啊,即使我们能够提供减小的垃圾量数据,也没有什么用;系统太复杂了。
乔: 嗯,这些数据不会让市议会满意。
吉尔: 不错,我们的工作不只是为了让市议会满意,而是减小垃圾量。
乔: 我们不能捏造些数据吗?比如自己估计垃圾量?
弗兰克: 这是个想法,但很不可靠,我意思是,市议会看来的确是一支强干的队伍,要是我们捏造些主观数据来冒充垃圾量数据,他们可能会翻脸。
吉尔: 捏造数据肯定会让邋遢集的资金泡汤,也许我们可以说服市议会相信观念调查结果的确是垃圾量减小的可靠数据?
弗兰克: 邋遢集已经试过了,没看见市议会在对他们吼叫吗?
吉尔: 我们可以搞个评估,除了公众观念,再加上一些别的变量。也许我们该试着把能用的各个变量集中起来,然后再对所有其余变量 进行主观猜测?
弗兰克: 嗯,这也许行……
确实可以从增加几个变量开始。
如果你打算选取一两个变量,然后根据这些变量对整个系统作出结论,据此评价邋遢集的工作成效,这就是在使用启发法 ……
启发法是从直觉走向最优化的桥梁
你是凭冲动做决定,还是凭几个精心选取的关键数据做决定?或是构建一个包含所有变量的模型,然后得出最佳答案?
答案可能是以上都对,而这些答案却代表完全不同的思维方式——认识到这一点很重要。
每当解决一个最优化问题,就会找到代表目标函数最小值或最大值的一个 或多个答案。
对于数据分析师来说,最优化可谓理想境界,要是所有的分析问题都能确定无疑地获得解答,可谓顺风顺水。然而,大多数思维活动都是启发式的 。
术语角
启发法 1. (心理学定义)用一种更便于理解的属性代替一种难解的、令人困惑的属性 。2. (计算机科学定义)一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案 。
有些心理学家甚至论述,人类的一切 推理都是启发式的;而最优化是一种理想境界 ,只有在问题超规范 的情况下才能发挥作用。
然而,不管是谁 ,只要打算迎战超规范的问题,就要做个数据分析师 ,因此还不能丢掉Solver。只是别忘了在分析工具装备中收藏构思合理的启发式决策方案这个必不可少的工具。
世上没有 傻问题
问: 把一个无法保证得到正确答案的决策过程叫作数据分析,真稀奇。难道不该把这种事叫作猜想吗?
答: 不能这么说!你看,数据分析的根本在于妥善分解问题、为数据套上适当的心智模型和统计模型、作出正确的判断,但并不保证次次得到正确答案。
问: 假如我的目标是最优化,可我稍稍试了一下启发式思考,感觉不错,难道我就说不上在坚持寻找最优化结果了?
答: 那样说很公正。要是手头有更好的、可行的最优化工具,当然没人想用启发式分析工具,但重点是要认识到,启发法是思维过程的基本组成部分,也是数据分析方法的基本组成部分。
问: 那么心理学对启发法的定义和计算机科学对启发法的定义有何区别?
答: 其实这两种说法非常相似。在计算机科学中,启发式算法能够解决一些问题,但人们无法证明 这种算法能够无一例外地得到正确答案;计算机科学中的启发式算法常常比那些能够保证得到正确答案的算法更快、更简单;还有,往往一个问题只能用启发式算法来解决。
问: 这和心理学有何必然关系?
答: 心理学家通过实验研究发现,人们时刻在使用认知启发法。争相引起人们注意的数据实在太多,于是人们必须凭经验作决定。为数众多的典型经验在人们的脑海里根深蒂固,总的来说,这些经验的确很有效。
问: 人类的思维过程与最优化过程并不相似,这颇为明显?
答: 各人有各人的看法。对于那些坚定地认为人类是理性 生物的人来说,“人们不是以较全面的方式思考所有感官信息,而是使用收效显著但含混不清的经验法则”这个说法可能会让他们感到不快。
问: 这么说,“大量推理都是启发式的”这个事实说明“人是非理性的”?
答: 这要看你怎么定义理性这个词。如果理性代表这种能力——以闪电般的速度处理海量信息的每一个数位、构建完美的模型利用这些信息、能够无可挑剔地执行模型给出的建议,那么,没错,你是非理性的。问:这真是对理性的高标准定义。
答: 如果你是一台计算机,这标准就不算高。
问: 这正是我们让计算机为我们做数据分析的原因!
答: Solver之类的计算机程序生存在认知世界里,这个世界的依据信息由你决定,而你对依据信息的选择则受制于自己的思维以及手头的数据。不过,只要有了这些依据信息,Solver就能以完全理性的方式工作。
问: 又由于一切模型都是错误的,但其中一些是有用的,即使用计算机计算最优化问题,一旦应用范围扩大,也会与启发式算法颇为相似。所选择的依据数据恐怕永远无法涵盖与模型有关的一切变量;于是只得挑选最重要的变量。
答: 这么想吧:数据分析的根本在于工具 。优秀的数据分析师懂得如何使用各种工具调整数据,以便解决现实问题。对于自己是否够理性,没有必要听天由命。学习工具,灵活地使用工具,就能够完成大量高难度的工作。
问: 但是,数据分析没法保证得到所有问题的正确答案。
答: 是的,没办法保证,要是你不小心忘记了这一点的话,就会出差错。分析存在于现实与模型之间的预期 差距是数据分析的一个重要内容,后面几章将讨论控制误差的精湛技术。
问: 所以,虽然启发法在我的大脑里根深蒂固,但我也可以形成自己的想法?
答: 一点儿也不错。对于数据分析师来说,真正重要的一点是:明白这种现象会发生在自己身上。为此我们来试一下……
使用快省树
下边是一种启发法,描述了处理有垃圾需要废弃这个问题的不同方式,规则很简单:如果旁边有垃圾箱,就把垃圾扔进垃圾箱;否则,就等找到垃圾箱后再扔。
这种描述启发法的图形被称为快省树 ,快是指完成这个过程费时不多,省是指不需要大量认知资源。
市议会所需要的是能够估算邋遢集工作质量的启发法。他们现在的启发法不可行(我们必须说服他们相信这一点),同时他们拒绝接受邋遢集现在用的启发法。
你能画一支快省树表示一种更好的启发法吗?让我们和邋遢集谈谈,看看他们对更可靠的决策过程有何想法。
是否有更简单的方法评估邋遢集的成就?
使用启发法计量邋遢集的工作指的是在下面这些变量中选取一个或多个进行分析。邋遢集总监认为哪种方法最好?
动动笔
画一支快省树描述市议会该怎样评估邋遢集的成就,但一定要加入邋遢集认为重要的两个变量。
最终的裁决将是:是否继续资助邋遢集。
动动笔解答
你创建了哪种启发法评估邋遢集的工作成就?
看来至少有一位市议员已经拿定了主意 ,混蛋,这家伙完全错看了邋遢集。
动动笔
这位市议员正在使用启发法。画一张图描述他的思考过程,体现他对邋遢集的预期 。要是你想说服这家伙相信你的启发式评估设想行之有效,就得理解他的推理方式。
动动笔解答
想想这位不开心的市议员如何形成自己的预期?
固定模式都具有启发性
固定模式必定具有启发性:处理固定模式不需要大费力气,而且速度超快。嘿,有了固定模式,甚至都不用为正在判断的事情搜集数据。使用启发法时,固定模式行之有效 ;但在本例以及大多数情况下,固定模式会导致做出欠缺推理的结论。
启发法并非百试不爽。快而省的经验可能有助于找出某些问题的答案,而在其他情况下,却先入为主地让你做出不恰当的判断。
启发法有可能危险至极!
让我们听听环卫工人的说法……
分析完毕,准备提交
启发法,手头数据,再加上环卫工人刚刚给你的这段答复:可以准备向市议会解释你的观点了。
动动笔
回答下列问题,这是市议会针对你对邋遢集的分析提出的问题。
为什么你不能直接计量垃圾量?
你能证明邋遢集的活动有效果吗?
你能保证你的策略持续有效吗?
为什么不花钱打扫,而是花钱说教?
你们这帮家伙和其他人一样没用。
动动笔解答
你是如何答复市议会的?
为什么你不能直接计量垃圾量?
我们能够计量。问题是那么做太费钱了——费用是你们实际支付给邋遢集的工作费用的两倍。所以,最好的做法是用这个启发法来评估绩效,方法很简单,但我们相信会有效。
你能证明邋遢集的活动有效果吗?
所有的数据都是观察数据,我们无法证明公众乱扔垃圾意识的改善以及环卫工人相信已经发生的散乱垃圾的减小是邋遢集的工作成果,但我们的确有理由相信,是邋遢集的活动造成了这些结果。
你能保证你的策略持续有效吗?
生活中没有万无一失的事,但只要能够让公众意识保持宣传活动后的进步状况,很难想象大家会突然重新大扔垃圾。
为什么不花钱打扫,而是花钱搞教育?
要是只打扫不教育的话,就不叫减少乱扔垃圾行为,因为没做什么让人们不再乱扔垃圾的事;应该叫做赶紧搞卫生,这可不关邋遢集的事。
你们这帮家伙和其他人一样没用。
我们无法替其他非赢利组织辩护,但我们对自己在做什么心知肚明,我们知道如何计量结果,我们绝不是无能之辈。你什么时候说过你们要改选来着?
看来你的分析打动了市议会的议员们
备忘录
回复:邋遢集及数据邦的乱扔垃圾问题
市议会很高兴与邋遢集续签合同,这得归功于Head First数据分析师的出色分析。我们认识到,先前对邋遢集的工作评估中,没有充分全面地考虑数据邦的乱扔垃圾问题,低估了公众观念和行为的重要性。你们重新拿出的新决策过程设计得非常出色,希望邋遢集继续坚持对自己高标准严要求,今年,数据邦市议会将增加对邋遢集的资助,我们希望这有助于……
由于你的分析,数据邦会一直保持干净。
谢谢你的努力工作,谢谢你能洞察分析这些问题,为自己能帮助数据邦保持干净整洁感到自豪吧!
9 直方图
数字的形状
直方图能说明什么?
数据的图形表示 方法不计其数,直方图是其中出类拔萃的一种。直方图与柱状图有些相似,能迅速而有效地汇总数据。接下来你将用这种小巧而实用的图形量度数据的分布、差异、集中 趋势等。无论数据集多么庞大,只要画一张直方图,就能“看出”数据中的奥妙。让我们在本章中用一个新颖、免费、无所不能的软件工具 绘制直方图。
员工年度考评即将到来
最近你一直在进行一些出色的分析项目,年度考评来得正是时候。
头头们想了解你对自己的看法。
你的工作无可挑剔 。
你值得嘉奖。
不是口头的,而是……再来点别的,真正的 嘉奖。哪种呢?该怎么实实在在地弄到手呢?
动动笔
最好动动脑筋想想办法,争取得到嘉奖。写一写该怎么回答这些问题。
该对老板感激涕零,然后等着好事上门?只要老板认为你有价值,就会奖励你,对吗?
该给自己绝对正面的评定,也许还要吹嘘吹嘘自己的才干?然后要求大幅加薪 ?
你能否设想一个数字化的方法来应付这种情况?
不管你怎么回答上一页的问题 ,我们都认为你该要求加薪。毕竟,工作这么卖力不是为了锻炼身体。
伸手要钱形式多样
人们在试图要求老板加薪时会变得浮躁,这也难怪啊!结果各种各样 ,但并不都是好结果。
进行研究有助于预测结果吗?
即使你觉得自己的情况与众不同,了解老板的基准期望可能仍然不失其意义。
这是历年加薪记录
由于你潜心研究星巴仕数据,因此得以一窥内幕:人力资源部过去三年加薪记录。
你可能能够从这些数据中刺探到一些非常可靠的信息。假设老板的做法与前几任老板的做法相似,这些数据就能让你知道该对加薪有何期盼。
动动脑
你会怎么利用这些数据呢?能想出办法充分发挥这些数据的作用吗?
吉姆: 我们应该把这些数字忘掉,尽量多争取。数字不会让我们知道别人认为我们配得多少工资。老板心里有一个数字范围,我们要想办法争取上限值。
乔: 我同意大部分数字都对我们没用,不会让我们知道别人认为我们配得多少工资。我也不知道该怎么摸清这一点。数字会让我们知道平均值,要求平均水平准没错。
吉姆: 平均水平?你准是在开玩笑,干嘛想着中等?目标定高点!
弗兰克: 我想应该更细致地分析分析,我们的信息很充分,谁知道这些数据会告诉我们什么呢?
乔: 我们必须保险点,要随大流。中等水平很保险,只要求出加薪列的平均值,然后要求加这么多就行了。
吉姆: 真是缩头乌龟!
弗兰克: 看,数据表明职员是否提出过加薪、加薪年份、职员性别。这些数据对我们很有用,我们只要把数据调整成合适的格式就行。
吉姆: 好吧,高手,说来听听 。
弗兰克: 没问题。首先,我们得想办法把这些数字整理成更有意义的……
最好汇总一下数据 。数据太多则很难一口气看完、看懂,除非先进行汇总,否则无法彻底领悟数据的意义。
先从将数据分解成基本数据块着手,有了这些数据块,就能观察平均值或其他你认为有用的汇总统计值。
该从哪里着手汇总这些数据呢?
动动笔
如你所知,许多分析工作都包括提取信息、将数据分解成易于管理的较小数据块这样的过程。
画一张图,说明如何将这些数据分解成更小的数据块。
可以用哪种统计值来汇总这些因素?设计几张表格,将数据和汇总统计值整合在一起。
动动笔解答
你会把数据分成哪几种数据块?
按照想象中的数据组的样子,准备动手,开始汇总。
在需要分割、汇总复杂的数据集时,你会想用最优秀的软件工具完成繁重的工作。既然如此,让我们动手用软件来揭示这些加薪数据的真相吧。
一试身手
画一张图体现获得各种加薪幅度的人数,这样就能一目了然地观察整个数据集。
所以,让我们创建一个汇总……或者,更好的做法是,让我们用图形方式 创建一个汇总。
1 打开Data Analysis(数据分析)对话框。
在OpenOffice和较旧的Excel版本中 ,可以在Tools(工具)菜单下查看Data Analysis(数据分析)按钮。
2 选择直方图。
3 选择数据。
4
创建图形后结果如何?
直方图体现每组数据的发生频数
直方图 是一种功能强大的图形,无论数据集多庞大,直方图 都能显示出数据点在数值范围内的分布 情况。
例如,你在上一个练习中想象过的图形会告诉你有多少人得到了5%的加薪。
这个直方图用图形方式显示出获得每种加薪幅度的有多少人,还简要显示出加薪分布情况。
另一方面,Excel的输出结果存在一些问题:区间 (或组距)采用默认设置,结果X轴的数值杂乱不齐。X轴上代表各个区间的数字应为整数,相比使用小数,这样的图更易于观察。
当然了,你可以调整一下设置,让这些区间更接近你最初设想的数据表。
不过,即使这个图也有一个严重的问题,你能指出来吗?
直方图不同区间之间的缺口即数据点之间的缺口
直方图上的缺口意味着区间与区间之间没有数据。比如,如果没有任何人的加薪幅度是5.75%到6.25%,则图上会出现缺口。如果直方图上看得到缺口,可能真的值得好好调查 。
实际上,如果区间比数据点多,直方图上免不了出现缺口(除非数据集是反复出现的相同数字)。
直方图细节
这正是这个缺口应该 表示的确切含义,起码在直方图绘制正确的时候是这样的。如果你认为这张直方图是正确的,并且数值之间有缺口,那你就大错特错了。你需要用一个软件工具创建一张更好的直方图。
Excel函数的问题是生成了一些杂乱虚假的区间,十分具有欺骗性,通过一种技术手段可以解决这些问题(对于Excel,只要有时间用Microsoft专有编程语言编写代码,几乎总是能找到解决问题的办法)。
不过,这已经是第9章,你已经解决了许多大问题,已经做好准备使用比Excel更强大的软件工具 处理统计问题。
你所需要的是名为R的软件,这是一款免费的开放源程序,可能会成为统计学计算方法的未来,你就要开始钻研这款软件了!
安装并运行R
请访问www.r-project.org ,下载R程序。在身边找一个镜像获得适用于Windows、Mac和Linux的R程序,这并不困难。
放轻松
指令提示是你的朋友
尽管使用指令提示最初会让人多费点儿脑筋,它却能让你更快掌握要领。通过输入“Edit(你的数据)”指令,总是能成功地把数据转变成电子表格风格的图形。
将数据加载到R程序
你要用的第一条R指令是:使用source指令尝试加载《深入浅出数据分析》(Head First Data Analysis )脚本。
该指令会将R所需要的加薪数据加载到程序中,加载过程需要连接互联网。如果想保存R会话,以便在断开互联网的时候重新访问Head First数据,可以输入“save.image()”。
下载好了吗?首先看看下载内容中的Employees(雇员)数据框架 ,输入下面这个指令并按下Enter(回车):
employees
上边的输出结果就是R对指令的响应。
练习
在R中输入下面这条指令,生成直方图:
你觉得指令行中的各个因子是什么意思?解释你的回答。
练习解答
你觉得这个直方图指令是什么意思?
R创建了美观的直方图
直方图的柱体不仅能够量度被计量事物的数目(频数 ),还能体现各个区间所代表的整个数据集的百分比。
仔细观察曲线轮廓 ,很多事情显而易见:加薪幅度低于0的人不多,加薪幅度高于22%的人也不多。
但图形中央 情况如何呢?
这幅图让你得出什么结论?
练习
下面这些指令会让你对手头的数据集了解更深,还能得知人们的加薪分布 。请运行指令,看情况如何。
这两条指令有何作用?
仔细观察直方图。从图上观察到的结果与R通过这两个指令得出的结果相比如何?
练习解答
你刚才执行了一些指令演示加薪数据集的汇总统计值。你认为这些指令有何作用?
这两条指令有何作用?
sd指令返回指定数据范围的标准偏差,summary()指令显示received(实际加薪)列的汇总统计值。
仔细观察直方图。从图上观察到的结果与R通过这两个指令得出的结果相比有何差别?
直方图很好地体现了平均值、中间值和标准偏差。通过观察直方图,虽然无法看出具体的数值,但可以形成对数字的感觉。
乔: 如果直方图是对称的,则平均值和中间值会处于相同的位置——正中间。
弗兰克: 对。但在这个实例中,右侧的小峰将平均值拖离大峰的中心,而大部分观察对象都位于这里。
乔: 我在苦苦思考这两个峰,它们意味着 什么呢?
弗兰克: 也许我们该重新看看先前划分的数据块,弄清楚这些数据块是否和直方图有些关系。
乔: 好主意。
动动笔
你能否想出办法用先前划分的数据组来解释直方图上的两个峰?
动动笔解答
先前划分的数据组对直方图上的两个峰有何影响?
可能会有年限差别:例如,2007年的加薪平均值可能比2006年的高得多;还可能有性别差别:男性的加薪平均值可能会高于女性,或反之;当然,所有的数据都是观察数据,因此观察得出的所有关系不一定有实验数据那么有说服力。
世上没有 傻问题
问: 这么说,我们似乎能灵活处理直方图外形。
答: 确实如此。应该把创建直方图这一步骤本身视为一种解释,而不是先于解释的任何步骤。
问: R用于创建直方图的默认值一般都合适吗?
答: 一般是的。R 努力寻找能够最好地体现数据特点的分区数目和坐标,但R 并不理解 所绘制的数据的含义。正如使用汇总函数一样,快捷、简便地绘制直方图没什么不好的,但在根据观察结果做出重要结论之前,还需用合适的方法使用直方图(并重新绘制直方图),以免忘记自己的观察目标和分析目标。
问: 任意一个峰都是“铃形曲线”吗?
答: 很好的问题。通常,当我们想到铃形曲线时,指的都是正态分布或高斯分布,但还存在一些其他类型的铃形分布,以及许多非铃形的分布形状。
问: 那么正态分布有何重大意义?
答: 只要数据呈正态分布,大量高效而简单的统计方法就能派上用场;大量的自然数据和商业数据都呈现自然分布的形状(或可以以某种方式进行“转化”为自然分布的形状)。
问: 我们的数据是正态分布吗?
答: 你所评估的直方图肯定不是正态分布。只要峰的数目超过一个,就不能称为铃形。
问: 但数据中肯定有两个貌似铃形的峰!
答: 这种形状必定有某种意义。问题是,为什么数据分布呈现这种形状?你该怎么搞清楚呢?
问: 你能不能多画几张直方图描绘数据块的小组成块,然后分别进行评估?这样也许能弄清楚为什么会出现两个峰。
答: 直觉正确。试试看!
你能不能分拆加薪数据,使两个峰分开,并解释存在这两个峰的原因?
用数据的子集绘制直方图
你可以用整个数据集绘制一张直方图,但也可以把整个数据集拆分成几个子集,然后绘制其他一些直方图。
练习
让我们创建一批直方图描绘加薪数据的子集。也许观察这些不同于原来的直方图会帮助你搞清楚原直方图上的两个峰意味着什么。是否有一个群体的加薪幅度高过其他群体?
1) 首先,看看下面这个直方图指令,看清语法。你认为这个指令中的各个因素有何意义?
hist(employees$received[employees$year == 2007], breaks = 50)
2) 模仿上面的指令,逐一执行下列指令。看到什么了?结果见下页,请进行解释并写下你的解释。
hist(employees$received[employees$year == 2008], breaks = 50)
hist(employees$received[employees$gender == “F”], breaks = 50)
hist(employees$received[employees$gender == “M”], breaks = 50)
hist(employees$received[employees$negotiated == FALSE], breaks = 50)
hist(employees$received[employees$negotiated == TRUE], breaks = 50)
强化练习
这些直方图代表不同职员群体的加薪情况,你能从中看出什么?
hist(employees$received[employees$year == 2008], breaks = 50)
hist(employees$received[employees$gender == "F"], breaks = 50)
hist(employees$received[employees$gender == "M"], breaks = 50)
hist(employees$received[employees$negotiated == FALSE], breaks = 50)
hist(employees$received[employees$negotiated == TRUE], breaks = 50)
加薪谈判有回报
对加薪数据的不同子集进行直方图分析之后,看得出获得大幅度加薪 全靠提要求。
是否选择提出加薪(即进行加薪谈判)决定了人们的加薪结果分布情况 。只要提出加薪要求,整个直方图就向右移。
要是你对要求加薪子集做个汇总统计,就会发现,就像在两条曲线上观察到的一样,结果十分富有戏剧性。
毫无疑问,你应该谈判要求加薪。
谈判要求加薪对你 意味着什么?
既然已经分析了加薪数据,哪种策略会带来最好的结果就已经水落石出。
10 回归
预测
洞悉一切,未卜先知。
回归分析法力无边,只要使用得法,就能帮助你预测某些结果值。若与控制实验同时使用,回归分析还能预测未来。商家狂热地运用回归分析帮助自己建立模型,预测客户行为。本章即将让你看到,明智地使用回归分析,确实能够带来巨大效益。
你打算怎么花这些钱?
你的加薪要求奏效了 。你从直方图上看出,选择要求加薪的人毫无例外地得到了更高的收入。于是,当走进老板的办公室时,你胸有成竹地执行了自己的策略——结果奏效了!
下边是你在前一章的练习中看到过的直方图,不过重新画了一遍,以便两张图的坐标和区间大小都相同。
干得好!
现在还没到收手的时候。
你发现了如何得到更高薪的秘密,这是大家的福音。同事中几乎没有人用过这个高明的办法,对于那些没有要求过加薪的人,你能为他们做更多事。
你应该做专门替别人争取加薪的生意!
动动笔
这里有几个问题,根据这几个问题,想想如何依托数据分析创建一家商号,经营你在加薪谈判方面的经验。
若有一家帮助客户分析加薪谈判的商号,你觉得客户会期望这家商号提供哪些业务?
如果你在经营这一行生意,用哪种办法回报你的知识可谓公正?
动动笔解答
你想依托哪种数据分析方式提供薪资咨询业务?
若有一家帮助客户分析加薪谈判的商号,你觉得客户会期望这家商号提供哪些业务?
进行加薪谈判时,人们需要各种各样的帮助:他们可能想知道如何着装、如何站在老板的立场上想问题、如何措辞,诸如此类。但有一个最基本的问题:该要求加多少 ?
如果你在经营这一行生意,用哪种办法回报你的知识可谓公正?
客户会希望给你一些激励,以确保他们从你这儿得到的方案能够奏效。既然如此,如果他们依计行事并有所斩获,为何不从中抽取一定比例的好处费呢?这样一来,他们的加薪幅度越大,你的激励也越大,你绝不会误他们的事儿。
以获取大幅度加薪为目的进行分析
要求加多少钱可谓合理?如何让要求变为现实?大部分人对此都一无所知。
动动脑
你需要制定服务框架,明确目标。你的产品会是什么 样子?
稍等片刻……加薪计算器!
人们想知道该怎么提要求,还想知道提了以后能到手多少。
你需要一种算法 。
现在你已经万事俱备,可以创建一个决策流程帮助人们获取满意的加薪。
术语角
算法 为了完成某个计算而执行的任何过程。在本例中,你将在算法中加入计算依据——要求加薪幅度,然后通过一些步骤预测实际加薪幅度。这些步骤都有哪些呢?
这个算法有何玄机?
画一张这样的靓图真是好极了,不过,为了让人们掏钱,同时,重要的是为了让自己有一些绝活 ,你接下来必须进行严肃的分析。
既然如此,你觉得这个算法有何玄机?
这个算法的玄机在于预测 加薪幅度
预测是数据分析的重头戏。
有些人会认为,总的说来,把假设检验 和预测 加起来就等于 数据分析。
要点
可能需要预测的问题:
■ 人们的措施
■ 市场动态
■ 重大事件
■ 实验结果
■ 数据中未体现的资料
不能不问的问题:
■ 我有足够的数据进行预测吗?
■ 我的预测准确性如何?
■ 是定性预测还是定量预测?
■ 我的客户能顺利利用这个预测吗?
■ 我的预测有何局限性?
让我们观察部分数据 ,看看要求加薪的人都提些什么。你能针对各种加薪要求预测 加薪结果吗?
动动笔
下面的直方图体现了曾要求加薪者的实际加薪幅度,以及他们曾经要求 过的加薪幅度。
从直方图中能看出怎么做才能得到大幅度加薪吗?说一说如何对两个直方图进行比较才能揭示两种变量之间的关系,以便有可能预测提出加薪要求后带来的加薪结果。
动动笔解答
从以下两张直方图中能看出该怎么提加薪要求才能得到大幅度加薪吗?
看不出来。两张直方图只显示了每种变量的分布情况,没有对这些情况进行比较。为了看出两种变量之间的相互关系,我们必须看看每个个体在“要求加薪”和“实际加薪”分布图中所处的位置。
世上没有 傻问题
问: 不能直接把两张直方图叠加在一个坐标中吗?
答: 完全可以。但为了进行清晰的比较,两张直方图都要体现相同的内容 。例如,在上一章中用多个数据子集绘制了大量直方图,用这些直方图进行相互比较即可。
问: 可实际加薪幅度和要求加薪幅度确实非常相似,对吗?
答: 当然了,在计量方法上很相似:都用的是薪水的百分数。但你并不是特别想知道每种变量的分布情况,而是想知道对于个体来说一个变量与另一个变量的关系。
问: 明白了。既然如此,如果得到了这些信息,我们该怎么利用呢?
答: 问得好。是应该关注最终分析结果,那是你的智慧产品,可以卖钱。你需要什么?产品将是什么样子?但首先,你需要用图形比较这两个变量 。
散点图数据点
还记得第4章的散点图吗?这是一种将不同变量放在一起进行比较的好办法。在本练习中,取以下三个人的数据,将这些数据放在散点图中。
你将需要用其他数据点绘制刻度和坐标轴。
鲍勃要求加5%,得到了5%。
芳妮要求加10%,得到了8%。
朱莉娅要求加2%,得到了10%。
散点图数据点
你刚刚将鲍勃、芳妮、朱莉娅的情况画在了坐标中,形成了散点图。看出什么了?
鲍勃要求加5%,得到了5%。
芳妮要求加10%,得到了8%。
朱莉娅要求加2%,得到了10%。
世上没有 傻问题
问: 我什么时候能使用散点图?
答: 尽量多用,这是一种从多方面展现数据特点的快捷办法。只要你的数据涉及两种变量,就该考虑使用散点图。
问: 这么说,任何两种变量都能同时放在散点图中?
答: 只要这两种变量成对出现并描述了数据中隐含的人或事就可同时放在散点图中。在本例中,数据库中的每一行都代表一名员工要求加薪的一种情况,而每位员工的情况又包括实际加薪和要求加薪两方面。
问: 我该以什么为目标观察这些图呢?
答: 对于一位分析师来说,散点图的根本在于寻找变量之间的因果关系。例如,如果要求高造成加薪低,就会在散点图中看出这两种变量之间的关系。散点图本身仅显示出关系 ,要说清原因还需要做更多事(对于初学者来说,还需要解释为什么 一种变量会决定另一种变量)。
问: 要是我想比较三组数据该怎么办?
答: 你完全可以在R中创建图形,对两个或两个以上变量进行比较。在本章中,我们将使用两种变量,但你可以通过三维散点图和多面板网格图绘制三种变量。如果你想体验一下多维散点图,可复制并运行一些cloud函数的实例,参见help(cloud)的帮助文件。
问: 那么我们何时开始观察二维散点图上的加薪数据?
答: 马上开始。这里有一些预先编制好的代码,可以为你发掘一些更新、更具体的数据并创建一张称手的散点图。来吧!
预编程代码
在R中运行这些指令,生成一张散点图 ,体现出要求加薪 和实际加薪 的情况。
运行这些指令会出现什么结果呢?
用散点图比较两种变量
这张散点图上的每一个点代表一个独立的观察对象:一个人。
和直方图一样,散点图 是另一种用于展现数据的快捷、经典的办法,它显示的是数据分布情况。但和直方图不同的是,散点图显示两种 变量。散点图显示出观察结果的成对关系,一张好的散点图可以是原因说明的一个组成部分。
当然可以 ,不过为什么呢?别忘了,你正在设法建立一种算法。
画一条贯穿数据的直线对你会有什么用呢?
直线能为客户指明目标
一条贯穿数据的直线的确可能是一种有效的预测办法,再看看我们一直在考虑的算法。
这个中间计算部分可能正是一条直线。只要画出一条线,就可以取一个要求值,然后在线上找出与实际值相对应的点。
如果这条线是正确 的,你就有可能得出算法中的未知部分。
动动笔
为了想办法画出正确直线,为什么不利用散点图回答关于个人加薪幅度的一个特定问题?实例如下。
如果某人提出加薪8%,结果他可能得到多少?看一看,通过散点图是否能看出要求加薪8%的人实际能得到的加薪?
动动笔解答
如何利用散点图确定要求加薪8%有可能得到什么结果?
算一算你正在观察的要求加薪范围周围的各个点的实际加薪平均值。如果所观察的X轴数值(要求数值)为8%左右,则似乎Y轴上的相应点的数值也为8%。看一看下面这张图。
如果取8%范围(或区间 )内的各个点的实际加薪平均值 ,则结果约为8%。从平均情况看,要求加薪8%,则实际加薪8%。
这样就解答了一个人群(即要求加薪8%的人群)的加薪问题。其他人的加薪要求则不一样。
如果观察一下整个X轴上的各个区间内的实际加薪平均值,结果如何呢?
使用平均值图形预测每个区间内的数值
平均值图 是一种散点图,这种散点图显示出与X轴上的每个区间 相对应的Y轴数值。这里的平均值图告诉我们提出各种加薪幅度的人的平均得到的加薪值。
平均值图比简单地求总体平均值要有效得多,正如你所知,整体平均加薪幅度为4%,但这张图却更细腻地向你显示出整体情况。
你已经一不小心画出了这条线。
真的。画一条线把平均值图中的点连起来——这正是你所寻找的那条线,利用它可以预测每个人的加薪情况。
回归线预测出人们的实际加薪幅度
这就是它——迷人的回归线。
回归线就是最准确地贯穿平均值图中的各个点的直线 。你即将看到,你不仅需要为图形画回归线。
回归线可以用简单的等式来表达,通过该等式可以预测某个范围内的X变量对应的Y变量。
世上没有 傻问题
问: 为什么叫回归线?
答: 发现这个方法的是英国科学家高尔顿爵士(1822-1911),当时他正在研究如何通过父亲的身高预测儿子的身高。他的数据显示,从平均情况看,矮个子的父亲会生出比自己高的儿子,而高个子的父亲会生出比自己矮的儿子。他把这种现象称为“向平均数回归”。
问: 听上去挺玄乎。似乎回归这个词更多是在讲高尔顿对父子身高的感受,而不是有关统计问题。
答: 没错。回归这个词的历史意义更甚于分析启示意义。
问: 我们一直在根据加薪要求预测加薪结果。能不能从加薪结果预测加薪要求呢?能不能从Y轴预测X轴呢?
答: 当然能,可如果那样的话,你所预测的就是过去的事情。如果某人告诉你她的实际加薪幅度,你就能预测出她的要求幅度。重要的是,无论研究什么,都要坚持进行实际检查,确保能追踪所研究的对象的意义。预测有意义吗 ?
问: 我该用相同的线从Y轴预测X轴吗?
答: 非也。回归线有两种:已知Y求X,已知X求Y。想想看,平均值图有两种:每张图代表两种变量中的一种变量的平均值。
问: 回归线必须是直线吗?
答: 不一定是直线,只要有回归意义就行。非线性回归 是一个更为复杂的奇妙领域,不在本书讨论范围 之内。
确保你画的线确实有用。
散点图的外观丰富多彩 ,回归线也是如此,问题在于散点图中的回归线有多大用处。
这里有几张不同的散点图,每张散点图中的回归线的作用都与其他散点图中的回归线的作用相同吗?或是某些回归线似乎更有用?
回归线对于具有线性相关特点的数据很有用
相关性 即两种变量之间的线性关系,如果要呈现线性关系,散点图上的点就需要大致沿着直线分布。
相关性可强可弱,这可以用相关系数进行量度,相关系数也叫做r(可别和大写R搞混淆了,那是个软件程序)。为了让回归线发挥作用,数据必须显示出强烈的线性相关性。
r的范围为-1至1,0表示无相关性,1和-1表示两个变量完全 相关。
你手头的加薪数据显示出线性相关性了吗?
预编程代码
试着用程序R计算加薪数据的相关系数r。输入并执行下列函数:
cor(employees$requested[employees$negotiated==TRUE],
employees$received[employees$negotiated==TRUE])
说说函数中的各个因子。你觉得这些因子有何意义?
相关函数的输出结果与散点图相符吗?结果数值与你所认为的两个变量之间的关系相符吗?
预编程代码
你刚刚让R程序给你计算过两个变量的相关系数。看出什么了?
相关函数的输出结果与散点图相符吗?
r值和散点图都显示出中等程度的相关性,所有的点都排成一行,但并不完美,不过肯定存在线性相关性。
相关性细节
如何计算相关系数?相关系数的实际计算简单而乏味。
下面是一个用于计算相关系数的算法:
世上没有 傻问题
问: 可以看出,相关性为1或-1就有充足的理由使用回归线。但相关性低到什么程度算太低呢?
答: 只需根据具体情况尽量作出最佳判断。若使用回归线,则总是可以通过相关系数进行定性判断。
问: 可我怎么知道相关性低到什么程度算太低呢?
答: 正如对待一切统计和数据分析问题一样,想一想回归是否有意义 。任何统计工具都不会无往不利,但只要娴熟地使用这些工具,你就会知道它们能让你在多大程度上接近平均值。调动你的一切判断能力回答这个问题:“这个相关系数够高吗?足以证实我通过回归线得出的结论吗?”
问: 我怎样才能断定数据为线性分布?
答: 你该知道,有一些特别的统计工具可以用来定量分析散点图的线性,但通常目测也是安全的。
问: 如果我展示出两种事物之间的线性关系,是否说明我以科学的方法证明了这种关系?
答: 未必。你只是指定了一种在数学意义上真正有用的关系,但这种关系是否另有内情 却是另一个问题。你的数据质量确实好吗?其他人是否反复重复了你的结果?做好解释现象的准备了吗?如果一切都准备就绪,可以说你已经通过严密的分析证明了某件事,但说证实就言重了。
问: 散点图中将放进多少记录?
答: 和直方图一样,散点图是一种分辨率很高的显示方法,只要格式正确,可以在图上绘制成千上万个点。散点图的高分辨率属性是其优点之一。
为了进行精确预测,你将需要用到一个数学函数 ……
你需要用一个等式进行精确预测
利用线性方程可以对直线进行数学表述。
你的回归线可以用这个线性方程表示。只要知道过去的加薪数据,就可以在x变量中代入任何加薪要求,继而得出该要求对应的加薪预测值。
你只需要求出数值a和b,也就是所谓的系数 即可。
a代表Y轴截距
线性方程右边的第一个变量代表Y轴截距 ,即直线与Y轴的交点。
如果散点图上恰好有一些点落在x=0范围的周围,就能找出该区间的平均值点。我们没有这么幸运,要找出截距恐怕还得多费点儿脑筋。
b代表斜率
一条线的斜率 即对一条线的角度的量度。线的斜率越大,b值越大,而一条相对较为平坦的线的斜率则会接近于0。为了计算斜率,可测量X轴(边长)上的各个单位对应的一条线的上升速度(“高”,或者叫做y值的变化)。
只要知道斜率和Y轴截距,就可以轻易地将这些值填入线性方程,画出回归线。
让R创建一个回归对象
如果希望根据一个变量预测另一个变量,只要将后者提供给R,R就会一口气生成一条回归线。
实现这个过程的基本函数叫做“lm”,即英文线性模型 这两个词的首字母组合。每当创建一个线性模型,R就会在记忆库里创建一个对象 ,这个对象具有一长串属性,其中包括回归方程的系数。
小心!
任何软件都无法判别回归线是否有用
R和你所使用的电子数据程序能够神速地生成回归方程,但是否能发挥这个回归方程“以一个变量预测另一个变量”的作用却取决于你。创建无用、无意义的回归方程并非难事。
练习
试一试,用R创建自己的线性回归方程。
1 运行下列公式,创建一个线性模型描述你所分析的数据,指出回归线的系数。
myLm <- lm(received[negotiated==TRUE]~requested[negotiated==TRUE], data=employees)
myLm$coefficients
2 利用R找到的数字系数,写出你所分析的数据的回归方程。
练习解答
你用R算出的系数生成了哪个公式?
1 运行下列公式,创建一个线性模型描述你所分析的数据,指出回归线的系数。
2 利用R找到的系数,可以写出下面这样的回归方程。
技巧
R如何计算斜率? 可以看出,回归线的斜率等于相关系数乘以Y的标准偏差,再除以X的标准偏差。
唉,只能说,计算回归线斜率给我们带来的满足在于——我们能支使电脑完成繁重的工作,都是些极其繁复的计算。不过,重要的是记住这句话:
只要能看出两个变量之间具有密切的关系,只要回归线有意义,你就可以充满信心地让软件计算各个系数。
回归方程与散点图密切相关
以要求加薪8%员工为例(他想知道自己会加薪多少),翻回前面几页可以看到,你通过观察散点图及X轴上8%范围内的垂直区间进行了预测。
通过lm函数找到的回归方程得出了相同的结果。
既然如此,加薪计算器是什么样子呢?
你已经完成了一系列漂亮的工作,找到了一个加薪数据回归方程。这个回归方程能不能帮助你创建一种产品为你的朋友和同事提供巧妙的薪资咨询呢?
加薪计算器的算法正是回归方程
通过细心观察过去提过不同加薪要求的人的谈判结果,你找出了一个回归方程 ,可以预测给定加薪要求的加薪结果。
对于正在为如何谈判要求加薪而犯愁的人来说,这个方程意义非凡。这是根据过去成功地向雇主争取到更多薪水的其他人的数据得出的可靠的分析。
使用这个函数对于R来说只是简单的算术问题。假如想预测要求加薪5%的人能够期待的加薪,可用下列代码:
世上没有 傻问题
问: 我怎么知道人们为明天提出的目标会不会和今天已经得到的结果相似?
答: 这是回归分析的一个大问题。不仅要问“明天与今天会有几分相似?”,而且要问“要是明天变个样,我的业务会怎么样?”,答案是——你无法知道明天是否会像今天一样。变化难免 会发生,有时还会天差地别。发生变化的可能性大小及其意义取决于问题类型。
问: 为什么会这样?
答: 喔,对比一下医疗数据和消费者偏好吧。人体明天突然改变生存方式的可能性有多大?可能性不是没有,尤其是环境发生突变,但可能性不大;消费者偏好明天发生改变的可能性有多大?你可以打赌,消费者偏好会改变,大大改变。
问: 那为什么还要劳神作预测呢?
答: 举个例子,在网络世界里,优秀的回归分析能在一段时间里产生巨大利润,哪怕明天就失去预测能力也没关系。想想你自己的行为吧,对于一家在线书店来说,你,不过是一个数据集。
问: 挺郁闷的。
答: 并非如此——这说明书店知道如何为你提供你需要的东西。你是一个数据集,书店对你这个数据集进行回归分析,预测你要买的书。除非你的品位发生改变,否则这个预测一直有效。若你的品位变了,开始买其他书籍,书店就会再次进行回归分析,从而获取新信息。
问: 这么说,要是外界条件发生改变,回归分析不再有效,我就得进行更新了?
答: 再说一遍,这取决于你的问题类型。要是你有充足、定性的理由相信你的回归分析是正确的,那么有可能永远不需要改变分析。可要是你的数据不停地变化,那就应该不停地进行回归分析并善加利用:若回归分析是正确的,你会得益;但要是现实改变、回归分析失败,也不至于影响你的业务。
问: 人们不该看见别人加多少薪就要求给自己加多少薪吧?应该认为自己值得加多少薪就要求加多少薪吧?
答: 问得很好。这个问题其实是你的部分心智模型,统计方法无法判断你要做的事是否合情合理。对于定性问题,作为分析师,你需要尽最大努力进行评估。(不过直截了当的回答是你配大幅度 加薪!)
练习
接待你的第一批客户!听取他们的感受,写下你认为他们适合提出哪种加薪要求,用R计算他们的预期结果。
练习解答
你给这两位首批客户提了什么建议?R为他们算出来的预期加薪是多少?
来看看结果吧……
你的加薪计算器没有照计划行事……
人们纷至沓来,请你提供建议,你顺利地完成了第一波业务。
然后,电话铃响了起来 。一些客户对结果欢欣雀跃,另一些却有难言之隐!
你的客户是怎么执行 你的建议的?那些闷闷不乐的人有什么不对?
欲知后事如何,请听下回 分解……
11 误差
合理误差
世界错综复杂。
预测有失精准并不稀奇。不过,如果在进行预测的时候指出误差范围 ,你和你的客户就不仅能知道平均预测值,还能知道该误差造成的典型偏差,指出误差可以让预测和信念更全面。通过本章讲授的工具,你还会懂得如何控制误差及如何尽量降低误差,从而提高预测可信度。
客户大为恼火
在上一章中,你创建了一个线性回归算法,这个工具能根据人们要求的加薪幅度预测他们的实际加薪幅度。
许多客户都在使用这个加薪算法。
你的加薪预测算法做 了什么?
人人用的都是立足于可靠实证数据的同一个公式。
可人们的遭遇看上去却迥然不同。
奥妙何在?
动动笔
对开页的各种说法是定性数据,说明你的回归算法的有效性。你将如何给这些说法归类 ?
动动笔解答
你从性质方面仔细观察了客户对加薪预测算法的反应。结果如何?
定性地看,有三种基本的反应类型:第一种是所得结果完全符合预测值;第二种是所得结果略有偏差,但仍然接近预测值;其中有两位所得结果偏差巨大;而最后一种呢,除非有一大帮子人都记不住他们提过什么,否则这个结果恐怕对你用处不大。
客户组成
记住,回归方程预测的是人们平均得到的结果。显然,并不是每个人都能和平均值一样。
练习
让我们再看几个客户反馈。下面这些反馈比前面几个反馈稍微特别一点。
把要求加薪和实际加薪的情况画在 一张散点图上,用箭头指出下面这些客户在散点图上的位置。
注意到特别之处了吗?
练习解答
你刚刚在散点图上添上了代表三个客户的新点,看出什么了?
要求加薪25%的家伙不在模型范围内
用回归方程预测数据范围以外的数值称为外插法 。小心外插法!
你对这里发生的情况并不了解 。若你拥有更多的数据,也许可以用方程式来预测激进的加薪要求带来的结果。
但是,你肯定得再用新数据计算回归方程,才能确保得到正确的回归线。
外插法与内插法 有所不同,内插法对数据范围内的点进行预测,这正是回归法的本来目的。内插法很准确,但使用外插法就得小心了。
人们随时都在使用外插法。不过,如果打算使用外插法,就需要指定附加假设条件 ,明确表示不考虑数据集外发生的情况。
动动脑
要是有一位客户想知道要求加薪30%会得到什么结果,你会怎么回答他?
如何对待想对数据范围以外的情况进行预测的客户
根据假设进行预测:
要是有客户想对数据范围以外的情况进行预测,基本上有两种可能的答复:一是无可奉告;二是提出一个假设,据此进行预测。
哪个答复对客户更有用 ?第二个答案可能会让客户感到满意,因为客户得到了具体的预测,但是,低劣的预测比不作预测更糟糕 。
世上没有 傻问题
问: 到底在数据范围以外发生哪种情况会引发这样的问题?
答: 在你所用的数据范围以外,可能根本就没有数据。就算有数据,也是大相径庭。这些数据甚至可能是非线性的。
问: 但我不一定要把所有数据点都放在数据范围内。
答: 没错,这是数据质量和抽样问题。要是你用的不是全部数据,而是抽样数据,那么就要确保这些抽样数据能代表整个数据集,从而能够据此建立模型。
问: 考虑在各种假设的、纯推理的条件下发生的情况难道是多此一举吗?
答: 非也,肯定应该考虑。但这需要训练,确保你对假设情况的想法不会影响到你对现实情况的想法(及行动)。
问: 对未来进行预测不算外插法吗?
答: 是外插法,但这是否会带来问题则取决于你的研究对象。你的观察对象会在未来发生彻头彻尾的改变还是相当稳定?宇宙的物理定律可能不会在下个星期发生巨变,但证券市场的各种关系却有这种可能。考虑这些问题将会帮助你懂得如何使用自己的模型。
小心!
千万要对模型假设保持戒心。
观察他人的模型时,一定要想一想他们的假设有何道理,以及他们是否忘记了某种假设。不合适的假设会使模型完全失效——这还算是最好的结果;最坏的结果是具有危险的欺骗性。
建立模型
看看下面这一连串针对加薪计算器的假设,要是某个假设正确,会引起模型发生哪种改变?
在数据范围内,几年来的经济效益都大致相同,可今年赚的钱少多了。
在我们拥有的数据范围内,所有的加薪工作都由同一位老板负责,但他离开了公司,这个工作由另外一位老板接管。
你的谈判方式会对加薪结果造成重大影响。
各个点在20%~50%范围内的分布情况与在10%~20%范围内的分布情况看起来很相似。
只有高个子才要求加薪。
建立模型
看看下面这一连串针对加薪计算器的假设,要是某个假设正确,会引起模型发生哪种改变?
在数据范围内,几年来的经济效益都大致相同,可今年赚的钱少多了。
今年的平均加薪幅度可能会下降。模型可能失效。
既然已经考虑了各种假设对模型的影响,现在要做的就是改变算法,从而让人们知道如何使用外插法 。
动动笔
你需要调整算法,指导客户回避外插法的陷阱。你会增加哪些内容呢?
你会如何向客户说明 他们需要避免外插法?
动动笔解答
如何修改加薪算法能确保客户不外插到数据范围以外?
你会如何改变算法,指点客户避免外插?
由于你只掌握了要求加薪幅度不超过22%的人员的数据,因此你的回归方程仅适用于加薪要求在0%到22%之间的情况。你的客户可以要求更多——要是真这么做可能会捞到更多钱——但可以料定,他们必须孤军奋战。
由于使用外插法而惨遭解雇的家伙冷静下来了
经过改进的新回归公式很少再让客户走进未知统计地带。
这么说,你的工作到此为止了?
你只解决了部分问题
还有许多人的加薪结果存在扭曲,但他们所要求的加薪幅度就在你的数据范围内。
你该为这些人做什么呢?
扭曲的加薪结果数据看起来是什么样子?
再看一看你的图形和回归线。为什么人们的实际加薪不正好等于他要求的加薪呢?
是什么原因造成了这种偏离预测结果的现象呢?
机会误差=实际结果与模型预测结果之间的偏差
无论你的回归分析是否无可挑剔,都免不了要进行这样那样的预测。这些预测很少不偏不倚,这种实际结果与预测结果之间的偏差叫做机会误差 。
在统计学中,机会误差又称为残差 ,对残差的分析是优秀的统计模型的核心。
尽管你可能永远无法恰当地解释每个偏离模型的残差的原因,但必须小心观察散点图上的残差。
如果你能正确地解释残差,就能更好地理解手头的数据以及模型的用途。
预测总是与机会误差同在,你可能永远也想不通自己的数据中为什么会出现机会误差。
动动笔
最好进一步调整你的算法:这一次,你可能应该描述误差。
下面是一些有可能添加到算法中的关于误差的前提条件,你打算将哪一个添加到算法中?
“由于存在机会误差,模型可能无法为你指出预测结果。”
“我们只为符合模型结果的实际结果提供担保。”
“你得到的结果可能会在预测值上下20%。”
“请注意,由于存在机会误差,你个人的结果可能会不同于预测结果。
动动笔解答
你加工了原来的算法,令它包含机会误差。现在这个算法表现如何?
“由于存在机会误差,模型可能无法为你指出预测结果。”
这是对的。可能只有一部分人得到的结果会与方程计算结果完全相同。但是,这个解释不会让客户特别满意。
“我们只为符合模型结果的实际结果提供担保。”
这不过是毫无意义的口号。只有在结果符合模型预期的时候才为结果提供担保?要是不符合预期呢?真有你的。
“你得到的结果可能会在预测值上下20%。”
定量地指定误差是很好的做法。但你有什么理由认为误差是20%呢?再说,要是这个误差属实,你就不想把误差降低一点儿吗?
“请注意,由于存在机会误差,你个人的结果可能会不同于预测结果。”
正确,但不是特别让人满意。除非我们拥有更有效的工具,否则这个方法会用得着。
你失去了所有客户。
这事儿挺难开口的:你的整个业务都完了。薪资算法中的最后一行成了一条分界线:人们认为你能帮忙,或是人们认为你的产品一文不值。
你打算如何修复自己的产品?
误差对你和客户都有好处
你越是对客户将在预测结果中发现的机会误差漫不经心,你和客户的距离就越远。
指出误差并不 意味着你的分析是错误的,只能说明你对预测的真实程度无所隐瞒。你的客户越是理解 你的预测,越是能根据预测作出正确的决策。
让我们定量地指出误差……
机会误差访谈
本周访谈:
什么是机会?
Head First: 伙计,你是我的眼中钉肉中刺。
机会误差: 说清楚点?
Head First: 是这样,因为你的原因,利用回归分析永远无法做出正确预测。
机会误差: 什么?各种测量方法都少不了我,尤其是回归分析。
Head First: 哼,只要有你在,谁会信任回归预测?要是我们的客户想知道提出加薪后能够到手多少,他们不会愿意听见我们说“模型预测结果和实际得到的结果难免、可能有误差”!
机会误差: 你全搞错了。你应该这样看待我:机会误差始终存在,但只要懂得如何向别人解释就并不可怕。
Head First: 这么说误差不一定是个坏字眼。
机会误差: 绝对不是!!!误差能派上用场的地方太多了。实际上,要是人们经常以更妥当的方法指出误差,世界会更美好。
Head First: 好吧,既然如此,我现在打算这么做——假定有一个人想知道提出加薪7%的要求会带来多少加薪,我就说:“模型预测结果是7%,但机会误差指出你可能会得到其他结果。”
机会误差: 这么说怎么样:如果要求加薪7%,可能得到6%至8%。听上去是不是好一些?
Head First: 听上去一点儿不吓人!!!真的这么简单?
机会误差: 没错!喔,可以这么说。实际上,控制误差才是真正的大问题,你可以找到一大堆统计工具来分析和描述误差,但最重要的是,要知道,指出预测范围比单单指出一个数字有用得多(并且可靠得多 )。
Head First: 我能用误差范围来描述主观概率吗?
机会误差: 可以,而且确确实实应该这么做。再举个例子,请问下面哪一位分析师思路更严密:一个说他相信明年股市会上涨10%;另一个说他认为明年股市会上涨0%-20%?
Head First: 这还用说,第一位不会真认为股市会正好好上涨10%,另一位更理性。
机会误差: 答对了。
Head First: 那么,你说你来自哪里?
机会误差: 哦,答案可能不太妙。很多时候都无法知道机会误差来自哪里,尤其是对于单一观察对象。
Head First: 是吗?你是说不可能解释观察结果为什么会偏离模型预测结果吗?
机会误差: 有一部分偏差能解释。例如,你可能能够把一些数据点集中起来,借此减小机会误差。但在某种程度上机会误差还是会存在。
Head First: 这么说我的工作就是尽量让你变小?
机会误差: 你的工作应该是尽量为自己的模型和分析增加解释和预测功能,也就是要周到地对待我,而不是甩掉我。
定量地指定误差
实际结果恰好等于预期结果是件让人高兴的事,但真正的问题在于机会误差如何分布(残差分布 )。
你需要一个统计值,通过它体现出典型的点(或称为观察结果)相对于回归线的平均 偏移量。
确实如此。作为一种量度方式,相对于回归线的机会误差(或者称为均方根误差)的分布与相对于平均值的标准偏差具有相同的用途。
有了回归线的均方根误差值,就能告诉客户实际结果与典型预测结果之间可能有多大差距 。
用均方根误差定量表示残差分布
还记得标准偏差的单位吗?和测量对象的单位一样:如果最终得到的加薪的标准偏差为5%,那么典型的观察结果相对于回归方程预测出来的值将会偏离5%。
均方根误差也是如此。假如,根据要求值预测实际值的均方根误差为5%,那么,典型的观察结果与回归方程预测出来的值可能偏离5%。
既然如此,如何计算均方根误差呢?
R模型知道存在均方根误差
在上一章中,你在R中创建了线性模型对象,这个对象并非只知道Y轴截距和回归线的斜率。
它有一个连接模型中的各种统计值的句柄,均方根误差也在其中。如果你还没有在R中创建myLm对象,那么请在做下一个练习之前先输入以下函数:
花絮
R的内部使用下面这个公式计算均方根误差:
世上没有 傻问题
问: 我需要把这个公式背下来吗?
答: 很快你就会看到,用R或者其他统计软件计算均方根非常方便,重要的是,你要知道误差是可以定量描述、定量使用的,还有,要能够描述预测结果中包含的误差。
问: 所有的回归方程都用这个公式描述误差吗?
答: 非线性回归或多元回归将使用其他公式确定误差。实际上,即使是线性回归,也不止均方根这一种描述偏差的方法。量度误差的方法应有尽有,具体取决于特定情况。
一试身手
让我们用R代替代数方程来计算均方根误差。
输入下面的指令,看一看R对模型的汇总:
summary(myLm)
均方根误差将会出现在输出结果中,但也可以输入下面这个指令查看均方根误差:
接下来,用颜色画出整条回归线周围的误差区间,显示出均方根误差。
误差区间应该沿着回归线分布,回归线上、下的误差区间宽度应该等于同一个均方根误差。
R的线性模型汇总展示了均方根误差
只要你要求R汇总线性模型对象,它就会给出一大堆有关对象实质的信息。
你不仅能看到和上一章一样的回归系数,还能看到均方根误差和大量其他体现模型特征的统计值。
动动笔
你即将重新处理你创建的薪资算法。能更细致地描述机会误差吗?
怎样改动这个算法才能纳入均方根误差呢?在加薪计算器中写下你的答案。
动动笔解答
让我们看看以回归线的均方根误差结束的新算法。
她说得有道理。
能不能想办法让这个回归预测用处更大呢?能不能检查一下数据,看看是否能减小误差?
练习
将散点图分割成不同取值区间进行观察。在回归线的不同区间内,均方根误差是否有差异?
针对散点图上的每个取值区间,用颜色涂出误差所在的区间。
发现哪些取值段 的残差有显著不同吗?
练习解答
你已经观察过每个取值区间的均方根误差。发现什么了?
为什么右侧的误差更高?
观察数据,想一想数据的确切意义。
吉姆: 老兄啊,简直疯了!似乎散点图上的每个取值区间的预测分布都不一样!
乔: 是啊,真是疯了,真的。我们究竟应该怎么向客户解释呢?
吉姆: 客户是不会为这种预测付钱的。要是我们对客户说,“要求加薪7%~8%时,误差看起来相对较低,但要求加薪10%~11%时,误差就一飞冲天了”——客户是不会理解的。
弗兰克: 喂,放松点,兄弟们。也许我们该想想各个误差区间为什么 会是这模样,这也许能帮助我们理解所有这些区间的加薪现象。
吉姆: [嘲笑状 ]你又在思前想后了。
弗兰克: 呃,我们是分析师嘛,对不对?
乔: 行,让我们看看人们提出的要求。在坐标起始处,有一片颇为不小的数据,一冲到5%左右就收窄了。
吉姆: 对,而且在这一片数据中只有三个人提出的加薪要求低于5%,因此我们也许不应该对4%~5%区间内的误差过于相信。
弗兰克: 说得好!那么现在让我们看看从5%直到10%的区间,这一带误差最小。
乔: 嗯,人们对自己的要求持保守态度,而他们的老板呢,也相应地持保守态度。
弗兰克: 然后,当跨过10%……
吉姆: 后果难料啊,想想吧,15%可谓大幅度加薪,我看一般大家没有胆量提出这种要求。谁知道老板会有什么反应?
弗兰克: 有意思的假设。你的老板可能会因为你的大胆而奖赏你,也可能会因为你的冒失而给你点颜色看看。
吉姆: 一旦你狮子大开口 ,任何事都有可能发生。
乔: 知道吗,兄弟们,我认为我们的数据里包含两类人。说确切一点就是,我认为我们应该有两种模型。
要是把数据拆开,分析结果会怎么样呢?