均值(聚合)【定向减少或压缩数据的价值】,最小二乘法及其衍生方法的本质都是均值,它们通过对数据进行加权汇总而抹去数据的个体特性——指定的协变量除外。把数据集中的个体值进行统计汇总,概括出的信息可以超越个体。甚至核密度估计和各类现代平化器在本质上也是均值。
例如:古老合法木棒的长度 = 16个人的脚长的算术平均值
相互比较【使用数据的内部变化帮助分析】,统计比较常常可以采用数据自身的内部标准,而不必采用外部标准。相互比较最常见的例子是学生t检验和方差分析检验。可能由于忽略外部科学标准而导致错误方式的滥用。我们可以将自助法视为相互比较在假设弱化后的现代版本。
回归(Regression)【从不同角度提问可以产生有启发性的不同答案】。这个名称源于高尔顿1885年发表的论文,这份文献基于二元正态分布解释了什么是回归。达尔文的自然选择理论存在内部矛盾:选择需要增加多样性,但定义物种需要群体外观稳定。高尔顿尝试为这个理论设计一个数学框架,并成功地克服了(转化了)这组矛盾。
回归现象的简单解释:假设有两个不完全相关的观测变量,你选择了其中极值远离均值的变量,那么可以预测另一个不会那么极端。高个子的父母平均会孕育出身高稍微矮的子女,而高个子的子女平均有身高稍矮的父母,回归种族的平均身高。
设计(Design)【规划观测的重要作用】。类似于在于“实验设计”中的含义,但“设计”的范围更为广泛,它的目标是:先设定观测的权重相同,再训练我们的思想。
残差【所有这些思想如何用于科学探索和比较彼此矛盾的解释】。“复杂的现象…可以通过减去已知原因的影响进行简化…留下…需要解释的残差现象。通过这样处理…科学…得到了极大的促进。”。每个对回归系数显著性的检验都体现了这种思想,针对时间序列的每一个探索亦是如此。
统计学自诞生以来,统计学的工作内容经历来翻天覆地的变化:从极端强调“统计学家仅收集数据而不分析”,转变为从计划到分析的所有研究阶段皆积极寻求与科学家的合作。
无论过去还是现在,以上平淡的称述都没有表现出这些思想出现是的革命性,这些思想——从放弃数据值的个体特点到降低新数据和等价值数据的权重,再到克服障碍使用概率测量博弈外部的不确定性——已经丢弃或推翻了既有的牢固数学和科学信念。
很多关于统计学的批判:
大数据仅仅可以回答基于规模的基础的问题
显著性检验会忽略问题的科学内容
泯灭个性独特的个人,追求统计的一般普遍性
爱德华.B.威尔逊对此做了一份精彩的评论:
“就像没有接受过工具训练的人会害怕仓库中的任何一件工具一样,缺乏统计学知识的人会相信科学方法论中的统计工具都是非常危险的”。
推荐阅读:
中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
从直观上来看,协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身
01从前,有一位
家,他在趟过一条平均水位不足1米深的河流时,被淹死了。黑天鹅!02曾经有一个学统计的学生,他开车的时候,总是在十字路口加速,呼啸而过,然后再减速。一天他带着一个旅客,...