数据的分布

数据,来自现实世界,是现实世界在某一维度的映射
想要通过数据去找现实世界的一些规律,就得数据量足够大,
这样得到的结论更客观,具有普遍意义,具有统计学意义

通过以往各种实验,发现这么一个现象,现实世界的事物通常符合这样一个分布:

将一个事物按某个指标从低到高划分成不同的范围,一件事发生用一个点表示在图上,

指标低的范围内,其发生事件很少,图形上这一分部比较零散
指标高的范围内,其发生事件也很少,图形上这一分部也比较零散
大部分 集中在中间 ,图形上显得比较密集

这样的图在统计学中称为 概率密度图,
这样的分布在统计学中称为 正态分布

均值:
从这里可以看出,正态分布具有一定的对称性,因为两边零散,中间密集
引入坐标系,将y轴作为对称的中心,一半正值一半负值 ,其均值为0

差的标准:
针对数据密集与离散程度,使用标准差来衡量,
密集与离散程度也是数字,比如,1,2,3,4 ...
以1为标准,2是1的两倍,3是1是三倍,1就是衡量密集与离散程度的标准,

世界数据的分布,基本是/大概率是/几乎全是 正态分布

正态分布的数据,大致上有一个密度大的,数据集中的中心,该中心使用均值来描述

数据分散/集中 的程度,也就是数据之间的 集中/密集/离散 程度,使用标准差来衡量

所谓的集中/密集/离散,或者说密度,在数学上指数据之间的距离,
将数据投影到几何空间中,数据之间距离越大就越散,距离越小就越密集,

如果计算数据两两之间的距离,个人认为没什么问题,
就是,一个数据分布之间的距离=所有相邻数据之间距离的和
但数据量大时,计算量指数级增加,

折中一下,计算每个数据与该数据集均值之间的距离,
用该距离来反映数据集的离散程序,也能解决很多实际问题,
这就是标准差的概念

数据分布落地计算

世间数据皆正态,是一种理论,
落地的时候,真的要把所有数据当成正态分布来看吗?

就像大家知道所有星球基本是球形,转换到二维,就是基本是圆,
但问题是,那有个前提的,要数据量大,足够大,

我如果只是在站地一个星球的表面,我的眼光没那么全面,
看不到整个星球什么样,
我只知道我看到的是直线,是直的,是平的

相当于,我不知道整体数据集是个什么样,
我只知道我拿到的这部分数据集一眼看过来,不像正态分布啊,
你还要让我把它当正态分布数据处理吗???

答案是,还是要把它当 正态分布数据来处理
如果你无法接受,就再增加数据量,大到一定程序,就认为是正态的
别问我什么,现在行业就这么处理的,因此这么做解决了实际问题



0-1分布(Bernoulli Distribution)



定义:0-1分布,也称为两点分布,是一种只取两个值(0和1)的离散型随机变量。
分布律:P(X=1) = p,P(X=0) = 1-p。
例子:虽然numpy没有直接生成0-1分布的函数,但可以通过生成0和1的随机数来模拟。
例如,使用numpy.random.randint(0, 2, size=n)生成n个0或1的随机数。



二项分布(Binomial Distribution)


定义:二项分布是描述n重贝努利试验中事件A出现的次数的概率分布。
模型:X表示事件A出现的次数,n为试验次数,p为事件A发生的概率。
性质:期望E(X) = np,方差Var(X) = np(1-p)。
例子:使用numpy.random.binomial(n, p, size=m)生成m个服从参数为n和p的二项分布的随机数。例如,生成1000个服从参数为10和0.5的二项分布的随机数:


import numpy as np
binomial_samples = np.random.binomial(10, 0.5, 1000)


泊松分布(Poisson Distribution)


定义:泊松分布描述了在固定时间或空间内事件发生的次数。
模型:λ为事件的平均发生率。
性质:期望E(X) = λ,方差Var(X) = λ。
例子:使用numpy.random.poisson(lam, size=m)生成m个服从参数为λ的泊松分布的随机数。
例如,生成1000个服从参数为3的泊松分布的随机数:

import numpy as np
poisson_samples = np.random.poisson(3, 1000)





均匀分布(Uniform Distribution)


定义:均匀分布是指在给定区间内所有取值的可能性相同。
模型:f(x) = 1/(b-a),其中a和b为区间的上下限。
例子:使用numpy.random.uniform(a, b, size=m)生成m个服从[a, b]区间内均匀分布的随机数。
例如,生成1000个服从[2, 8]区间内均匀分布的随机数:

import numpy as np
uniform_samples = np.random.uniform(2, 8, 1000)

正态分布(Normal Distribution)


定义:正态分布是一种连续型随机变量的概率分布,其概率密度函数呈钟形。
模型:f(x) = 1/sqrt(2πσ^2) * exp(-(x-μ)^2 / (2σ^2)),其中μ为均值,σ为标准差。
性质:期望E(X) = μ,方差Var(X) = σ^2。
例子:使用numpy.random.normal(mu, sigma, size=m)生成m个服从参数为μ和σ的正态分布的随机数。
例如,生成1000个服从均值为0、标准差为1的正态分布的随机数:

import numpy as np
normal_samples = np.random.normal(0, 1, 1000)

指数分布(Exponential Distribution)


定义:指数分布描述了随机变量在给定时间后发生事件的概率。
模型:λ为事件的平均发生率。
性质:期望E(X) = 1/λ,方差Var(X) = 1/λ^2。
例子:使用numpy.random.exponential(scale, size=m)
生成m个服从参数为scale(λ的倒数)的指数分布的随机数。
例如,生成1000个服从参数为1的指数分布的随机数(即λ=1):

import numpy as np
exponential_samples = np.random.exponential(1, 1000)









标准正态分布


将均值为0标准差为1的分布 定为 标准正态分布

标准正态分布的定义并不是什么偶然因素,
0与1这两个数字本身也极其特殊,

或者说,让你来定义,
若标准正态分布均值不为0,那应该为几?
若标准正态分布标准差不为1,那应该为几?

这意味着,不管是什么人,当研究到这一地步,都会得到标准正态分布均值为0,标准差为1的结论,
跟人没有关系,是客观世界有此规律,故而有此定义

正态分布转标准正态分布


如果数据X的分布中心是mean,方差是var,标准差是std,那么
(X-mean)/std
则是一个均值为0,标准差为1的分布,这也叫标准正态分布

 

    

归一

 
自然界的分布多为正态分布,
将正态分布拉到标准,是为了统一纲量,方便比较 


这并不表示两个不同的正态分布,拉到标准正态后,分布就是一样 

这只是在离散程度这个维度上做了归一化 

分布的数据本是不同的,除以自身分布的平均离散程度之后,归一,各个元素之间仍是不同的
只是量纲统一了 
    

 
import numpy as np
a = np.random.normal(0, 7, 1000)
b = np.random.normal(0, 3, 2000)

a1=a/a.std()
b1=b/b.std()
a1.std(),b1.std()  # (1.0, 1.0)

 
a1[:3],b1[:3]
(array([-0.35349833,  0.79721059,  0.35091055]),
 array([-0.6037465 , -2.28159128, -0.6028374 ]))

 


 


 

  

 


概率密度图

标准正态分布 的 概率密度图 是一个两边低中间高的平滑曲线图,世间万物皆有其影子

装一瓶沙子,往地上一个固定的点缓缓倒下,沙子在地上形成的 像倒着锅底的 圆堆的形状,就是此图的一种贴切体现

请原谅我用倒着的锅底来形容正态分布的概率密度图,因为有人把这图当作了世间最完美的图形,我也这是赞同这一点的

书上看到的此图,是个平面的,二维的,但这们所处的世界是三维的,
客观世界的组成,目前最小就是原子,小到原子,中子,电子,依然是体,是三维的,
所以在这个客观世界中,几乎都是三维的(或者说是我无法在三维的世界中找到二维的事物),
更因为空间是三维的,只要你需要个空间立足,那你就是三维的

但为什么还存在平面坐标系,那平面坐标系算什么?
这里的讨论的维度是空间几何中的概念,
而人的思想,观点,方法,知识,想象 不是几何方面的描述,与前面说的三维不在一个范围,
平面坐标系是人们用来描述空间,定位空间的一种方法,人的思想方法是几维?

举头往明月,每个人的眼里都映射了一个月亮,那这世界倒底有几个月亮?
空间几何上的月亮只有一个,即现实空间中以三维呈现的月亮只有一个,
但由于我们看月亮的角度不同,于是呈现出N多个月亮,

知识体系中的多维,是人们看世界的N个角度,不是现实意义上的空间几何维度,

所以说,现实世界的概率密度图实际上也是三维的,
是一个立体的,中间密集,边缘离散的结构,在图像上是中间高,边缘低

二维是三维的简化,复杂问题简单化,一次只看一个维度,这方便人们解决问题

以体存在的事物,处于不断运动的状态,
结果就是你中有我,我中有你,不再纯粹,
经过漫长的运动后又呈现出相对稳定的状态,

所以,客观世界的一个事物往往由N多个其他事物组成,
每个相对纯粹的事物也有其概率密度图,
所以一个事物的概率密度图,其形状更像是一座山,
大致呈现 倒着锅底的圆形分布,有些地方陡一些,有些地方平缓一些,

世间事物的正态分布 跟山的形态更接近一些

中心极限定理

中心极限定理内容

中心极限定理,是指 概率论中 讨论 随机变量 序列部分和分布 渐近于正态分布的一类定理。

在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,
如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。

中心极限定理就是从数学上证明了这一现象。

这组定理指出了大量随机变量近似服从正态分布的条件:相互独立的随机因素,相互之间产生的影响很微小。

中心极限定理发展历史

中心极限定理有着有趣的历史。
这个定理的第一版被法国数学家棣莫弗发现,
他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布。

这个超越时代的成果险些被历史遗忘,
所幸著名法国数学家拉普拉斯在1812年发表的巨著Théorie Analytique des Probabilités中拯救了这个默默无名的理论。
拉普拉斯扩展了棣莫弗的理论,指出二项分布可用正态分布逼近。

但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。
直到十九世纪末中心极限定理的重要性才被世人所知。
1901年,俄国数学家 里雅普诺夫 用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。

如今,中心极限定理 被认为是(非正式地) 概率论中的 首席定理。

个人感言

一个普通人,比如本人,也就是本站长,
虽然隐隐感觉这世界的事物都是服从正态分布的,
但限于知识量小,能力也弱,对学问也没那么执着,
除了感叹一下世界的神奇外,也就没有然后了...

然而,这些学者经过不断地研究,承前继后,最后研究出一系列定理,理论...
本人在此献上对这些学者的敬意,向对文明作出贡献的学者表示尊敬!!!

正态分布公式

正态分布没有公式

正态分布,世界几乎所有的事物都是服从正态分布的,
它要有个精准的公式,估计也是超级万能公式了

正态分布,
也叫常态分布,因为常见,也因为这是事物的常态,
也叫高斯分布,
因为高斯在正态分布这一系列理论的发展中做出巨大的贡献,
其贡献程度超出了原作者,所以后人就以高斯分布命名了

正态分布,重在说数据的分布,没有公式

正态分布的前提/出发点,是非常宏观的,指一类事物的全体
比如无数次抛硬币的结果服从正态分布,

这一理论,适用于 过去N万年,现在,以及未来N万年
这种定理 亘古不变
毕竟是 定理 ...

没有公式,但可被描述

只要数据有一个中心值mu,并且所有数据 距离中心值的平均距离为std,就是数据分布方差为 std的平方
这样的一堆数据就可记为服从正态分布N(mu, std的平方)
如果数据X服从正态分布N(mu, std的平方),那么Y=(X-mu)/std服从标准正态分布N(0,1)

如果给定一个坐标系,这种描述更像在说数据之间的位置关系/个数占比

从描述中可以看出,就算均值为0的正态分布,也未必会以y轴为对称轴,
甚至未必会有个对称轴,

这是基于 整体与组成整体的元素的一种描述,
一个整体分散开来,形成无数个体,
这些个体回溯回去,必能形成原来的整体

比如把一西瓜摔在地上,基本会呈现圆形,但也未必会那么地对称,
如果你摔的斜,可能是个扇形,
但它的各个碎块,依然是服从正态分布的

正态分布有一种极其宏观的因素,一种从全体看问题的视角 在里面,
看的是数据的 全体 的 分布情况

有个跟正态分布紧密相关的公式:概率密度图公式

正态分布没有公式,但它的导函数,给了一个公式,叫做概率密度图公式

概率密度图公式,它的目的在于,让人看一看事物概率的分布情况,
不是让你去根据这个求正态分布公式的,虽然这在数学公式推导上成立

世界万事万物的全体皆为1

向地上摔一下西瓜,这个西瓜是1,地上的碎块是1的一部分,都小于1
通过概率密度图,可以知道90%的碎片,分布在西瓜着地点附近

整个银河系,不知道有多少个天体,
通过概率密度图,可以知道90%的天体,分布在银河系中心

随手一把沙子,假设有1万粒,
慢慢落地形成的小山是呈现出的形状,可较好体现正态分布这一概念
这1万粒沙之间相互独立,其相互之间的影响是微小的,这是它能完美展示正态分布这一概念的前提

西瓜,银河系,一把沙,在处理时,它们都被当作1,看作1,
即整体为1,地位相等

由整体分散成的局部个体之间,与整体的概率关系,可由概率密度图体现,
f(x)在整个x轴上的不定积分为1,,这个1就是指原函数的全体

分位数

在机器学习特征工程中,
十分位数(Decile)是一种用于将数据分成十个相等部分(或尽可能相等部分)的统计量。

十分位数是一种分位数的形式,分位数是将数据按升序排列后,
将数据分为指定数量部分(如四分位数将数据分为四部分)的统计量。

具体来说,十分位数将数据分为以下10个区间:

第1十分位数(D1):使得至少有10%的数据小于或等于该值,至少有90%的数据大于或等于该值。
第2十分位数(D2):使得至少有20%的数据小于或等于该值,至少有80%的数据大于或等于该值。
...
第9十分位数(D9):使得至少有90%的数据小于或等于该值,至少有10%的数据大于或等于该值。
第10十分位数(D10):即最大值,使得所有数据都小于或等于该值。

计算十分位数有助于理解数据的分布情况,特别是在处理偏斜数据或异常值时。
它们可以揭示数据中的极端值和中间值,并帮助检测数据中的潜在模式或异常。



在特征工程中,十分位数可以用于:

数据预处理:通过了解数据的分布情况,可以对数据进行标准化、归一化或分箱处理。
特征生成:将十分位数作为新的特征,例如,可以将某个数值特征落在哪个十分位数区间作为一个分类特征。
异常检测:通过检测数据点是否落在预期的十分位数区间外,来识别潜在的异常值。

总之,十分位数是特征工程中一种有用的统计工具,可以帮助我们更好地理解和处理数据。











参考
    正态分布



    概率密度函数


    中心极限定理