數據分析中的常見概率分佈

拔剑四顾心茫然 2024-05-01 10:00 10次浏览 0 条评论 taohigo.com

01.什麼是概率?

概率即為事情發展為某種結果的可能性。我們生活中的結果分為確定性現象和隨機性現象。

確定性現象:水在100攝氏度必定沸騰;人在重力的影響下起跳必然會落地

隨機現象:明天的股價,天氣

概率論是在研究隨機現象,將隨機現象可產生的結果歸納為為一個變量,稱為隨機變量。將隨機變量的部分結果組成的集合稱為稱為隨機事件。

隨機事件包含互斥事件和遍歷事件這兩種事件關系

互斥事件:發生瞭A結果,B結果就不會發生瞭

遍歷事件:在隨機變量中,包含瞭所有該事件的結果

02.概率的計算

首先概率的取值范圍在0-1之間,且一組互斥並且遍歷的事件概率和等於1。

2.1 聯合概率:

公式:P(AB)=P (A|B) * P (B)

聯合概率P(AB)是指一組事件同時發生的概率,公式中P(A|B)是指已知事件B發生的情況下,發生A事件的概率,也稱之為條件概率。P(B)則為B事件獨立發生的概率。

通常我們可以將公式變形為:P(A|B)=P(AB)/P(B)

通過這個公式可以計算出條件概率。

2.2加法法則

公式:P(A+B) = P(A) + P(B) -P(AB)

概率的加法法則為求事件A或者事件B,其中一個事件發生的概率。

2.3全概率公式

公式:P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + … + P(A|Bi)P(Bi)

通過圖形來理解這個公式,將事件組畫一個矩形, A1, A2, A3 … An 為這個矩形內部各個部分面積, 它們的面積之和構成瞭完備事件組;所有紫色區域面積為事件B, 那麼事件B的概率可通過在 A1, A2, A3 … An 發生情況下, 進行相應概率求和即全概率公式來求得。

全概率公式是計算由若幹復雜“原因”引起的復雜事件概率的一個有效公式,它可以呈現達到某個目的,有多少種方式,達到目的的概率是多少。

2.4貝葉斯公式

公式:P(A|B)=P(B|A)*P(A) / P(B)

貝葉斯公式就是當已知結果,問導致這個結果的第i原因的可能性是多少。

貝葉斯公式的核心在於先驗概率與後驗概率

公式當中,P(A)是A的先驗概率或邊緣概率。之所以稱為"先驗"是因為它不考慮任何B方面的因素。

P(A|B)是已知B發生後A的條件概率,也由於得自B的取值而被稱作A的後驗概率。

P(B|A)是已知A發生後B的條件概率,也由於得自A的取值而被稱作B的後驗概率。

P(B)是B的先驗概率或邊緣概率,也作標準化常量。

P(B|A)/P(B)也被稱作標準似然度。

因此貝葉斯公式也可以這樣表述:後驗概率 = 標準似然度 * 先驗概率

2.5 期望

公式:

期望是試驗中每次可能結果的概率乘以其結果的總和,也是對可能產生的結果的最大似然估計

它反映隨機變量平均取值的大小,是試驗中每次可能結果的概率乘以其結果的總和。相當於你賭博下註時,期望贏得多少錢。

03.常見概率分佈

概念分佈涉及到離散型隨機變量和連續型隨機變量。其分佈函數又分為概率密度函數和累積分佈函數

離散型隨機變量:隨機變量的所有取值能夠一一列舉出來,這樣的隨機變量稱為離散型隨機變量。例如擲骰子試驗,朝上的點數隻能從1,2,3,4,5,6中取值。

連續型隨機變量:隨機變量的取值是某一個區間中的任意一點,這樣的隨機變量稱為連續型隨機變量,比如公交車每15分鐘一班,某人在站臺等車的時間x就是一個連續型隨機變量。

概率密度函數 (PDF) :probability density function, 在數學中,連續型隨機變量的概率密度函數(在不至於混淆時可以簡稱為密度函數)是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。

累積分佈函數(CDF): cumulative distribution function,又叫分佈函數,是概率密度函數的積分,能完整描述一個實隨機變量X的概率分佈

我們以均值為10,方差為1的正態分佈的數據畫概率密度圖和累積分佈圖

概率密度函數圖(PDF)即對x軸的區域進行積分,在y軸上呈現瞭概率。累計分佈函數(CDF)就是從上圖中的概率密度曲線的最左邊開始,然後逐漸往右求取曲線下方的面積,即概率,即累積求和。

3.1 常用離散分佈

3.1.1 伯努利分佈

當實驗成功,則取值為1,當實驗失敗,取值為0。

3.1.2 二項分佈

公式:P(X=k)=C_nkpk(1-p)^{n-k}

n為實驗總次數,k是成功的次數,p是成功概率:

二項分佈就是進行n次伯努利實驗,以其成功的概率繪制圖像

3.1.3 泊松分佈

公式:

λ是過去某段時間或某個空間內隨機事件發生的平均次數;e = 2.71828…,是自然常數;k的取值為 0, 1, 2, 3, 4, … ; k! = k x (k-1) x (k-2) x … x 2 x 1,是k的階乘

泊松概率分佈描述的是過去某個隨機事件在某段時間或某個空間內發生的平均次數,預測該隨機事件在未來同樣長的時間或同樣大的空間內發生k次的概率。

3.2 連續型分佈

3.2.1正態分佈

正態分佈又名高斯分佈,是生活中最常見的連續概率分佈。均值為μ,標準差為σ。

正態分佈的概率密度函數是一條鐘型曲線,中間高兩端低,左右關於其均值對稱,兩端無限延伸。

3.2.2 T分佈

t分佈用於根據小樣本來估計呈正態分佈且方差未知的總體的均值。如果總體方差已知(例如在樣本數量足夠多時),則應該用正態分佈來估計總體均值。

T分佈的概率密度函數的形狀類似於標準正態分佈,但更低更寬。隨著自由度的增加,則越來越接近均值為0方差為1的正態分佈。

自由度可以理解為樣本量減去所有未知參數(因為每個未知參數都有一個“定義式”,p個定義式可以確定p個樣本值.)和約束條件(因為r個約束條件確定瞭r個值).這樣可以把一些隨機變量變成瞭確定性變量。

t-分佈密度 (紅色曲線) 在自由度為 1, 2, 3, 5, 10, 30比較於標準正態分佈(藍色曲線).上一幅圖用綠色曲線表示。

3.2.3 卡方分佈

卡方分佈 (χ²分佈)也是概率論與統計學中常用的一種概率分佈。若k個隨機變量 Z1、……、 Zk是相互獨立,符合標準正態分佈的隨機變量(數學期望為0、方差為1),則隨機變量Z的平方和

X^2=X1^2+X2^2+⋅⋅⋅+Xn^2

*卡方分佈的概率密度函數和累積分佈函數,k為自由度。

3.2.4 F分佈

F分佈定義:設X、Y為兩個獨立的隨機變量,X服從自由度為k1的卡方分佈,Y服從自由度為k2的卡方分佈,F-分佈是這兩個卡方分佈變量X、Y除以各自的自由度後的比率的分佈:

F分佈的形狀依賴於分子和分母的自由度,分佈不對稱,在第一象限。

3.3. 常見概率分佈小結

正態分佈而方差未知的總體的小樣本,可以對t檢驗是對兩個樣本均值差異進行顯著性測試,在總體標準差未知的情況下,不論樣本數量大或小皆可應用學生t檢驗。

卡方分佈是k個獨立的標準正態分佈變量的平方和服從的分佈,自由度為k,可用於計算假設檢驗和置信區間,由其延伸的皮爾森卡方檢驗很常用。

F分佈是基於卡方分佈的,可以比較兩個總體的方差。