當前位置:才華齋>財會職務>統計師>

統計學基礎知識之基礎概念與知識點

統計師 閱讀(1.19W)

統計學是通過搜尋、整理、分析資料等手段,以達到推斷所測物件的本質,甚至預測物件未來的一門綜合性科學。其中用到了大量的數學及其它學科的專業知識,它的使用範圍幾乎覆蓋了社會科學和自然科學的各個領域。下面是yjbys小編為大家帶來的統計學基礎知識,歡迎閱讀。

統計學基礎知識之基礎概念與知識點

  統計學基礎知識

總體:是根據研究目的確定的同質的觀察單位的全體,更確切的說,是同質的所有觀察單位某種觀察值(變數值)的集合。可分為有限總體和無限總體。總體中的所有單位都能夠標識者為有限總體,反之為無限總體。

樣本:從總體中隨機抽取部分觀察單位,其實測值的集合稱為樣本。

隨機抽樣:是指按照隨機化的原則,從總體中抽取部分觀察單位的過程。隨機抽樣是樣本具有代表性的保證。

隨機化原則:總體中每一個觀察單位都有同等的機會被選入到樣本中。

抽樣誤差:由於個體差異的存在,即使在同一整體中隨機抽取若干樣本,各樣本的統計量往往不等,統計量與引數也會有所不同。這種因抽樣研究引起的差異稱抽樣誤差。

同質:一個總體中有許多個體,它們之所以共同成為人們研究的物件,必定存在共性,所謂一些個體處於同一總體,就是指他們大同小異,具有同質性。

變異:在自然狀態下,個體間測量結果的差異稱為變異。變異是生物醫學研究領域普遍存在的現象。嚴格的說,在自然狀態下,任何兩個患者或研究群體間都存在差異,表現為各種生理測量值的參差不齊。

變數:確定總體之後,研究者對每個觀察單位的某項特徵進行測量和觀察,這種特徵稱為變數。

變數值:對變數的測得值稱為變數值,或者觀察值。它可以是定量的,也可以是定性的。

定量資料:又稱數值變數。其變數值是定量的,表現為數值的大小,一般有度量衡單位。

分類資料:也稱定性資料,其觀察值是定性的,表現為互不相容的類別或者屬性。有無序分類和有序分類兩種情況。

統計描述:用統計指標、統計圖、統計表等方法,對資料的數量特徵及分佈規律進行客觀的描述和表達。

統計推斷:在一定的置信度和概率保證下,用樣本資訊推斷總體特徵:①引數

估計:用樣本的指標去推斷總體相應的指標;②假設檢驗:由樣本的差異推斷總體之間是否可能存在的差異。

計量資料:對每個觀察單位用定量的方法測定某項指標量的大小,所得的資料稱為計量資料。計量資料亦稱定量資料、測量資料。其變數值是定量的,表現為數值大小,一般有度量衡單位。

計數資料:將觀察單位按某種屬性或類別分組,所得的觀察單位數稱為計數資料。計數資料亦稱定性資料或分類資料。其觀察值是定性的,表現為互不相容的類別或屬性。

等級資料:將觀察單位按測量結果的某種屬性的不同程度分組,所得各組的觀察單位數,稱為等級資料。

概率:又稱機率,是度量某一隨機事件A發生可能性大小的一個數值,記為P(A),P(A)越大,說明A事件發生的可能性越大。

頻率:在相同的條件下,獨立重複做n次試驗,事件A出現了m次,則比值m/n稱為隨機事件A在n次試驗中出現的頻率。當試驗重複很多次時P(A)=m/n。

隨機誤差:又稱偶然誤差,是指排除了系統誤差後尚存的誤差。它受多種因素的影響,使觀察值不按方向性和系統性而隨機的變化。誤差變數一般服從正態分佈。隨機誤差可以通過統計處理來估計。

系統誤差:是指由於儀器未校正、測量者感官的某種偏差、醫生掌握療效標準偏高或偏低等原因,使觀察值不是分散在真值的兩側,而是有方向性、系統性或週期性地偏離真值。系統誤差可以通過實驗設計和完善技術措施來消除或使之減少。

隨機變數:指變數的值無法預先確定僅以一定的可能性(概率)取值的量。隨機變數的具體內容雖然是各式各樣的,但共同的特點是不能用一個常數來表示,而且,理論上講,每個變數的取值服從特定的概率分佈。

引數:是指總體的統計指標,如:總體均數、總體率等。總體引數是固定的常數。多數情況下,總體引數是不易知道的,但可通過隨機抽樣抽取有代表性的樣本,用算得的樣本統計量估計未知的總體引數。

統計量:是指樣本的統計指標,如樣本均數、樣本率等。樣本統計量可用來估計總體引數。總體引數是固定的常數,統計量是在總體引數附近波動的隨機變數。

算術均數:描述一組資料在數量上的平均水平。總體均數用μ表示,樣本均數用X表示。

幾何均數:用以描述對數正態分佈或資料呈倍數變化資料的水平。記為G。

中位數:將一組觀察值由小到大排列,n為奇數時取位次居中的變數值;為偶數時,取位次居中的兩個變數的平均值。反映一批觀察值在位次上的平均水平。

極差:亦稱全距,即最大值與最小值之差,用於資料的粗略分析,其計算簡便但穩定性較差。

百分位數:是將n個觀察值從小到大依次排列,再把它們的位次依次轉化為百分位。百分位數的另一個重要用途是確定醫學參考值範圍。

四分位數間距:是由第三四分位數和第一四分位數相減計算而得,常與中位數一起使用,描述偏態分佈資料的分佈特徵,較極差穩定。

方差:方差表示一組資料的平均離散水平,由離均差的平方和除以樣本個數得到。

標準差:是樣本平均數的平均距離,用來考察樣本資料分散程度的大小。

變異係數:用於觀察指標單位不同或均數相差較大時兩組資料變異程度的比較。用CV表示。計算:CV=標準差/均數×100%

可信區間:是按預先給定的概率1-α所確定的包含未知總體引數的一個範圍。從固定樣本含量的已知總體中進行重複隨機抽樣試驗,根據每個樣本可算得一個可信區間,則平均有1-α的可信區間包含了總體引數,而不是總體引數落在該範圍的可能性為1-α。

引數估計:指用樣本指標值(統計量)估計總體指標值(引數)。

假設檢驗中P的含義:指從H0規定的總體隨機抽得等於及大於(或等於及小於)現有樣本獲得的檢驗統計量值的概率。

假設檢驗:亦稱顯著性檢驗,其基本思想是先對總體的引數或分佈做出某種假設,如設總體均數為一定值,兩總體均數相等,總體服從正態分佈或兩分佈相同等,然後根據樣本資訊選用適當的方法,推斷此假設應當拒絕或不拒絕。

I型錯誤:指拒絕了實際上成立的H0,這類“棄真”的錯誤稱為I型錯誤,其概率大小用α表示。

II型錯誤:指接受了實際上不成立的H0,這類“存偽”的誤稱為II型錯誤,其概率大小用β表示。

正態性檢驗:用均數和標準差描述資料的分佈特徵,對例數n較小的樣本進行t檢驗時,首先要求樣本取自正態分佈的總體。

檢驗效能:1-β稱為檢驗效能,它是指當兩總體確有差別,按規定的檢驗水準α所能發現該差異的能力。

率:又稱頻率指標,說明一定時期內某現象發生的頻率或強度。計算公式為:率=發生某現象的觀察單位數/可能發生某現象的觀察單位總數×100%,表示方式有:百分率(%)、千分率(‰)等。

構成比:又稱構成指標,說明某一事物內部各組成部分所佔的比重或分佈。計算公式為:構成比=某一組成部分的觀察單位數/同一事物各組成部分的觀察單位總數×100%,表示方式有:百分數等。

比:又稱相對比,是A、B兩個有關指標之比,說明A是B的若干倍或百分之幾。計算公式為:A/B,表示方式有:倍數或分數等。

非引數統計:針對某些資料的總體分佈難以用某種函式式來表達,或者資料的總體分佈的函式式是未知的,只知道總體分佈是連續型的或離散型的`,用於解決這類問題的一種不依賴總體分佈的具體形式的統計分析方法。

引數統計:通常要求樣本來自總體分佈型是已知的(如正態分佈),在這種假設的基礎上,對總體引數(如總體均數)進行估計和檢驗,稱為引數統計。

秩次:變數值按照從小到大順序所編的秩序號稱為秩次。

秩和:各組秩次的合計稱為秩和,是非引數檢驗的基本統計量。

直線迴歸:建立一個描述應變數依自變數變化而變化的直線方程,並要求各點與該直線縱向距離的平方和為最小。直線迴歸是迴歸分析中最基本、最簡單的一種,故又稱簡單迴歸。

迴歸係數:即直線的斜率,在直線迴歸方程中用b表示,b的統計意義為X每增(或減)一個單位時,Y平均改變b個單位。

相關係數r:用以描述兩個隨機變數之間線性相關關係的密切程度與相關方向的統計指標。

t檢驗:常用於整體標準差未知且樣本含量較小時樣本均數與總體均數的比較,應用條件為n≤50,樣本來自正態分佈的總體,兩樣本均數比較時要求兩樣本總體方差相等。

u檢驗:用檢驗統計量u來命名的,用於樣本含量n足夠大,或n雖小但總體標準差已知的樣本均數與總體均數的比較、成組設計兩樣本均數的比較。

觀察性研究:是指在沒有任何干預措施的條件下,客觀的觀察和記錄研究物件的現狀及其相關特徵。

病例對照研究:是一種分析流行病學研究方法,主要應用於探索疾病的危險因素和病因。病例對照研究方法是對臨床醫療和各種基礎研究中形成的病因假設,進行初步驗證。是選擇一組患某病的病人,再選擇一組不患該病的物件,比較兩組人群之間在疾病發生之前有關可疑因素的暴露情況,如果兩組的暴露率卻有差別,則可認為所研究疾病與因素之間存在著關聯。

佇列研究:又稱前瞻性研究,是將特定的人群分為暴露於某因素與非暴露於某因素的兩種人群或不同暴露水平的幾個亞群,追蹤觀察其各自的結局,比較兩組或各組某結局的發生率,從而判定暴露因素與結局有無因果關聯及關聯程度大小的一種觀察性研究方法。

完全隨機設計:又稱簡單隨機分組設計,是採用完全隨機化分組方法將同質的實驗單位分配到各處理組,各組分別接受不同的處理。各組樣本含量可以相等,稱平衡設計;也可不等,稱非平衡設計。

配對設計:是將實驗單位按一定條件配成對子,再將每對中的兩個實驗單位隨機分配到不同處理組。

隨機區組設計:是將實驗單位組設計或配伍組設計,實際上是配對設計的擴充套件,是先將實驗單位按性質相同或相近者組成區組,再分別將各區組內的實驗單位隨機分配到各處理組或對照組。

析因設計:為安排析因實驗的設計,是將兩個或兩個以上處理因素的各水平進行組合,對各種可能的組合都進行實驗,又稱完全交叉分組實驗設計。

方差分析:也叫F檢驗,是統計檢驗的一種,其基本思想是:按研究目的和設計型別,將總變異中的離均差平方和和自由度分別分解成相應的若干部分,然後求得各相應部分的變異;由於其中的組內變異主要反應個體差異或抽樣誤差,其他各部分的變異與之比較得出統計量F值,根據F值得大小確定P值,並作出推斷。

秩和檢驗:即先將數值變數從小到大,或等級從弱到強轉換成秩後,再計算檢驗統計量的一種方法。

流行病學:研究人群中疾病與健康狀況的分佈及其影響因素,並研究防制疾病及促進健康的策略和措施的科學,是研究人群中事件或者結局的分佈及其影響因素,並研究防止或者促進其發生的策略和措施的科學。

暴露:暴露是指研究物件(人)曾經接觸(或不接觸)某因素,或者具備某些特徵,或者處於某種狀態,這些研究者所關心的因素、特徵、或狀態即為暴露因素;暴露是指可能影響研究物件最後成為(病例或非病例研究者關心的結局=)某種結局的機會。

臨床試驗:以臨床患者的為研究物件,採用隨機原則將其分為試驗組與對照組,試驗組人為地給予某種干預措施,即某種新藥或某種療法,而對照組不給予研究的新藥或給傳統的醫療措施或給安慰劑,經過一段時間的觀察後,評價實驗藥物的效果或不良反應。

病因:那些能使人群發病概率增加的因素,就可以認為是疾病的病因,其中某個或多個不存在時,人群疾病發生頻率就會下降。

危險因素:在複雜病因所致疾病或未明確病因時,相關致病因素常被稱為危險因素。

診斷試驗:是指運用物理學的、生物化學的、血清免疫學的檢查,臨床檢查和醫療器械檢查對病人的疾病和健康狀況做出診斷的試驗。

機遇:又稱隨機誤差,是由於多種不能控制及不能預測的因素引起的一類表現不恆定、隨機變化的誤差。

偏倚:又稱系統誤差,是指研究過程中,一些已知活可控制的因素引起的使研究結果或理論系統抵偏離真實情況。