統計學:
- 以數學表示的事實或資料
- 蒐集、整理,表現,分析與解釋資料,並用科學方法,在不確定的情況下,由樣本資料所獲得的結果,來推論母體的性質與事實,從而做出適切的決策的一門學科
母體
- 具有某些共同特質的元素或個體,所組成的群體,是研究人員所要研究觀察的對象的全體集合
樣本
- 是由母體中抽取部分元素而組成的集合,是母體的一部份
- 抽樣
- 目的因為資源有限,母體資料不易取得,只好用抽樣方法來收集資料
當我們使用統計資料或閱讀他人統計資料時,要相當小心謹慎,並了解統計資料所表達的訊息,才不到於誤導他人或被他人誤導,許多統計圖可用來誇大事實或淡化事實。當然抽樣也可能會影響正確的統計數據。
母體參數
- 描述母體的資料的統計測量數,即享用獲取的資訊,是統計資料的核心
樣本統計量
- 描述樣本資料特性的統計測量數,樣本統計量通常用來推論母體
統計學方法
- 歸納法:從某些個別訊息中獲得一般性的結論
- 統計上是利用樣本資料來歸論母體參數
- 用於 母體參數未知
- 演繹法:邏輯推理的方法去推倒某個特例的特性的分析法
- 統計上是假設母體參數已知,而倒出樣本統計量的方法
- 用於 母體參數已知
統計方法的實施步驟
- 確定問題-確定問題所在,及研究分析的目的、對象與範圍
- 分析目的-估計母體參數
- 母體-確定母體範圍
- 蒐集資料-針對研究對象,目的進行資料蒐集,考慮是否有現成和用的資料,蒐集的成本或未用為何,蒐集方式,資料涵蓋的範圍等
- 抽樣-如何獲得樣本
- 審核整理現有資料-分類資料,以文字、圖表、數據將獲得的結果表現出來
- 樣本統計量-計算樣本統計量
- 分析解釋資料-分析研究、探討各種數值間的關係並加以分析
- 統計推論-用了3跟4的結果,來推論母體參數,並下結論或建議
- 利用樣本統計量做出母體參數的統計推論
資料的收集
- 調查-對影響母體特性的各種因數不做控制的情況下,進行資料蒐集的方法。
- 調查結果受調查方式與問卷設計影響。所以要知道調查方式是否適當,抽樣方法是否客觀,以及問卷的問題是否適當,語意及名詞定義是否正確與明白清楚,答案是否清楚易懂,是否針對研究的目的,居足以影響調查的結果
- 常用工具:郵件調查/實地訪問/電話訪問/受查人自行填報法/網路調查
- 問卷類型:
- 封閉型(主要)
- 開放型(補助)
- 調查的種類
- 普查-針對母體中每個元素進行資料之蒐集的方法
- 抽樣-從母體中抽取一部份的元素進行資料蒐集的方法稱為抽樣
- 簡單脽機抽樣
- 分層抽樣法
- 部落抽樣法
- 系統抽樣法
- 其他抽樣法
- 實驗-對影響母體特性的某些因素或其他因素加以控制的蒐集方法
- 亦即實驗室控制其他條件下,觀察解釋變數對反應變數或被解釋變數的影響的資料蒐集的方法
- 通常會分為
- 實驗組
- 對照組
- 觀察-利用觀看/查察/紀錄,而不予研究對象有任何接觸晤談的資料蒐集方法
- 觀察方法易受觀察員主觀因素與其觀察能力高低的影響。利用觀察方法來蒐集資料時,最好能夠分組作比較
- 一般來說,實驗所提供的資料或證據,要比調查/觀察來的正確,強而有力。但實驗的結果比較適用於因果關係方面的研究
次集資料收集
- 政府機關
- 學術機構
- 企業單位
- 個人
資料種類
- 依取得方式
- 初級資料-第一手資料
- 次級資料-二手資料
- 依資料屬性
- 質的資料(類別資料)
- 凡是不以數值來表示,而是以類別來表示的資料
- 例如:年齡,學歷
- 數量資料
- 凡是可以數值表示的資料
- 消費支出,商品產量...
- 依時間分類
- 橫斷面資料
- 發生於同一時點或同一期間的資料
- EX:在XXXX年各國的人壽保險率
- 時間數列資料
- 發生於不同時點或不同期間的資料
- EXLXXX~XXX年之間的人壽保險率
- EX:股價走勢-日線/周線/月線/...
- 依數學分類
- 間斷資料(離散資料)
- 以整數為技術單位
- EX:人口數/颱風數
- 連續資料
- 以實數為技術單位
- EX:時間:5M/5.1M/...
- 依資料範圍
- 普查資料
- 抽樣資料
資料的衡量
資料的特質就是所謂的變數。變數有 質的變數與 量的變數
所謂的衡量通常是用數字來表示我們所測得的事物或性質的量
常用的衡量尺度
- 名目尺度-衡量無任何順序關係或類別資料的名稱
- 屬於定性資料,類別資料
- 如 手機品牌
- 順序尺度-衡量具有大小,好壞強弱等順序
- 屬於定性資料
- 類別資料,如對某的滿意度,統計問卷ˋ,調查資料
- :□非常滿意 □滿意 .....
- 區間尺度-衡量具有區間的數值,也就是沒有固定數(沒有真正原點的量的資料)
- EX:年所得資料□100萬~1000萬 □1000萬~5000萬 ....
- 屬於定量資料
- 問卷最好都是非或選擇題
- 任何資料都要有性別跟年齡分層
- 比例尺度-衡量單一數值資料,有固定原點的資料
- EX:身高/體重/年齡
- 屬於定量資料
- 尺度轉換-以年齡為例
- 比例尺度:8.17.23.35...
- 區間尺度:0-12.13-18.19-35....
- 順序尺度:兒童.青少年.青年...
資料類別分為
- 定性資料(名字)
- EX:找最多人用的手機品牌
- 定量資料(數字)
- EX:身高180 190的數量
有效測量數
當變數與所要衡量的信質有關,或是一代表所要衡量的性質時,則稱此變化數為有效地測量數
減少衡量誤差的方法
- 衡量誤差 = 衡量的數值 - 真質 = 偏差 + 隨機誤差
有效度量與無效度量
在衡量資料時必須對所要衡量的性質先下定義,然後再選擇足以代表該性質的變數。如果定義錯誤,就會導致失真,所以要要正確定義衡量的變數,所得的測量數才是一個有效的測量數,才能代表事件的性質。如果不先定義衡量的性質或是定義錯誤(不嚴謹),則得到的側量數是無效的。同一變數與同一資料,其衡量結果有很大的差異,部分原因是因為對變數的定義不同所造成的結果
統計圖表-折線圖/長條圖/圓餅圖/多邊圖/肩形圖/柏拉圖
- 主題說明一定要在圖的上方
類別資料
- 次數分配-依造類別分別排列,並計算各個類別的統計表
- 相對次數-某類別的次數 / 所有類別的次數
- 流程:
- 定義纇數表→找出每一種所發生的次數→製表→算相對次數
- →至BAR CHART
- 1定義個軸單位
- X軸-若為資料有N種就用N類
- Y軸
- 刻定類別數不可超過10為限
- 刻定的部數以1X.2X.5X.10X為最大值
- 參考最大值
非類別資料-將非類別資料分成若干組,同時計算列示各組的次數
- 求全距-R = 最大值-最小值
- 決定組數
- 一般為5~15組
- 若太多則不易看出型態分布跟變化趨勢,但可以保持資料真實性
- 若太少,則得到的次數分配表太過於簡易,可能會失去次數分配的意義,無法顯示資料的特性
- 決定組距
- 選擇上下限
- 計算組中點
- 計算各組次數
平均數
- 算術平均數
- 所有觀察值的總和除以觀察值的各數
- 是資料的平衡點
- 優點是使用到每一個觀察值,缺點是易受到極端值影響
- 可進行代數演算,易進行統計推論
- 可對觀察值予以加權(加權平均數)
- 幾何平均數
- 用來求等比數列的平均數,如百分比/指數
- 多用於計算 投資報酬率
- 調和平均數
中位數
- 依照數值大小排列順序的觀察值中居於中間的那一個數值
- N為奇數則為最中間的值,如為偶數則相加除以2
- 不受極端值影響,但對觀察值的變化不敏感
- 不易進行代數演算,亦不易進行統計推論
眾數
- 指觀察值中出現最多次數的值或類別
- 不受極端值影響
- 可能有多個也可能一個也沒有
- 對觀察值的各數或數值變化感應不靈敏
- 因為可能多個或沒有,所以比較少再使用
未分組資料位置的衡量
- 四分位數
- 將順序資料的觀察值分成四等分數值的分位數
- 十分位數
- 將順序資料的觀察值分成十等分數值的分割數
- 百分位數
- 將順序資料的觀察值分成一百等分數值的分割數
變異數
- 用來衡量資料的變異情形,變異數大表示資料分散
- 如果值為0代表觀察值均相同,沒有變異(分散)
- 若同一組資料單位不同,其變異數一不相同
- 單位相同可做比較
- 考慮每一個觀察數值
- 適合代數演算
- 適合利用樣本變異數對母體變異數做推論統計
標準差
- 當使用平均數來描述資料位置時,才可以使用標準差來描述資料的分散度
- 所有觀察值都相同,標準差為0,越大代表越分散
相對分散度
- 用來衡量兩組資料之相對分散度
- 使用在兩組資料單位不同時,或兩組資料平均數差異太大時
柴式定理-可應用在任何形態資料上,只要知道標準差與平均數,則可推斷資料在某一範圍的比率(大約)
經驗法則(常態分布)-用來判斷資料落在某一範圍的機率
Z值-用來說明觀察值離開平均數的標準差數
皮森公式(SKP)-可容易比較兩組資料的型態與分散情況。K線
機率論
隨機式指一個現象無法預知是否發生,但在長期多次重覆實驗之後,該現象的發生會出現有規則的型態
- 例如:擲銅板
基礎觀念
- 基本出象(樣本點)
- 隨機實驗的每個可能的結果
- 樣本空間
- 隨機實驗中,所有可能出象的集合稱為樣本空間
- 事件
- 樣本空間的部分集合
- 簡單事件-事件指包含一個基本出象
- 複合事件-事件包含兩個或以上的基本出象
計算樣本點
- 乘數定理-N1*N2*NN
- 排列(permutation)
- 組合(combination)
- 在幾個元素中,取幾個元素
機率論總類
- 古典機率論- P(E) = 1/N
- 先驗機率論
- 客觀機率論
- 相對次數機率論
- 大數法則-若某事件有既定的機率,而不斷的進行相同實驗,則該事件發生的機率次數比例會越來越接近這個既定機率
- 主觀機率論 - P(E) = [對事件E發生之信號]
事件機率
事件A定義於隨機實驗的樣本空間,其發生之機率P(A)為事件A之基本出象的機率總和
聯合機率
爾個或以上事件同時發生的機率
邊際機率
爾個或以上類別的樣本空間中,若僅考慮某一個類別發生的機率
條件機率
A B為定義於樣本空間的事件,已知發生事件B之後再發生事件A的機率,稱為事件A的條件機率
事件性質與關係
- 獨立事件-一件事的發生不影響其他事件發生機率
- 相依事件-指一事件的發生會影響會影響其他事件發生的機率
- 互斥事件-事件沒有共同元數
貝式定理
事前機率→取得新資訊→應用貝式定理→事後機率
隨機變數種類
- 間斷隨機變數
- 機率函數
- 期望值
- 二項機率分配-兩種可能的結果的N個獨立相同的試行的結果出現的機率都相同的實驗超幾何分配-泊松分配-用來計算依對時間內事件發生次數的機率
- 連續隨機變數
- 常態分配
- 加法定理
- 均等分配
- 指數分配
- 二項分配
抽樣分配
- 中央極限定理
- 分層抽樣
- 層與層之間的差異大
- 任兩層之間元素差一小
- 部落抽樣
- 部落與部落之間的差異點小
- 部落內元素差異大
- 系統抽樣
- 有排序
- 分段抽樣
- 判斷抽樣
- 方便抽樣
假設檢定
- 虛無假設
- 對立假設
一尾檢定與雙尾檢定