• 正能量網

    話說數據科學-數學技能之均值(mean)與方差(variance)

    本期我們來簡單了解一下均值(mean)和方差(variance)這兩個概念,同樣我們會在西格瑪運算這一背景之下來進行說明。

    均值(mean)


    在這個等式的左側使用符號來表示均值,其右下側的x表示一個集合,故所表達的是集合x中所有數之和的均值。通過等式右側的表達式可知,在集合x中有n個數,集合x的所有數之和表示為

    ,即

    的計算結果,因此其均值為所有數的總和除以數字的個數n。

    我們舉一個簡單的例子來看一下,假設有一個集合A,該集合中有三個實數如下:

    A={1,5,12},其集合A的絕對值為|A|=3,說明該集合有三個實數。

    集合A的均值計算過程為:

    ,因此=6。

    在了解均值的基礎上,我們延伸到另外一個概念——均值中心化,簡單來說,可以理解為將我們所計算出的當前均值作為中心點(“0”)來看待。例如當集合A的均值“6”作為中心點來看的話,相應的集合A的所有數字均需相應地進行位移。

    均值中心化這一概念會在線性回歸中應用到,對于數據分析也是很重要的一個技巧,在之后相關的內容中,我們會進一步介紹。

    至于為何要提出均值這一概念,我們可以這樣去理解,如果遇到一個體量非常大的數據集合,均值或許是我們能總結該數據集信息的最簡單方式,畢竟這個均值是可以給我們提供一定的信息的。

    方差(variance)

    雖然均值在一定程度上可以提供關于數據集的信息,但并不總是如此。例如,以下兩個集合:

    A={1,5,12},B={5,6,7}

    和經計算后,兩個集合的均值都是6,但實際上兩個集合是不一樣的,因此我們也需要其他的判斷方式或工具來幫助我們進行數據集的區分。

    如果在實數軸上來看這兩個集合,會發現集合B的延展性更大。

    如何知道其延展性具體是多少,我們可以通過方差來進行對比。



    等式左側用表示集合X的方差,右側表達式取集合X中每個數與均值差的平方之和,最后除以集合X所有數的個數或其絕對值n。

    這里為何使用集合X中各個數字與均值差的平方,是考慮到差會有負數的情況,例如在集合A中,均值左側的數字1和5與均值相減得到就是負數,而我們實際要知道的是該數與均值之間的距離,通過平方就可解決這一問題。



    根據以上等式,我們來計算一下所給的兩個集合A和B的方差。



    比較之下,集合A的方差遠遠大于集合B,從而也印證了在實數軸上它的延展性更大。盡管兩個集合的均值相同,但是其方差或標準差不一樣,這對于我們在進行數據分析時是個很好的判斷工具,比較兩個數據集的差別。

    轉載自頭條號:大數據與人工智能分享。(侵刪)

    本站為注冊用戶提供信息存儲空間服務,非“本站編輯上傳提供”的文章/文字均是注冊用戶自主發布上傳,不代表本站觀點,版權歸原作者所有,如有侵權、虛假信息、錯誤信息或任何問題,請及時聯系我們,我們將在第一時間刪除或更正。站長郵箱(190277521@qq.com)本站是非贏利網站,本網站鄭重提醒注冊用戶:請在轉載、上載或者下載有關作品時務必尊重該作品的版權、著作權;如果您發現有您未署名的作品,請立即和我們聯系,我們會在第一時間加上您的署名或作相關處理。 轉載請注明出處:https://ksznlfan.com/article/a409062750361668794.html

    分享:
    掃描分享到社交APP
    發表列表
    請登錄后評論...
    游客 游客
    此處應有掌聲~
    評論列表
    x

    注冊

    已經有帳號?
     1697739293  1697739293  1697739293  1697739293  1697739293  1697739293  1697739293  1697739293  1697739293 
    五月婷婷综合