中國簡單快捷的免費(fèi)行業(yè)信息發(fā)布平臺
      ·手機(jī)版 ·注冊 ·登錄 ·會員中心 ·忘了密碼 ·導(dǎo)航 ·幫助
      名站在線LOGO
      ·設(shè) 為 首 頁
      ·收 藏 本 站
      ·新 站 登 錄
      網(wǎng)站首頁
      |
      行業(yè)供求
      |
      行業(yè)產(chǎn)品
      |
      行業(yè)公司
      |
      站內(nèi)檢索
      |
      行業(yè)資訊
      |
      網(wǎng)站導(dǎo)航
      |
      鏈接交換
      |
      流量交換
      |
      網(wǎng)友收藏
      您當(dāng)前的位置: 首頁 > 行業(yè)貼吧 > 話題


      行業(yè)貼吧

      (注意:網(wǎng)友的發(fā)布表不代表本站立場。)
      回復(fù)話題
      發(fā)新話題
      返回列表
      話題: 數(shù)據(jù)預(yù)處理的方法有哪些
      183.17.230.*
      2020-08-12 13:18:11
        數(shù)據(jù)處理的工作時間占整個數(shù)據(jù)分析項(xiàng)目的70%以上,因此,數(shù)據(jù)的質(zhì)量直接決定了分析模型的準(zhǔn)確性。那么,數(shù)據(jù)預(yù)處理的方法是什么呢?例如數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)范、數(shù)據(jù)轉(zhuǎn)換等,其中最常用的是數(shù)據(jù)清理和數(shù)據(jù)集成,下面中琛魔方將來詳細(xì)介紹一下這2種方法。





        數(shù)據(jù)預(yù)處理的方法



        1、數(shù)據(jù)清洗



        數(shù)據(jù)清洗是通過填補(bǔ)缺失值,平滑或刪除離群點(diǎn),糾正數(shù)據(jù)的不一致來達(dá)到清洗的目的。簡單來說,就是把數(shù)據(jù)里面哪些缺胳膊腿的數(shù)據(jù)、有問題的數(shù)據(jù)給處理掉。總的來講,數(shù)據(jù)清洗是一項(xiàng)繁重的任務(wù),需要根據(jù)數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時效性、可信性和解釋性來考察數(shù)據(jù),從而得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù)。



        (1)缺失值處理



        實(shí)際獲取信息和數(shù)據(jù)的過程中,會存在各類的原因?qū)е聰?shù)據(jù)丟失和空缺。針對這些缺失值,會基于變量的分布特性和變量的重要性采用不同的方法。若變量的缺失率較高(大于80%),覆蓋率較低,且重要性較低,可以直接將變量刪除,這種方法被稱為刪除變量;若缺失率較低(小于95%)且重要性較低,則根據(jù)數(shù)據(jù)分布的情況用基本統(tǒng)計(jì)量填充(**值、最小值、均值、中位數(shù)、眾數(shù))進(jìn)行填充,這種方法被稱為缺失值填充。對于缺失的數(shù)據(jù),一般根據(jù)缺失率來決定“刪”還是“補(bǔ)”。



        (2)離群點(diǎn)處理



        離群點(diǎn)(異常值)是數(shù)據(jù)分布的常態(tài),處于特定分布區(qū)域或范圍之外的數(shù)據(jù)通常被定義為異常或噪聲。我們常用的方法是刪除離群點(diǎn)。



        (3)不一致數(shù)據(jù)處理



        實(shí)際數(shù)據(jù)生產(chǎn)過程中,由于一些人為因素或者其他原因,記錄的數(shù)據(jù)可能存在不一致的情況,需要對這些不一致數(shù)據(jù)在分析前進(jìn)行清理。例如,數(shù)據(jù)輸入時的錯誤可通過和原始記錄對比進(jìn)行更正,知識工程工具也可以用來檢測違反規(guī)則的數(shù)據(jù)。



        2、數(shù)據(jù)集成



        隨著大數(shù)據(jù)的出現(xiàn),我們的數(shù)據(jù)源越來越多,數(shù)據(jù)分析任務(wù)多半涉及將多個數(shù)據(jù)源數(shù)據(jù)進(jìn)行合并。數(shù)據(jù)集成是指將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合、進(jìn)行一致存放的數(shù)據(jù)存儲,這些源可能包括多個數(shù)據(jù)庫或數(shù)據(jù)文件。在數(shù)據(jù)集成的過程中,會遇到一些問題,比如表述不一致,數(shù)據(jù)冗余等,針對不同的問題,下面簡單介紹一下該如何處理。



        (1)實(shí)體識別問題



        在匹配來自多個不同信息源的現(xiàn)實(shí)世界實(shí)體時,如果兩個不同數(shù)據(jù)庫中的不同字段名指向同一實(shí)體,數(shù)據(jù)分析者或計(jì)算機(jī)需要把兩個字段名改為一致,避免模式集成時產(chǎn)生的錯誤。



        (2)冗余問題



        冗余是在數(shù)據(jù)集成中常見的一個問題,如果一個屬性能由另一個或另一組屬性“導(dǎo)出”,則此屬性可能是冗余的。



        (3)數(shù)據(jù)值的沖突和處理



        不同數(shù)據(jù)源,在統(tǒng)一合并時,需要保持規(guī)范化,如果遇到有重復(fù)的,要去重。



        數(shù)據(jù)預(yù)處理的方法有哪些.中琛魔方大數(shù)據(jù)分析平臺(www.zcmorefun.com)表示在實(shí)踐中,我們得到的數(shù)據(jù)可能包含大量的缺失值、異常值等,這對數(shù)據(jù)分析是非常不利的。此時,我們需要對臟數(shù)據(jù)進(jìn)行預(yù)處理,以獲得標(biāo)準(zhǔn)、干凈和連續(xù)的數(shù)據(jù),這些數(shù)據(jù)可以用于數(shù)據(jù)分析、數(shù)據(jù)挖掘等。
      共0個回復(fù)
      回復(fù)話題
      發(fā)新話題
      返回列表



      新站登錄--網(wǎng)站簡介--流量交換--名站收藏夾--廣告服務(wù)--友情鏈接--免責(zé)聲明--聯(lián)系我們--意見建議--違法舉報--侵權(quán)舉報
      Copyright 2005-2025 名站在線[fwol.cn]版權(quán)所有 經(jīng)營許可證:粵ICP備17047754號