183.17.229.* 2020-07-22 13:18:09 |
信息時代,數據儼然已成為一種重要的生產要素,如同資本、勞動力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限于某些特殊行業的應用。在提高大數據分析效果方面我們都需要注意的問題都歐哪些。
提高大數據分析效果的常用方法分享:
1、業務分析:對于業務的理解能力越強,選擇的數據和變量就越有價值,這是機器學習的要點,當然極個別的場景除外,比如下棋。
大多數企業機器學習的應用場景涉及的要素基本是無法窮盡的,因此,越復雜的環境,就越需要強大的業務理解能力,現在只有人有這個能力。
2、樣本數據準備:大多時候,我們需要從數據倉庫(當然數據庫,文件都可以)獲取所需的樣本數據,數據倉庫的效率起到至關重要的作用,比如數據預處理,這個階段往往耗費了大量的時間。
3、變量選擇:業務分析雖然能大致圈定一些變量,但有時還是需要依賴一些更為客觀的評價方法,比如IV,WOE等等,甚至需要單獨建個模型來取舍變量,這個過程往往是獨立的。
4、樣本數據輸入:需要根據變量選擇的結果決定樣本的終數據,作為模型訓練的數據輸入。
5、模型訓練:需要選擇合適的數據挖掘引擎和算法(深度學習或者機器學習等等),無論是基于圖形界面或是腳本;需要將樣本數據輸入到挖掘引擎中,無論是基于JDBC,ODBC還是文件。
一般我們以為的機器學習就特指這個過程,因為技術含量高嘛,但實際上這個階段花的時間并不多。
6、模型發布:需要將訓練好的模型文件發布到生產環境,這又是一個完全獨立的過程。
7、生產數據輸入:需要基于數據倉庫或大數據平臺定期生成待預測的數據作為模型輸入,然后獲得模型預測的結果。
8、結果數據應用:將預測結果(一般是表)推送到各種應用平臺,真正產生價值。
大數據分析需注意哪些問題.中琛魔方大數據分析平臺(www.zcmorefun.com)表示企業應加強業務需求調查和業務體系結構優化,鞏固數據基礎和應用基礎,不斷選擇、訓練、評估、應用和優化模型,不斷推進大數據分析建模的應用,為大數據的轉換和升級奠定堅實的基礎。 |