183.17.231.* 2020-12-22 13:39:53 |
發(fā)展到今天,大數(shù)據(jù)處理主要分為兩類大的需求,一是批處理,一是流處理。在企業(yè)的實際業(yè)務場景當中,可能會只需要批處理或者流處理,也可能同時需要批處理和流處理,這就使得搭建大數(shù)據(jù)系統(tǒng)平臺的時候,需要根據(jù)具體場景來進行技術選型。
大數(shù)據(jù)處理框架,通?梢苑譃槿悺
、倥幚砜蚣埽篈pache Hadoop
②流處理框架:Apache Storm、Apache Samza
、叟幚+流處理框架:Apache Spark、Apache Flink
這里我們不對各個框架做更具體的講解,而是先來理解這些不同處理模式背后的思想。
1、批處理
批處理是大數(shù)據(jù)處理當中的普遍需求,批處理主要操作大容量靜態(tài)數(shù)據(jù)集,并在計算過程完成后返回結果。鑒于這樣的處理模式,批處理有個明顯的缺陷,就是面對大規(guī)模的數(shù)據(jù),在計算處理的效率上,不盡如人意。
目前來說,批處理在應對大量持久數(shù)據(jù)方面的表現(xiàn)極為出色,因此經(jīng)常被用于對歷史數(shù)據(jù)進行分析。
2、流處理
批處理之后出現(xiàn)的另一種普遍需求,就是流處理,針對實時進入系統(tǒng)的數(shù)據(jù)進行計算操作,處理結果立刻可用,并會隨著新數(shù)據(jù)的抵達繼續(xù)更新。
在實時性上,流處理表現(xiàn)優(yōu)異,但是流處理同一時間只能處理一條(真正的流處理)或很少量(微批處理,Micro-batch Processing)數(shù)據(jù),不同記錄間只維持最少量的狀態(tài),對硬件的要求也要更高。
3、批處理+流處理
在實際的應用當中,批處理和流處理同時存在的場景也很多,混合處理框架就旨在解決這類問題。提供一種數(shù)據(jù)處理的通用解決方案,不僅可以提供處理數(shù)據(jù)所需的方法,同時提供自己的集成項、庫、工具,可滿足圖形分析、機器學習、交互式查詢等多種場景。
大數(shù)據(jù)常用處理框架.中琛魔方大數(shù)據(jù)分析平臺(www.zcmorefun.com)表示大數(shù)據(jù)系統(tǒng)平臺的搭建,往往需要在這些開源大數(shù)據(jù)處理框架當中進行選擇,因此也就要求***們有相應程度的掌握。 |