hadoop是什么?
Hadoop是使用Java編寫,允許分布在集群,使用簡單的編程模型的計算機大型數據集處理的Apache的開源框架。 Hadoop框架應用工程提供跨計算機集群的分布式存儲和計算的環境。 Hadoop是專為從單一服務器到上千臺機器擴展,每個機器都可以提供本地計算和存儲。
Hadoop的架構
在其核心,Hadoop主要有兩個層次,即_
MapReduce
MapReduce是一種并行編程模型,用于編寫普通硬件的設計,谷歌對大量數據的高效處理(多TB數據集)的分布式應用在大型集群(數千個節點)以及可靠的容錯方式。 MapReduce程序可在Apache的開源框架Hadoop上運行。
Hadoop分布式文件系統
Hadoop分布式文件系統(HDFS)是基于谷歌文件系統(GFS),并提供了一個設計在普通硬件上運行的分布式文件系統。她與現有的分布式文件系統有許多相似之處。來自其他分布式文件系統的差別是顯著。她高度容錯并設計成部署在低成本的硬件。提供了高吞吐量的應用數據訪問,并且適用于具有大數據集的應用程序。
除了上面提到的兩個核心組件,Hadoop的框架還包括以下兩個模塊_
Hadoop如何工作?
建立重配置,處理大規模處理服務器這是相當昂貴的,但是作為替代,可以聯系許多普通電腦采用單CPU在一起,作為一個單一功能的分布式系統,實際上,集群機可以平行讀取數據集,并提供一個高得多的吞吐量。此外,這樣便宜不到一個高端服務器價格。因此使用Hadoop跨越集群和低成本的機器上運行是一個不錯的選擇。
Hadoop運行整個計算機集群代碼。這個過程包括以下核心任務由 Hadoop 執行_
數據最初分為目錄和文件。文件分為128M和64M(128M最好)統一大小塊。
Hadoop的優勢
Hadoop框架允許用戶快速地編寫和測試的分布式系統。有效并在整個機器和反過來自動分配數據和工作,利用CPU內核的基本平行度。