
Hadoop曾經是開源人士的寵兒,在其鼎盛時期一時風頭無兩。然而隨著其功能的擴充,系統也變得越來越復雜,似乎它已經不再能夠滿足當今時代的數據管理需求,關于“Hadoop已死”的論調時有出現。那么,Hadoop是否真的已經跌下神壇?對于這個問題,或許我們需要更加理性地思考。
Cloudera認為,Hadoop代表的是數據領域的開源社區,即使傳統的Hadoop已經不復存在,但“Hadoop哲學”永存。作為領先的企業數據云公司,Cloudera從未停止擁抱新的主流技術,持續為客戶帶來價值。Cloudera Data Platform(CDP)的誕生便是其持續創新的最佳證明,它提供了擁有一致的安全及治理能力的數據平臺,來幫助企業更好的對生命周期內的數據進行控制。重要的是,它依舊是100%基于“Hadoop哲學”。
技術永遠是在“打破”與“被打破”中得以發展。最初,Hadoop的框架最核心的設計就是HDFS和MapReduce。后來,MapReduce逐漸被Spark取代,從前的“Hadoop發行版”如今所提供的軟件包含了Spark、HBase、Hive,Kafka、Flink、NiFi等眾多組件,早已超出了最初的批處理功能和基于磁盤的本地部署。
通常, Apache項目較大堆棧的特點是在任何層都具有可替換性。各發行商已相互競爭多年,角逐各個項目。許多發行商都有自己的版本,這些版本仍然是開源的。根據Apache網站上的說法,Hadoop如今包含兩個文件系統(HDFS和Hadoop Ozone),一個用于并行處理大數據集的系統Hadoop MapReduce,一個作業調度和集群資源管理器Hadoop YARN,以及近期發布的一個機器學習引擎Submarine。
數據存儲的革新從未停止
在數據遷移至云愈演愈烈的時代,來自云平臺的對象存儲正在逐漸取代HDFS。Apache Ozone在某種程度上是為了創建一個現代開放式的替代方案,它符合所有層的理念。一些人提到了Hadoop兼容文件系統(HCFS),然而,事實上Apache軟件基金會無法確定第三方文件系統是否與Apache Hadoop兼容,相關言論皆為供應商所作聲明,Apache軟件基金會并未對此進行驗證。
一些IT專家可能會辯稱MapReduce曾是主流,但如今它經常被Spark所替代,甚至有人認為Spark才是我們應該談論的標準化處理組件。另外,還有人表示:“可以動態處理數據的時候,就不要等著數據停下來”,他們對Kafka、NiFi和Flink也提出了相同的看法。
Apache的定義確實包含了機器學習組件,但Submarine是第二年才出現的新項目,而它現在已升級為頂級項目。可以說,早期基于Mahout的機器學習嘗試并未主導Hadoop的使用,Submarine也許會取得更大的成功。Gartner的研究表明,市場正在轉向功能更齊全的商業產品,而不再是針對工程師的開源代碼算法集合。Submarine正是一個朝著這個方向發展的更完整的集合,因此,與“Hadoop組件”相比,它更有希望成為一個機器學習開發平臺。
豐富生態,打造專屬“平臺”
從這些組件以及其他所有組件中所選取的特定集合都將具有自己獨特的優勢,來適用于特定的用例。在其他層有類似的替代方案,但其實還有另一個關鍵點,就是幾乎沒有用例僅依賴一層,絕大部分重要的企業級需求都可能依賴于其中的三層或更多層。因此,“平臺”這一概念其實相當于我們所說的“發行版”,只不過換了一個說法而已。
談到現在使用的具體技術,從傳統的商業智能分析、數據集成、數據庫管理系統(DBMS)、機器學習供應商到云平臺供應商,如今每個人都想擁有一個“平臺”。通常情況下,他們都在某些核心堆棧的某些層上替換了一些組件,特定層的一些替代組件可與其他層的替代組件進行通信。例如,您可能想在AWS上使用Spark(與Kinesis而不是Kafka一起使用)從S3讀取日志數據,因為所連接的應用程序選擇了Kinesis進行存儲。Spark可以做到這一點,然而并非所有項目都有如此豐富的生態系統。在使用Microsoft HDInsight和Google DataProc時也會出現類似的情況,無論在哪里部署,都會有“本地收藏夾”選項。
早期的Hadoop團隊通常只關心自己的集群之內,他們無需太擔心與訪問控制以外的其余結構的治理或安全性的連接。如今的團隊還需要對所交付的商業軟件包中的許多組件進行檢測,以實現基于角色的精細安全性、元數據管理、沿襲、數據質量、遷移性以及分布式應用程序的協調等等。使用這項技術的團隊在日常工作中需要與公司內的其余業務和技術部門進行協調、交換數據并參與策略的執行。此外,還需要有資源管理、編配、治理和安全等工作。
從具體問題出發
所有這些都表明Hadoop這個名稱已不再能夠表示我們當今堆棧中的各項技術的真正作用,現在我們應該開始討論的是數據湖、機器學習、運營數據管理等用例,將這些具體用例作為設計、開發、集成和運營計劃的基礎會更具說明性和實用性。或許我們可以通過擁抱“Hadoop哲學”來實現這一目標。
曾經的Hadoop供應商早已開始這一轉型。我們也應該根據用例、功能活動、結果和受眾等方面重新思考,以便為高價值用戶提供以分析為依據的更高首選產品可視性。談論Hadoop還是有意義的,不過如果單純從Hadoop這個主題開始,就無法有效地推進討論成果。我們應該從具體問題出發,比如客戶系統,基于機器學習的數字化轉型,或者是為現場運行提供更豐富的數據,實現我們思考方式的轉型。
聲明:本內容為作者獨立觀點,不代表電源網。本網站原創內容,如需轉載,請注明出處;本網站轉載的內容(文章、圖片、視頻)等資料版權歸原作者所有。如我們采用了您不宜公開的文章或圖片,未能及時和您確認,避免給雙方造成不必要的經濟損失,請電郵聯系我們,以便迅速采取適當處理措施;歡迎投稿,郵箱∶editor@netbroad.com。
Cloudera助力信也科技構筑“智能風控”體系 | 22-03-11 09:58 |
---|---|
Cloudera與阿里云強強聯手,助力中國企業加速數據驅動之旅 | 21-07-15 11:45 |
快魚吃慢魚時代,數據流如何成就企業數字化轉型? | 21-06-07 11:38 |
Cloudera Data Platform 公有云版本獲得ISO 27001認證 | 21-05-19 17:00 |
Cloudera攜手NVIDIA加速云端數據分析和AI應用 | 21-04-13 15:36 |
微信關注 | ||
![]() |
技術專題 | 更多>> | |
![]() |
技術專題之EMC |
![]() |
技術專題之PCB |