大數據實時計算階段需掌握的技術有:Mahout、Spark、storm。
1、Spark
Spark是專為大規模數據處理而設計的快速通用的計算引擎,其提供了一個全面、統一的框架用于管理各種不同性質的數據集和數據源的大數據處理的需求,大數據開發需掌握Spark基礎、SparkJob、Spark RDD、spark job部署與資源分配、Spark shuffle、Spark內存管理、Spark廣播變量、Spark SQL、Spark Streaming以及Spark ML等相關知識。
2、storm
Storm為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數據庫。這是管理隊列及工作者集群的另一種方式。Storm可以方便地在一個計算機集群中編寫與擴展復雜的實時計算,Storm用于實時處理,就好比 Hadoop 用于批處理。Storm保證每個消息都會得到處理,而且它很快——在一個小集群中,每秒可以處理數以百萬計的消息。