花季传媒v3.068下载安装,老司机午夜精品视频,国产精品爆乳在线播放第一人称

　　大數(shù)據(jù)的核心技術(shù)有哪些？大數(shù)據(jù)的核心層：數(shù)據(jù)采集層、數(shù)據(jù)存儲分析層、數(shù)據(jù)共享層、數(shù)據(jù)應(yīng)用層，叫法不同，作用基本相同。

　　大數(shù)據(jù)的核心技術(shù)有哪些？

　　1、數(shù)據(jù)收集

　　數(shù)據(jù)收集的任務(wù)是收集各種數(shù)據(jù)源的數(shù)據(jù)并將其存儲到數(shù)據(jù)存儲中，在此期間可以進行一些簡單的清洗。有多種類型的數(shù)據(jù)源：

　　網(wǎng)站日志：作為互聯(lián)網(wǎng)行業(yè)，網(wǎng)站日志占比最大。網(wǎng)站日志存儲在多個網(wǎng)站日志服務(wù)器上。一般在每臺網(wǎng)站日志服務(wù)器上部署flume agent，實時采集網(wǎng)站日志并存儲在HDFS上；

　　業(yè)務(wù)數(shù)據(jù)庫：還有各種類型的業(yè)務(wù)數(shù)據(jù)庫，包括Mysql、Oracle、SqlServer等，這個時候我們迫切需要一個可以將各種數(shù)據(jù)庫的數(shù)據(jù)同步到HDFS的工具。Sqoop 是一種，但是 Sqoop 太重了，無論數(shù)據(jù)大小，都需要啟動 MapReduce 執(zhí)行，Hadoop 集群中的每臺機器都需要能夠訪問業(yè)務(wù)數(shù)據(jù)庫；對于這種場景，淘寶開源的DataX是一個很好的解決方案。如果有資源，可以基于DataX進行二次開發(fā)，可以很好的解決。當(dāng)然，F(xiàn)lume 也可以通過配置和開發(fā)，將數(shù)據(jù)庫中的數(shù)據(jù)實時同步到 HDFS。

　　數(shù)據(jù)源來自Ftp/Http：可能部分合作伙伴提供的數(shù)據(jù)需要定期通過Ftp/Http等獲取，DataX也可以滿足這個需求；

　　其他數(shù)據(jù)源：如一些手動錄入的數(shù)據(jù)，只需要提供一個接口或小程序即可完成。

　　2、數(shù)據(jù)存儲與分析

　　毫無疑問，HDFS是大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉庫/數(shù)據(jù)平臺最完美的數(shù)據(jù)存儲解決方案。

　　離線數(shù)據(jù)分析計算，也就是對實時性要求不高的部分，在我看來還是首選Hive，數(shù)據(jù)類型豐富，內(nèi)置功能；ORC文件存儲格式，壓縮比非常高；非常方便的 SQL 支持使得 Hive 基于結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)計分析遠(yuǎn)比 MapReduce 高效。對于單個 SQL 語句可以滿足的需求，MR 的開發(fā)可能需要數(shù)百行代碼。

　　當(dāng)然，使用 Hadoop 框架自然也提供了 MapReduce 接口。如果你真的很樂意開發(fā)Java，或者對SQL不熟悉，也可以使用MapReduce進行分析計算。Spark在過去兩年非常流行。經(jīng)過實踐，它的性能確實比 MapReduce 好很多，而且結(jié)合 Hive 和 Yarn 也越來越好。因此，需要支持使用 Spark 和 SparkSQL 進行分析計算。因為 Hadoop Yarn 已經(jīng)存在，所以不用單獨部署 Spark 集群，使用 Spark 其實是非常容易的。

　　3、數(shù)據(jù)共享

　　這里的數(shù)據(jù)共享，其實是指之前的數(shù)據(jù)分析計算結(jié)果存儲的地方，其實就是關(guān)系型數(shù)據(jù)庫和NOSQL數(shù)據(jù)庫；之前使用Hive、MR、Spark、SparkSQL分析計算的結(jié)果還在HDFS上。但是大部分業(yè)務(wù)和應(yīng)用無法直接從HDFS獲取數(shù)據(jù)，所以需要一個數(shù)據(jù)共享的地方，讓每個業(yè)務(wù)和產(chǎn)品都能輕松獲取數(shù)據(jù)；它與 HDFS 的數(shù)據(jù)收集層正好相反，需要從 HDFS 傳輸數(shù)據(jù)。與其他目標(biāo)數(shù)據(jù)源同步的工具，同樣DataX也能滿足。

　　另外，一些實時計算結(jié)果數(shù)據(jù)可以直接寫入實時計算模塊的數(shù)據(jù)共享中。

　　4、數(shù)據(jù)應(yīng)用

　　業(yè)務(wù)產(chǎn)品和業(yè)務(wù)產(chǎn)品使用的數(shù)據(jù)已經(jīng)存在于數(shù)據(jù)共享層，可以直接從數(shù)據(jù)共享層訪問；報表（FineReport，業(yè)務(wù)報表）與業(yè)務(wù)產(chǎn)品相同，報表中使用的數(shù)據(jù)一般已經(jīng)統(tǒng)計和匯總。存儲在數(shù)據(jù)共享層；ad hoc 查詢 ad hoc 查詢的用戶很多，可能是數(shù)據(jù)開發(fā)人員、網(wǎng)站和產(chǎn)品運營商、數(shù)據(jù)分析師，甚至是部門負(fù)責(zé)人，他們都有臨時查詢數(shù)據(jù)的需求；這種即席查詢通常情況下，現(xiàn)有報表和數(shù)據(jù)共享層中的數(shù)據(jù)不能滿足其需求，需要直接從數(shù)據(jù)存儲層查詢。即席查詢通常通過 SQL 完成。最大的困難是響應(yīng)速度。使用 Hive 有點慢?？梢允褂?SparkSQL，它的響應(yīng)速度比 Hive 快得多，并且與 Hive 兼容。當(dāng)然，你也可以使用 Impala，如果你不關(guān)心平臺中多一個框架。

　　OLAP 目前很多OLAP工具都不能很好的支持直接從HDFS獲取數(shù)據(jù)。他們通過將需要的數(shù)據(jù)同步到關(guān)系數(shù)據(jù)庫中來做OLAP，但是如果數(shù)據(jù)量很大，關(guān)系數(shù)據(jù)庫顯然不能；這時候需要做相應(yīng)的開發(fā)，從HDFS或者HBase獲取數(shù)據(jù)，完成OLAP功能；例如，根據(jù)用戶在界面上選擇的不確定維度和指標(biāo)，通過開發(fā)界面，從HBase中獲取數(shù)據(jù)進行展示。

　　其他數(shù)據(jù)接口有通用接口和定制接口。比如一個從Redis獲取用戶屬性的接口是通用的，所有的業(yè)務(wù)都可以調(diào)用這個接口來獲取用戶屬性。

　　5、實時計算

　　企業(yè)現(xiàn)在對數(shù)據(jù)倉庫的實時性要求越來越高，比如：實時了解一個網(wǎng)站的整體流量；實時獲取廣告的曝光和點擊；在海量數(shù)據(jù)下，依靠傳統(tǒng)的數(shù)據(jù)庫和傳統(tǒng)的實現(xiàn)方式，基本上是不可能的。需要一個分布式、高吞吐量、低延遲、高可靠的實時計算框架；Storm在這方面比較成熟，但是我選擇Spark Streaming的原因很簡單，就是不想在平臺上引入另外一個框架，另外Spark Streaming的延遲比Storm高一點，對于我們來說可以忽略需要。

　　我們目前使用Spark Streaming來實現(xiàn)網(wǎng)站流量的實時統(tǒng)計和廣告效果的實時統(tǒng)計。方法也很簡單。Flume 在前端日志服務(wù)器上收集網(wǎng)站日志和廣告日志，并實時發(fā)送到 Spark Streaming。Spark Streaming 完成統(tǒng)計，將數(shù)據(jù)存儲在 Redis 中，通過訪問 Redis 實時獲取服務(wù)。

　　6、任務(wù)調(diào)度與監(jiān)控

　　在數(shù)據(jù)倉庫/數(shù)據(jù)平臺中，有很多種程序和任務(wù)，例如：數(shù)據(jù)采集任務(wù)、數(shù)據(jù)同步任務(wù)、數(shù)據(jù)分析任務(wù)等。這些任務(wù)除了定時調(diào)度外，還有非常復(fù)雜的任務(wù)依賴關(guān)系。例如，數(shù)據(jù)分析任務(wù)只有在相應(yīng)的數(shù)據(jù)采集任務(wù)完成后才能啟動；數(shù)據(jù)分析任務(wù)完成后才能啟動數(shù)據(jù)同步任務(wù)；

　　這就需要一個非常完善的任務(wù)調(diào)度和監(jiān)控系統(tǒng)。作為數(shù)據(jù)倉庫/數(shù)據(jù)平臺的中心，負(fù)責(zé)調(diào)度和監(jiān)控所有任務(wù)的分配和運行。更多關(guān)于大數(shù)據(jù)培訓(xùn)的問題，歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年 IT培訓(xùn)服務(wù)經(jīng)驗，采用全程面授高品質(zhì)、高體驗培養(yǎng)模式，擁有國內(nèi)一體化教學(xué)管理及學(xué)員服務(wù)，助力更多學(xué)員實現(xiàn)高薪夢想。