確定是離線數(shù)倉(cāng)嗎(如果是離線數(shù)倉(cāng),就算離線數(shù)倉(cāng)數(shù)據(jù)從kafka接入,那這對(duì)kafka中數(shù)據(jù)順序的關(guān)系我就不太明白面試人想要啥)?
如果是離線數(shù)倉(cāng)的數(shù)據(jù)從Kafka接入,接入到離線數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)需要保障順序嗎?這個(gè)保障不必要。我總覺(jué)得這個(gè)問(wèn)題的核心是讓你保證Kakfa中數(shù)據(jù)的順序?我們就針對(duì)這個(gè)問(wèn)題說(shuō)明
1、kafka本身就是保障分區(qū)內(nèi)的數(shù)據(jù)有序,但是主題有多個(gè)分區(qū),這個(gè)主題的多有數(shù)據(jù)不敢保證有順序,所以我們需要為進(jìn)入topic的數(shù)據(jù)做好key的分配(相同key只能進(jìn)同一分區(qū)),保障相同的key的數(shù)據(jù)是有順序,這樣后續(xù)的實(shí)時(shí)數(shù)倉(cāng)才方便計(jì)算,至于離線數(shù)倉(cāng)要保障全局?jǐn)?shù)據(jù)的順序很簡(jiǎn)單,從新排序一下即可。
2、如果能設(shè)置kafka的上游數(shù)據(jù)僅為一個(gè)生產(chǎn)者,設(shè)置kafka只有一個(gè)分區(qū),設(shè)置消費(fèi)者只有一個(gè),那這樣也能保障其kakfa數(shù)據(jù)有序的,但是這種幾乎就是極端場(chǎng)景,生產(chǎn)中很少見(jiàn),除非數(shù)據(jù)很少可以嘗試。
更多關(guān)于大數(shù)據(jù)培訓(xùn)的問(wèn)題,歡迎咨詢(xún)千鋒教育在線名師。千鋒教育擁有多年IT培訓(xùn)服務(wù)經(jīng)驗(yàn),采用全程面授高品質(zhì)、高體驗(yàn)培養(yǎng)模式,擁有國(guó)內(nèi)一體化教學(xué)管理及學(xué)員服務(wù),助力更多學(xué)員實(shí)現(xiàn)高薪夢(mèng)想。