日本牲交大片无遮挡,亚洲色成人网站WWW永久,小猪视频罗志祥代言的哪款

　　一、分區(qū)

　　指的就是將數(shù)據(jù)按照表中的某一個(gè)字段進(jìn)行統(tǒng)一歸類(lèi)，并存儲(chǔ)在表中的不同的位置，也就是說(shuō)，一個(gè)分區(qū)就是一類(lèi)，這一類(lèi)的數(shù)據(jù)對(duì)應(yīng)到hdfs存儲(chǔ)上就是對(duì)應(yīng)一個(gè)目錄。

　　1.靜態(tài)分區(qū)

　　數(shù)據(jù)已經(jīng)按某些字段分完區(qū)放在一塊，建表時(shí)直接指定分區(qū)即可。

　　create table entercountrypeople(id int,name string,cardNum string)

　　partitioned by (enter_date string,country string);

　　注意，這里的分區(qū)字段不能包含在表定義字段中，因?yàn)樵谙虮碇衛(wèi)oad數(shù)據(jù)的時(shí)候，需要手動(dòng)指定該字段的值.

　　2.數(shù)據(jù)加載(指定分區(qū))：

　　load data inpath '/hadoop/guozy/data/enter_chinapeople' into table entercountrypeople partition (enter_date='2019-01-02',country='china');

　　此處自動(dòng)創(chuàng)建分區(qū)目錄;

111

　　創(chuàng)建完后目錄結(jié)構(gòu)：

　　其他創(chuàng)建分區(qū)目錄的方法：

　　1）alter table entercountrypeople add if not exists partition (enter_date='2019-01-03',country='US');

　　2）在相應(yīng)的表目錄下創(chuàng)建分區(qū)目錄后，執(zhí)行 msck repair table table_name;

　　2.動(dòng)態(tài)分區(qū)

　　建表相同，主要是加載數(shù)據(jù)方式不同，動(dòng)態(tài)分區(qū)是將大雜燴數(shù)據(jù)自動(dòng)加載到不同分區(qū)目錄。

　　1）開(kāi)啟非嚴(yán)格模式

　　2）要從另一張hive表查詢(xún)

　　set hive.exec.dynamic.partition.mode=nonstrict;

　　insert into table entercountrypeople(user string,age int) partition(enterdate,country) select user,age,enterdate,country from entercountrypeople_bak;

　　二、分桶表

　　如果兩個(gè)表根據(jù)相同的字段進(jìn)行分桶，則在對(duì)這兩個(gè)表進(jìn)行關(guān)聯(lián)的時(shí)候可以使用map-side關(guān)聯(lián)高效實(shí)現(xiàn)

　　create table user_bucket(id int comment 'ID',name string comment '姓名',age int comment '年齡') comment '測(cè)試分桶' clustered by (id) sorted by (id) into 4 buckets row format delimited fields terminated by '\t';

　　指定根據(jù)id字段進(jìn)行分桶，并且分為4個(gè)桶，并且每個(gè)桶內(nèi)按照id字段升序排序，如果不加sorted by，則桶內(nèi)不經(jīng)過(guò)排序的，上述語(yǔ)句中為id，根據(jù)id進(jìn)行hash之后在對(duì)分桶數(shù)量4進(jìn)行取余來(lái)決定該數(shù)據(jù)存放在哪個(gè)桶中，因此每個(gè)桶都是整體數(shù)據(jù)的隨機(jī)抽樣。

　　數(shù)據(jù)載入：

　　我們需要借助一個(gè)中間表，先將數(shù)據(jù)load到中間表中，然后通過(guò)insert的方式來(lái)向分桶表中載入數(shù)據(jù)。

　　create table tmp_table (id int comment 'ID',name string comment '名字',age int comment '年齡') comment '測(cè)試分桶中間表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

　　load data inpath '/hadoop/guoxb/data/user.txt' into table tmp_table;

　　insert into userbucket select * from tmptable;

　　上述的語(yǔ)句中，最終會(huì)在hdfs上生成四個(gè)文件，而不是四個(gè)目錄，如果當(dāng)在次向該分桶表中insert數(shù)據(jù)后，會(huì)又增加4個(gè)文件，而不是在原來(lái)的文件上進(jìn)行追加。

　　三、區(qū)別

　　1.hdfs目錄結(jié)構(gòu)不同，分區(qū)是生成目錄，分桶是生成文件

　　2.分區(qū)表在加載數(shù)據(jù)的時(shí)候可以指定加載某一部分?jǐn)?shù)據(jù)，有利于查詢(xún)

　　3.分桶在map-side join(另一種 reduce-side join)查詢(xún)時(shí)，可以直接從bucket(兩表分桶成倍數(shù)即可)中提取數(shù)據(jù)進(jìn)行關(guān)聯(lián)操作，查詢(xún)高效。

　　更多關(guān)于“大數(shù)據(jù)培訓(xùn)”的問(wèn)題，歡迎咨詢(xún)千鋒教育在線(xiàn)名師。千鋒教育多年辦學(xué)，課程大綱緊跟企業(yè)需求，更科學(xué)更嚴(yán)謹(jǐn)，每年培養(yǎng)泛IT人才近2萬(wàn)人。不論你是零基礎(chǔ)還是想提升，都可以找到適合的班型，千鋒教育隨時(shí)歡迎你來(lái)試聽(tīng)。

大數(shù)據(jù)面試題：分區(qū)和分桶