hadoop入門實(shí)例教程40-MapReduce高階實(shí)現(xiàn).ppt
《hadoop入門實(shí)例教程40-MapReduce高階實(shí)現(xiàn).ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《hadoop入門實(shí)例教程40-MapReduce高階實(shí)現(xiàn).ppt(14頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
Hadoop大數(shù)據(jù)解決方案進(jìn)階應(yīng)用,Hadoop,講師:迪倫(北風(fēng)網(wǎng)版權(quán)所有),MapReduce高階實(shí)現(xiàn)(14),半連接實(shí)例全局作業(yè)參數(shù)傳遞全局?jǐn)?shù)據(jù)文件傳遞,課程目標(biāo),實(shí)例執(zhí)行結(jié)果:半連接,多數(shù)據(jù)源連接解決方法的限制,如果數(shù)據(jù)源兩兩之間需要進(jìn)行多個(gè)不同的主鍵和外鍵的連接,則無法一次性完成數(shù)據(jù)源的連接通過多次使用MapReduce過程完成不同主/外鍵鍵的連接例如,有三個(gè)數(shù)據(jù)源,Customers(CustomerID主鍵)、Orders(OrderID主鍵,CustomerID外鍵、ItemID外鍵)、Products(ItemID主鍵)解決方法:設(shè)計(jì)兩個(gè)MapReduce作業(yè)第一個(gè)作業(yè)完成Customers與Orders的連接第二個(gè)作業(yè)完成第一個(gè)作業(yè)的連接結(jié)果與Products的連接,全局作業(yè)參數(shù)/數(shù)據(jù)的傳遞,MapReduce作業(yè)處理過程中,有時(shí)需要讓每個(gè)節(jié)點(diǎn)共享一些重要的計(jì)算參數(shù)或數(shù)據(jù)對(duì)于小的計(jì)算參數(shù),可以通過Configuration類來傳遞對(duì)于較大的數(shù)據(jù),可以用共享數(shù)據(jù)文件來進(jìn)行傳遞盡量避免用硬代碼方式在程序中設(shè)置作業(yè)參數(shù),而是設(shè)置作業(yè)參數(shù)實(shí)現(xiàn)一個(gè)具有一定通用性的程序,允許任意指定字段作為參數(shù)運(yùn)行程序時(shí)指定需傳遞的數(shù)據(jù)然后該參數(shù)作為一個(gè)屬性保存在Configuration對(duì)象中并允許Map和Reduce節(jié)點(diǎn)從Configuration對(duì)象中獲取和使用該屬性值,全局作業(yè)參數(shù)的傳遞,Configuration類提供的保存和獲取屬性的方法,全局作業(yè)參數(shù)的傳遞實(shí)例,需求:處理顧客和訂單數(shù)數(shù)據(jù)集的連接連接主鍵參數(shù)希望通過在命令行中給出連接主鍵的列號(hào)來設(shè)置代碼實(shí)現(xiàn)將第1個(gè)輸入?yún)?shù)設(shè)置為GroupKeyColIdx屬性,全局作業(yè)參數(shù)的傳遞實(shí)例,在Mapper或Reducer類的初始化方法中從Configuration對(duì)象中讀取該屬性值,查詢?nèi)諱apReduce作業(yè)屬性,程序可以通過Configuration對(duì)象,使用預(yù)定義的屬性名稱查詢計(jì)算作業(yè)相關(guān)的信息,查詢?nèi)諱apReduce作業(yè)屬性,通過Configuration類中提供的屬性獲取方法進(jìn)行,在屬性讀取方法中把相應(yīng)的作業(yè)屬性名設(shè)置好即可,全局?jǐn)?shù)據(jù)文件的傳遞,通過分布式緩存實(shí)現(xiàn)數(shù)據(jù)文件的傳遞先將這些文件傳送到分布式緩存中然后各個(gè)節(jié)點(diǎn)從分布式緩存中將文件復(fù)制到本地的文件系統(tǒng)中使用為提高訪問速度,通常會(huì)將較小的文件數(shù)據(jù)讀入各節(jié)點(diǎn)的內(nèi)存中使用涉及的編程設(shè)置Job類publicvoidaddCacheFile(URLuri):將一個(gè)文件存放到分布式緩存中Mapper或Reducer的context類publicPath[]getLocalCacheFiles():獲取設(shè)置在分布式緩存中的文件路徑,以便能將這些文件讀入到每個(gè)節(jié)點(diǎn),全局?jǐn)?shù)據(jù)文件的傳遞,實(shí)現(xiàn)將文件存入分布式緩存:,從Mapper或Reducer的setup()方法中進(jìn)行讀取文件的初始化處理,全局?jǐn)?shù)據(jù)文件的傳遞,歡迎訪問我們的官方網(wǎng)站,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- hadoop 入門 實(shí)例教程 40 MapReduce 實(shí)現(xiàn)
鏈接地址:http://kudomayuko.com/p-11496479.html