久久久久精品一区二区三区不卡_2020国产精品午夜视频_下载91香蕉视频_丁香婷婷在线观看_日韩在线中文字幕av

天天關(guān)注:解密HDFS如何判斷磁盤存儲大小,存儲動態(tài)負(fù)載均衡的?

來源:滌生大數(shù)據(jù)時(shí)間:2023-04-26 14:29:51
1. HDFS對底層的磁盤存儲如何選擇的?

一個(gè)HDFS集群,會有很多個(gè)datanode節(jié)點(diǎn),每個(gè)datanode節(jié)點(diǎn)會掛載很多塊磁盤。HDFS在存儲數(shù)據(jù)時(shí)如何動態(tài)負(fù)載均衡最優(yōu)化地往每個(gè)datanode,每個(gè)磁盤上存儲數(shù)據(jù)呢?

其實(shí)沒啥,DataNode在運(yùn)行過程中,為了計(jì)算DN的capacity使用量,實(shí)現(xiàn)數(shù)據(jù)存儲的動態(tài)均衡,DN會對已配置的數(shù)據(jù)存儲路徑(dfs.datanode.data.dir)進(jìn)行du -sk操作,以此獲得capacity使用量匯報(bào)給NN中,然后NN就知道哪些DN有空間能被寫數(shù)據(jù)進(jìn)去,哪些是空間不足的。

為了保證數(shù)據(jù)使用量的近實(shí)時(shí)性,目前DN是以默認(rèn)10分鐘的間隔時(shí)間執(zhí)行一次。假設(shè)按照一個(gè)DN節(jié)點(diǎn)12個(gè)數(shù)據(jù)目錄對應(yīng)12塊盤的情況,就會有12個(gè)du操作在每個(gè)10分鐘內(nèi)都會執(zhí)行一次。在datanode存儲的數(shù)據(jù)使用率比較高的時(shí)候,會十分消耗性能。直接引發(fā)阻塞io,系統(tǒng)load直線增高。


(資料圖片)

這種問題在大規(guī)模的集群中是很常見的,下面是針對線上(hadoop2.6版本的)簡易零時(shí)的優(yōu)化手段。說明:此問題僅存在于低于hadoop2.8版本,高于此版本已經(jīng)修復(fù)。

https://issues.apache.org/jira/browse/HADOOP-9884

如果碰到這種情況,升級不了集群版本,那么我們還有其他奇技淫巧嗎?

2.通過修改HDFS代碼實(shí)現(xiàn)優(yōu)化先回顧一下du,df的使用

du原理簡述:

du命令全程disk usage,它的統(tǒng)計(jì)原理在于將目標(biāo)路徑下的當(dāng)前沒有被刪除的文件進(jìn)行大小累加,然后得出總使用量。這種計(jì)算方式在文件數(shù)量少時(shí)往往不會表現(xiàn)出什么問題。但是當(dāng)目標(biāo)路徑目錄多,文件多的時(shí)候,du會表現(xiàn)出明顯的時(shí)間執(zhí)行耗時(shí)。

df 原理簡述:

df命令統(tǒng)計(jì)值通過文件系統(tǒng)獲取的。df命令的弊端是它不能按照具體目錄進(jìn)行使用量的統(tǒng)計(jì)。df是按照所在磁盤級別進(jìn)行統(tǒng)計(jì)的。換句話說,用df命令在屬于同一塊物理盤的子路徑下執(zhí)行df命令,獲取的值會是完全一致的。比較遺憾,這種情況將無法支持DataNode多block pool共用一塊盤的情況。

處理方式:使用 df 命令替換 du

捕獲到datanode執(zhí)行過程中調(diào)用的 du -sk 命令,替換為df -k 。

實(shí)現(xiàn)腳本如下:

##將原始的 du指令更換名稱

mv /usr/bin/du /usr/bin/du_bak
vim /usr/bin/du
#!/bin/shif [[ $2 == */current/BP-* ]] && [ $1 == -sk ]then    used=`df -k $2 | grep -vE "Used" | awk "{print $3}"`    echo -e "$used\t$2"else    echo -e "$(du_bak $@)"fi

chmod +x /usr/bin/du

3.批量部署的執(zhí)行環(huán)境

跳板機(jī)(10.90.72.195)已經(jīng)部署好ansible環(huán)境,配置主機(jī)名,執(zhí)行ansible-playbook腳本即可。

執(zhí)行路徑:/home/tool/updata_datanodes_du需要修改的配置文件:/home/tool/updata_datanodes_du/datanodes執(zhí)行腳本:./run.sh

updata_du.yml

---- hosts: all_datanodesremote_user: rootgather_facts: F # 跳過gather_facts環(huán)節(jié)serial: 70 #開啟的并發(fā)數(shù)tasks:- name: "檢查主機(jī)du是否已經(jīng)被部署過"stat:path: "/usr/bin/du_bak"register: file_stat- name: "同步du腳本文件到目標(biāo)主機(jī)"copy: # 使用復(fù)制模塊,進(jìn)行文件分發(fā),從本地主機(jī)分發(fā)到遠(yuǎn)程主機(jī)src: "{{ item.src }}" # 源文件,變量定義多個(gè)源文件dest: "/tmp/" # 文件復(fù)制到目標(biāo)主機(jī)的目錄owner: rootgroup: rootmode: 0777with_items: # 本地源文件列表- { src: "/home/tool/updata_datanodes_du/scp_files/du" }when: not file_stat.stat.exists- name: "檢查du文件是否同步成功"stat:path: "/tmp/du"register: tmp_du_stat- name: "備份du文件"command: mv /usr/bin/du /usr/bin/du_bakwhen: tmp_du_stat.stat.exists- name: "更新為新的du腳本文件"command: mv /tmp/du /usr/bin/duwhen: tmp_du_stat.stat.exists

標(biāo)簽:

責(zé)任編輯:FD31
上一篇:一年之計(jì)在于春一日之計(jì)在于晨寸金難買寸光陰的意思_一年之計(jì)在于春后幾句的意思
下一篇:每日消息!計(jì)算機(jī)中所有的信息都是以二進(jìn)制形式存放的為什么_計(jì)算機(jī)中的所有信息都是以二進(jìn)制方式表示的主要理由是

精彩圖集(熱圖)

熱點(diǎn)圖集

最近更新

信用中國

  • 信用信息
  • 行政許可和行政處罰
  • 網(wǎng)站文章