該系統(tǒng)利用大數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)的活躍度,將最活躍的數(shù)據(jù)向上遷移至高可用層,同時(shí)將最不活躍的數(shù)據(jù)向下遷移至低可用層,另外數(shù)據(jù)的熱度通過統(tǒng)計(jì)文件的該寫訪問頻率和I/0特征得出。同時(shí),每個(gè)小時(shí)的熱度統(tǒng)計(jì)數(shù)據(jù),將隨著時(shí)間進(jìn)行定期加權(quán)累計(jì)。該權(quán)重隨著時(shí)間推移而減小,即熱度統(tǒng)計(jì)值周期越新,權(quán)重越高。另外本系統(tǒng)在讀寫數(shù)據(jù)的同時(shí)也提取該數(shù)據(jù)的一些特征值,根據(jù)這些特征值利用Tensorflow深度學(xué)習(xí)框架預(yù)測(cè)出與之關(guān)聯(lián)的數(shù)據(jù),并且將關(guān)聯(lián)數(shù)據(jù)預(yù)讀入高可用層從而提高系統(tǒng)的存儲(chǔ)效率。對(duì)于數(shù)據(jù)的特征值提取,本系統(tǒng)是通過是將數(shù)據(jù)塊的內(nèi)容按照字節(jié)進(jìn)行大小為N的滑動(dòng)窗口操作,形成了長度是N的字節(jié)片段序列,每個(gè)字節(jié)片段稱為gram,對(duì)所有g(shù)ram的出現(xiàn)頻度進(jìn)行統(tǒng)計(jì),并且按照事先設(shè)定好的閾值進(jìn)行過濾,形成關(guān)鍵 gram 列表,也就是這個(gè)文本的向量特征空間,列表中的每一種 gram 就是一個(gè)特征向量維度,該特征向量作為預(yù)測(cè)關(guān)聯(lián)數(shù)據(jù)機(jī)制中的一個(gè)參數(shù)!輸入。本系統(tǒng)預(yù)測(cè)關(guān)聯(lián)數(shù)據(jù)機(jī)制是通過協(xié)同過濾推薦算法來進(jìn)行的,計(jì)算數(shù)據(jù)之間的相似性需要計(jì)算數(shù)據(jù)塊的評(píng)分與其他數(shù)據(jù)塊評(píng)分的相似度,即評(píng)分矩陣中的數(shù)據(jù)評(píng)分記錄。每個(gè)數(shù)據(jù)對(duì)存儲(chǔ)的評(píng)分可以看作是一個(gè)n維的評(píng)分向量。使用評(píng)分向量計(jì)算目標(biāo)數(shù)據(jù)與其他數(shù)據(jù)之間的相似度sim(i,j),通常計(jì)算數(shù)據(jù)相似度的方法有三種:余弦相似度、修正的余弦相似度和皮爾森相關(guān)系數(shù),本系統(tǒng)采用的是皮爾森相關(guān)系數(shù)來計(jì)算其相似度。
1.深圳云宣存儲(chǔ)科技有限公司
1.鄧進(jìn)林 2.劉應(yīng) 3.周金華 4.石強(qiáng)
| |
評(píng)價(jià)單位: |
|
報(bào)告編號(hào): |
高科評(píng)字 〔2022〕 第KD001號(hào) |
評(píng)價(jià)日期: |
2022-01-09 |
評(píng)價(jià)委員會(huì)認(rèn)為,該項(xiàng)目整體水平達(dá)到國內(nèi)領(lǐng)先,取得了一定的社會(huì)經(jīng)濟(jì)效益致同意通過科技成果評(píng)價(jià)。