亚洲成a人片在线不卡一二三区,天天看在线视频国产,亚州Av片在线劲爆看,精品国产sm全部网站

        大數(shù)據(jù)實(shí)習(xí)過程報(bào)告

        發(fā)布時(shí)間:2024-01-29 00:42:23

        • 文檔來源:用戶上傳
        • 文檔格式:WORD文檔
        • 文檔分類:實(shí)習(xí)報(bào)告
        • 點(diǎn)擊下載本文

        千文網(wǎng)小編為你整理了多篇相關(guān)的《大數(shù)據(jù)實(shí)習(xí)過程報(bào)告》,但愿對你工作學(xué)習(xí)有幫助,當(dāng)然你在千文網(wǎng)還可以找到更多《大數(shù)據(jù)實(shí)習(xí)過程報(bào)告》。

        大數(shù)據(jù)技術(shù)市場調(diào)查報(bào)告:“BigData浪潮”迫使企業(yè)做出抉擇

        發(fā)表于2012-02-06 13:26| 2517次閱讀| 來源CSDN| 0 條評論| 作者李智

        數(shù)據(jù)中心浪潮數(shù)據(jù)挖掘數(shù)據(jù)分析大數(shù)據(jù)

        摘要:大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性 首先讓我們先來了解一下大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性。從IT角度來看,信息結(jié)構(gòu)類型大致經(jīng)歷了三次浪潮。必須注意這一點(diǎn),新的浪潮并沒取代舊浪潮,它們?nèi)栽诓粩喟l(fā)展,三種數(shù)據(jù)結(jié)構(gòu)類型一直存在,只是其中一種結(jié)構(gòu)類型往往主導(dǎo)于其他結(jié)構(gòu): 結(jié)構(gòu)化信息這種信息可以在關(guān)...根據(jù)IDC的調(diào)查報(bào)告預(yù)測到2020年全球電子設(shè)備存儲(chǔ)的數(shù)據(jù)將暴增30倍,達(dá)到35ZB(相當(dāng)于10億塊1TB的硬盤的容量)。大數(shù)據(jù)浪潮的到來也為企業(yè)帶來了新一輪的挑戰(zhàn)。對于有準(zhǔn)備的企業(yè)來說這無疑是一座信息金礦,能夠合理的將大數(shù)據(jù)轉(zhuǎn)換為有價(jià)值信息成為未來企業(yè)的必備技能。恰逢此時(shí),CSDN專門針對企業(yè)相關(guān)人員進(jìn)行了大規(guī)模問卷調(diào)研,并在數(shù)千份的調(diào)查報(bào)告中總結(jié)出現(xiàn)今企業(yè)大數(shù)據(jù)業(yè)務(wù)的現(xiàn)狀。在此我們也將調(diào)研結(jié)果展示與此以供大家參考。

        大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性 首先讓我們先來了解一下大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性。從IT角度來看,信息結(jié)構(gòu)類型大致經(jīng)歷了三次浪潮。必須注意這一點(diǎn),新的浪潮并沒取代舊浪潮,它們?nèi)栽诓粩喟l(fā)展,三種數(shù)據(jù)結(jié)構(gòu)類型一直存在,只是其中一種結(jié)構(gòu)類型往往主導(dǎo)于其他結(jié)構(gòu):

        結(jié)構(gòu)化信息——這種信息可以在關(guān)系數(shù)據(jù)庫中找到,多年來一直主導(dǎo)著IT應(yīng)用。這是關(guān)鍵任務(wù)OLTP系統(tǒng)業(yè)務(wù)所依賴的信息,另外,還可對結(jié)構(gòu)數(shù)據(jù)庫信息進(jìn)行排序和查詢; 半結(jié)構(gòu)化信息——這是IT的第二次浪潮,包括電子郵件,文字處理文件以及大量保存和發(fā)布在網(wǎng)絡(luò)上的信息。半結(jié)構(gòu)化信息是以內(nèi)容為基礎(chǔ),可以用于搜索,這也是谷歌存在的理由; 非結(jié)構(gòu)化信息——該信息在本質(zhì)形式上可認(rèn)為主要是位映射數(shù)據(jù)。數(shù)據(jù)必須處于一種可感知的形式中(諸如可在音頻、視頻和多媒體文件中被聽或被看)。許多大數(shù)據(jù)都是非結(jié)構(gòu)化的,其龐大規(guī)模和復(fù)雜性需要高級分析工具來創(chuàng)建或利用一種更易于人們感知和交互的結(jié)構(gòu)。

        企業(yè)內(nèi)部大數(shù)據(jù)處理基礎(chǔ)設(shè)施普遍落后

        從調(diào)查結(jié)果可以看出,接近50%的企業(yè)服務(wù)器數(shù)量在100臺(tái)以內(nèi),而擁有100至500臺(tái)占據(jù)了22%的比例。500至2000臺(tái)服務(wù)器則占據(jù)剩下28.4%的比例??梢钥闯雒鎸Υ髷?shù)據(jù)現(xiàn)今大部分企業(yè)還沒有完善其硬件基礎(chǔ)架構(gòu)設(shè)施。以現(xiàn)階段企業(yè)內(nèi)大數(shù)據(jù)處理基礎(chǔ)設(shè)施的情況來看50%的企業(yè)面臨大數(shù)據(jù)處理的問題(中小企業(yè)在面對大數(shù)據(jù)的解決之道應(yīng)遵循采集、導(dǎo)入/處理、查詢、挖掘的流程)。

        但這只是暫時(shí)狀況,“廉價(jià)”服務(wù)器設(shè)施會(huì)隨著企業(yè)業(yè)務(wù)的發(fā)展逐漸被淘汰出歷史的舞臺(tái),在未來企業(yè)基礎(chǔ)架構(gòu)體系的硬件選用上,多核多路處理器以及SSD等設(shè)備會(huì)成為企業(yè)的首選。Facebook的Open Compute Project就在業(yè)界樹立了榜樣,Open Compute Project利用開源社區(qū)的理念改善服務(wù)器硬件以及機(jī)架的設(shè)計(jì)。其數(shù)據(jù)中心PUE值也是領(lǐng)先與業(yè)內(nèi)的其他對手。

        而在具有大數(shù)據(jù)處理需求的企業(yè)中52.2%的日數(shù)據(jù)生成量在100GB以下,日數(shù)據(jù)生成量100GB到50TB占據(jù)了43.5%,而令人驚訝的是,日數(shù)據(jù)生成量50TB以上也有4.4%的份額。數(shù)據(jù)量持續(xù)的增長,公司將被迫增加基礎(chǔ)設(shè)施的部署。專利費(fèi)用將一直增加,而開源技術(shù),則省了這筆一直持續(xù)的專利費(fèi)。對于急需改變自己傳統(tǒng)IT架構(gòu)的企業(yè)而言,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的融合,成了所有人關(guān)心的問題。

        企業(yè)面對大數(shù)據(jù)處理的挑戰(zhàn)與問題

        現(xiàn)今大數(shù)據(jù)呈現(xiàn)出“4V + 1C”的特點(diǎn)。既Variety:一般包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多類數(shù)據(jù),而且它們處理和分析方式有區(qū)別;Volume:通過各種設(shè)備產(chǎn)生了大量的數(shù)據(jù),PB級別是常態(tài);Velocity:要求快速處理,存在時(shí)效性;Vitality:分析和處理模型必須快速變化,因?yàn)樾枨笤谧?;Complexity:處理和分析的難度非常大。

        從圖中我們可以看出資源利用率低、擴(kuò)展性差以及應(yīng)用部署過于復(fù)雜是現(xiàn)今企業(yè)數(shù)據(jù)系統(tǒng)架構(gòu)面臨的主要問題。其實(shí)大數(shù)據(jù)的基礎(chǔ)架構(gòu)首要需要考慮就是前瞻性,隨著數(shù)據(jù)的不斷增長,用戶需要從硬體、軟件層面思考需要怎樣的架構(gòu)去實(shí)現(xiàn)。而具備資源高利用率、高擴(kuò)展性并對文件存儲(chǔ)友好的文件系統(tǒng)必將是未來的發(fā)展趨勢。

        應(yīng)用部署過于復(fù)雜也催生了大數(shù)據(jù)處理系統(tǒng)管理員這一新興職業(yè),其主要負(fù)責(zé)日常Hadoop集群正常運(yùn)行。例如直接或間接的管理硬件,當(dāng)需要添加硬件時(shí)需保證集群仍能夠穩(wěn)定運(yùn)行。同時(shí)還要負(fù)責(zé)系統(tǒng)監(jiān)控和配置,保證Hadoop與其他系統(tǒng)的有機(jī)結(jié)合。

        而多格式數(shù)據(jù)、讀寫速度(讀寫速度是指數(shù)據(jù)從端點(diǎn)移動(dòng)到處理器和存儲(chǔ)的速度)以及海量數(shù)據(jù)是企業(yè)面臨大數(shù)據(jù)處理急需解決的技術(shù)挑戰(zhàn)。眾所周知隨著大容量數(shù)據(jù)(TB級、PB級甚至EB級)的出現(xiàn),業(yè)務(wù)數(shù)據(jù)對IT系統(tǒng)帶來了更大的挑戰(zhàn),數(shù)據(jù)的存儲(chǔ)和安全以及在未來訪問和使用這些數(shù)據(jù)已成為難點(diǎn)。同時(shí)大數(shù)據(jù)不只是關(guān)于數(shù)據(jù)量而已。大數(shù)據(jù)包括了越來越多不同格式的數(shù)據(jù),這些不同格式的數(shù)據(jù)也需要不同的處理方法。充分利用有用的數(shù)據(jù),廢棄虛偽無用的數(shù)據(jù),是數(shù)據(jù)挖掘技術(shù)的最重要的應(yīng)用。

        企業(yè)內(nèi)部數(shù)據(jù)分析與挖掘工具應(yīng)用現(xiàn)狀

        云時(shí)代企業(yè)數(shù)據(jù)挖掘面臨如下三點(diǎn)挑戰(zhàn)。挖掘效率:進(jìn)入云計(jì)算時(shí)代后,BI的思路發(fā)生了轉(zhuǎn)換。以前是基于封閉的企業(yè)數(shù)據(jù)進(jìn)行挖掘,而面對引入互聯(lián)網(wǎng)應(yīng)用后海量的異構(gòu)數(shù)據(jù)時(shí),目前并行挖掘算法的效率很低;多源數(shù)據(jù):引入云計(jì)算后,企業(yè)數(shù)據(jù)的位置有可能在提供公有云服務(wù)的平臺(tái)上,也可能在企業(yè)自建的私有云上,如何面對不同的數(shù)據(jù)源進(jìn)行挖掘也是一個(gè)挑戰(zhàn);異構(gòu)數(shù)據(jù):Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,如文檔、報(bào)表、網(wǎng)頁、聲音、圖像、視頻等,而云計(jì)算帶來了大量的基于互聯(lián)網(wǎng)模式提供的SaaS應(yīng)用,如何梳理有效數(shù)據(jù)是一個(gè)挑戰(zhàn)。拋去價(jià)格因素之外可以看出反應(yīng)速度慢、操作不方便、數(shù)據(jù)不準(zhǔn)確、分析不準(zhǔn)確這四項(xiàng)是企業(yè)數(shù)據(jù)分析與數(shù)據(jù)挖掘面臨的主要問題。商業(yè)化解決方案固然成熟,但成本也是顯而易見的。而具備在開源平臺(tái)之上處理分析大數(shù)據(jù)能力的數(shù)據(jù)科學(xué)家則成為另外的一種選擇。數(shù)據(jù)科學(xué)家具備專業(yè)領(lǐng)域知識并具備研究利用相應(yīng)算法分析對應(yīng)問題的能力,可幫助創(chuàng)建推動(dòng)業(yè)務(wù)發(fā)展的相應(yīng)的大數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)解決方案。

        從調(diào)查結(jié)果中我們可以看出Hadoop占據(jù)了半壁江山,而同為開源的HBase也有將近四分之一的占有率。而商業(yè)化的數(shù)據(jù)分析與挖掘平臺(tái)(如Teradata、Netezza、Greenplum等)總共只有13.9%的份額。短期來講,開源分析將越來越廣泛的使用,并且增長迅速。長期來看,混合技術(shù)的應(yīng)用將在高度競爭的市場上出現(xiàn),兩者將同樣有巨大的需求??梢灶A(yù)見的是,Hadoop作為企業(yè)級數(shù)據(jù)倉庫體系結(jié)構(gòu)核心技術(shù),在未來的10年中它將會(huì)保持增長。隨著云時(shí)代的到來,企業(yè)面臨的應(yīng)用方式更加多元化,通過云的手段提供海量數(shù)據(jù)挖掘的方法,提高了挖掘的效率,增加了挖掘的精度,更利于挖掘應(yīng)用的推廣以及專業(yè)的行業(yè)知識庫的構(gòu)建。同時(shí)收集、存儲(chǔ)龐大的新型數(shù)據(jù)充滿了挑戰(zhàn),然而分析這些數(shù)據(jù)的新方法才是幫助最成功企業(yè)甩開競爭對手的利器。

        大數(shù)據(jù)實(shí)施方案(共9篇)

        大數(shù)據(jù)項(xiàng)目實(shí)施方案

        大數(shù)據(jù)項(xiàng)目節(jié)能情況分析

        運(yùn)用大數(shù)據(jù)表態(tài)發(fā)言

        【公司法律】大數(shù)據(jù)報(bào)告:科研經(jīng)費(fèi)刑事判例

        網(wǎng)址:http://puma08.com/bgzj/sxbg/1929422.html

        聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至89702570@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。