大數(shù)據(jù)培訓心得體會(大全)_培訓心得體會

千文網(wǎng)小編為你整理了多篇相關(guān)的《大數(shù)據(jù)培訓心得體會(大全)》，但愿對你工作學習有幫助，當然你在千文網(wǎng)還可以找到更多《大數(shù)據(jù)培訓心得體會(大全)》。

第一篇：大數(shù)據(jù)心得體會

大數(shù)據(jù)心得體會

早在2007年，人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量，近幾年兩者的剪刀差越來越大。2010年，全球數(shù)字規(guī)模首次達到了“ZB”（1ZB＝1024TB）級別。2012年，淘寶網(wǎng)每天在線商品數(shù)超過8億件。2013年底，中國手機網(wǎng)民超過6億戶。隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、傳感器、物聯(lián)網(wǎng)、社交網(wǎng)站、云計算等的興起，我們這個社會的幾乎所有方面都已數(shù)字化，產(chǎn)生了大量新型、實時的數(shù)據(jù)。無疑，我們已身處在大數(shù)據(jù)的海洋。

有兩個重要的趨勢使得目前的這個時代（大數(shù)據(jù)時代）與之前有顯著的差別：其一，社會生活的廣泛數(shù)字化，其產(chǎn)生數(shù)據(jù)的規(guī)模、復雜性及速度都已遠遠超過此前的任何時代；其二，人類的數(shù)據(jù)分析技術(shù)和工藝使得各機構(gòu)、組織和企業(yè)能夠以從前無法達到的復雜度、速度和精準度從龐雜的數(shù)據(jù)中獲得史無前例的洞察力和預(yù)見性。

大數(shù)據(jù)是技術(shù)進步的產(chǎn)物，而其中的關(guān)鍵是云技術(shù)的進步。在云技術(shù)中，虛擬化技術(shù)乃最基本、最核心的組成部份。計算虛擬化、存儲虛擬化和網(wǎng)絡(luò)虛擬化技術(shù)，使得大數(shù)據(jù)在數(shù)據(jù)存儲、挖掘、分析和應(yīng)用分享等方面不僅在技術(shù)上可行，在經(jīng)濟上也可接受。

在人類文明史上，人類一直執(zhí)著探索我們處的世界以及人類自身，一直試圖測量、計量這個世界以及人類自身，試圖找到隱藏其中的深刻關(guān)聯(lián)、運行規(guī)律及終極答案。大數(shù)據(jù)以其人類史上從未有過的龐大容量、極大的復雜性、快速的生產(chǎn)及經(jīng)濟可得性，使人類第一次試圖從總體而非樣本，從混雜性而非精確性，從相關(guān)關(guān)系而非因果關(guān)系來測量、計量我們這個世界。人類的思維方式、行為方式及社會生活的諸多形態(tài)（當然包括商業(yè)活動）正在開始發(fā)生新的變化。或許是一場革命性、顛覆性的變化。從這個意義上講，大數(shù)據(jù)不僅是一場技術(shù)運動，更是一次哲學創(chuàng)新。 1 大數(shù)據(jù)的概述

1.1 大數(shù)據(jù)的概念

大數(shù)據(jù)（Big Data）是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。它的數(shù)據(jù)規(guī)模和轉(zhuǎn)輸速度要求很高，或者其結(jié)構(gòu)不適合原本的數(shù)據(jù)庫系統(tǒng)。為了獲取大數(shù)據(jù)中的價值，我們必須選擇另一種方式來處理它。

數(shù)據(jù)中隱藏著有價值的模式和信息，在以往需要相當?shù)臅r間和成本才能提取這些信息。如沃爾瑪或谷歌這類領(lǐng)先企業(yè)都要付高昂的代價才能從大數(shù)據(jù)中挖掘信息。而當今的各種資源，如硬件、云架構(gòu)和開源軟件使得大數(shù)據(jù)的處理更為方便和廉價。即使是在車庫中創(chuàng)業(yè)的公司也可以用較低的價格租用云服務(wù)時間了。

對于企業(yè)組織來講，大數(shù)據(jù)的價值體現(xiàn)在兩個方面：分析使用和二次開發(fā)。對大數(shù)據(jù)進行分析能揭示隱藏其中的信息，例如零售業(yè)中對門店銷售、地理和社會信息的分析能提升對客戶的理解。對大數(shù)據(jù)的二次開發(fā)則是那些成功的網(wǎng)絡(luò)公司的長項。例如Facebook通過結(jié)合大量用戶信息，定制出高度個性化的用戶體驗，并創(chuàng)造出一種新的廣告模式。這種通過大數(shù)據(jù)創(chuàng)造出新產(chǎn)品和服務(wù)的商業(yè)行為并非巧合，谷歌、雅虎、亞馬遜和Facebook，它們都是大數(shù)據(jù)時代的創(chuàng)新者。

1.2 大數(shù)據(jù)的三層關(guān)系

第一層關(guān)系：數(shù)據(jù)與機器的關(guān)系。大數(shù)據(jù)紀元剛開始，產(chǎn)業(yè)界碰到的第一個核心問題就是“大”的問題。做了幾十年的數(shù)據(jù)倉庫甚至海量并行處理的數(shù)據(jù)庫都不能處理那么大的數(shù)據(jù)，怎么辦？需要范式切換。主要有三個方面，新型的數(shù)據(jù)與機器關(guān)系當中的第一條就是重新考慮架構(gòu)與算法，重新考慮舍得，有舍才能得，天下沒有免費的午餐，所以必須要舍棄一些，得到一些新的。必須舍棄貴族化的高端小型機和UNIX服務(wù)器，得到平民化的更大量的X86服務(wù)器。通過這樣一種可橫向、可水平擴展服務(wù)器處理每兩年翻番的數(shù)據(jù)量的挑戰(zhàn)。第二個舍得是舍棄硬件的可靠性和可用性，得到軟件的可靠性和可用性。這也就是谷歌三大論文以及Hadoop的核心重點。第三個舍得是舍棄傳統(tǒng)數(shù)據(jù)庫的強一致性，獲得更放松一致性、可擴展架構(gòu)，如NoSQL。第四個舍得是傳統(tǒng)算法強調(diào)非常嚴格的精確性，現(xiàn)在要放棄一些精確性，通過近似、采樣這種方式來獲得更好的擴展性。

最早大數(shù)據(jù)的處理范式是Mapreduce的批量處理，英特爾慢慢有其他的需求，實時的流處理、多迭代的處理、圖計算、即時查詢等等新的范式百花齊放，最后萬法歸宗。剛才王斌老師將講的SAP的HANA本身就是數(shù)據(jù)管理和分析的融合，現(xiàn)在非常流行的Hadoop之后的SPARK，就是把前面的各種范式進行了融合。存儲與內(nèi)存的消長，大數(shù)據(jù)第一個要解決把數(shù)據(jù)存儲下來，后來發(fā)現(xiàn)要把它放到大的內(nèi)存里進行處理，獲得實時性，接著在存儲和內(nèi)存之間現(xiàn)在又出現(xiàn)了閃存，有閃存化甚至全閃存的存儲，也有閃存化的內(nèi)存，把所有的計算在閃存里面處理，已經(jīng)被微軟、Facebook等等大量使用。大家可以預(yù)期，兩年以后出現(xiàn)新的非易失性的閃存，它的速度可能要比閃存快幾百倍，和內(nèi)存相似，這又會極大地顛覆數(shù)據(jù)與機器的關(guān)系。

第二層關(guān)系：數(shù)據(jù)與人的關(guān)系。主要是價值的覺醒，如果數(shù)據(jù)不能產(chǎn)生價值它可能是負面資產(chǎn)。數(shù)據(jù)怎么能夠給人帶來價值？我們介紹一下它的價值維度，把它映射到二維的時空象限里，用六個關(guān)鍵詞來描述它。第一是“Volume”，兩個關(guān)鍵詞，小數(shù)據(jù)見微對個人進行刻劃，大數(shù)據(jù)知著能夠了解宏觀規(guī)律，它是空間概念，同時也是時間概念，數(shù)據(jù)剛剛產(chǎn)生的時候，它的個性化價值、見微的價值最大，而隨著時間的推移，它漸漸退化到只有集合價值。第二是Velocity，時間軸的原點是當下實時價值，副軸是過往，正軸是預(yù)測未來，如果知道知前后就能夠做到萬物的皆明。第三是Variety，多源異質(zhì)的數(shù)據(jù)，能夠過濾噪聲、查漏補缺、去偽存真，就是辯訛。還有曉意，能夠從大量的非結(jié)構(gòu)化數(shù)據(jù)中獲得語意，從而能夠使機器窺探人的思維境界，這六個價值維度怎么去實現(xiàn)？主要是兩部分人，一是數(shù)據(jù)科學家要洞察數(shù)據(jù)，另外一個是終端用戶和領(lǐng)域?qū)＜乙ソ庾x數(shù)據(jù)并利用數(shù)據(jù)。首先看洞察數(shù)據(jù)，數(shù)據(jù)科學，人和機器作用發(fā)生了消長，講個例子，機器學習大家覺得是機器的問題，其實人在里面起到很重要的作用，尤其是機器學習是模型加特征，而特征工程是一個人力工程，你要有經(jīng)驗非常豐富的特征團隊去死磕特征，找出更好、更多的特征，才能夠使機器學習的效果更好。但是現(xiàn)在深度學習這些新技術(shù)出來，能夠用機器學習特征，能夠在大量非結(jié)構(gòu)化數(shù)據(jù)中找到豐富的信息維度用特征表達出來，這遠遠超出了人的能力。大家知道黑客帝國描述了一個場景，人腦袋后面插一個插頭，給機器提供營養(yǎng)，我可能不會那么悲觀，但是像這樣的互動關(guān)系以一種更良性的方式出現(xiàn)了，現(xiàn)在人的一言一行、社交行為、金融行為都已經(jīng)成為機器的養(yǎng)料、機器的數(shù)據(jù)，使得機器獲得更好的洞察。

終端用戶需要更好地、更傻瓜化的分析工具和可視化工具，兩年前我去參加大數(shù)據(jù)的會，基本上都是Hadoop和NoSQL現(xiàn)在大家參加大數(shù)據(jù)會可以看到清一色的分析工具和可視化工具。大數(shù)據(jù)跟各行各業(yè)的化學作用正在發(fā)生。如果馬化騰說“互聯(lián)網(wǎng)+”是互聯(lián)網(wǎng)與各行各業(yè)的加法效應(yīng)，那么大數(shù)據(jù)將與各行各業(yè)產(chǎn)生乘法效應(yīng)。

第三個關(guān)系，數(shù)據(jù)與數(shù)據(jù)的關(guān)系。現(xiàn)在只有海面平的數(shù)據(jù)是搜索引擎可以檢索到，深海的數(shù)據(jù)可能是黑暗的數(shù)據(jù)，在政府、在企業(yè)里大家看不到。我們怎么辦呢？必須讓數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)。只有讓數(shù)據(jù)能夠發(fā)現(xiàn)數(shù)據(jù)、遇到數(shù)據(jù)，才能產(chǎn)生金風玉露一相逢、便勝卻人間無數(shù)的效果。這里有三個重要的觀念，需要法律、技術(shù)、經(jīng)濟理論和實踐上配合。法律上要明確數(shù)據(jù)的權(quán)利，數(shù)據(jù)所有權(quán)，數(shù)據(jù)的隱私權(quán)，什么數(shù)據(jù)不能給你看；數(shù)據(jù)的許可權(quán)，什么數(shù)據(jù)是可以給你看的；數(shù)據(jù)的審計權(quán)，我給你看了以后，你是不是按照許可的范圍去看；數(shù)據(jù)的分紅權(quán)。數(shù)據(jù)像原油又不同于原油，原油用完了就沒有了，數(shù)據(jù)可以反復地產(chǎn)生價值，因此數(shù)據(jù)的擁有者應(yīng)該得到分紅。我們要保證數(shù)據(jù)的開放、共享、交易。公共數(shù)據(jù)和部分科研數(shù)據(jù)要開放，開放過程中注意保護隱私。企業(yè)之間可以進行數(shù)據(jù)的點對點共享，最高境界是不丟失數(shù)據(jù)的所有權(quán)和隱私權(quán)的前提下共享，這里有多方安全計算的概念。1982年姚期智老先生提出了百萬富翁的窘境的問題，兩個百萬富翁他們想要比誰更富，但是誰都不愿意說出來自己都多少錢，在我們的數(shù)據(jù)共享當中要通過各種各樣的技術(shù)達到這樣的效果。還有數(shù)據(jù)交易，建立多邊多邊平臺來支持數(shù)據(jù)交易。

互聯(lián)網(wǎng)能發(fā)展起來經(jīng)濟學理論和實踐是很重要的支撐，梅特卡夫定律決定了一個互聯(lián)網(wǎng)公司的價值，跟它用戶數(shù)的平方成正比，又比如說谷歌請最好的經(jīng)濟學家，它的一個廣告業(yè)務(wù)的核心就是建立在一個非常先進的拍賣經(jīng)濟學的模型基礎(chǔ)上。數(shù)據(jù)經(jīng)濟也需要這樣一些基礎(chǔ)的理論，比如數(shù)據(jù)定價和信息定價不一樣，信息做一個咨詢報告5000美金賣給你，可以賣給所有人。但數(shù)據(jù)對不同的單位價值不一樣，可能我之毒藥是彼之蜜糖。另外估值，一個企業(yè)擁有大量的數(shù)據(jù)，是無形資產(chǎn)的一部分，對于企業(yè)的市場價值帶來了多大的增長。

1.3 大數(shù)據(jù)的四個特性

大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。這也是一個描述性的定義，在對數(shù)據(jù)描述的基礎(chǔ)上加入了處理此類數(shù)據(jù)的一些特征，用這些特征來描述大數(shù)據(jù)。當前，較為統(tǒng)一的認識是大數(shù)據(jù)有四個基本特征: 數(shù)據(jù)規(guī)模大( Volume) ，數(shù)據(jù)種類多( Variety) ，數(shù)據(jù)要求處理速度快( Velocity) ，數(shù)據(jù)價值密度低( Value) ，即所謂的四V 特性。

數(shù)據(jù)規(guī)模大( Volume)：企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增長。例如，IDC最近的報告預(yù)測稱，到2020年，全球數(shù)據(jù)量將擴大50倍。目前，大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指標，單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。簡而言之，存儲1PB數(shù)據(jù)將需要兩萬臺配備50GB硬盤的個人電腦。此外，各種意想不到的來源都能產(chǎn)生數(shù)據(jù)。

數(shù)據(jù)種類多( Variety)：一個普遍觀點認為，人們使用互聯(lián)網(wǎng)搜索是形成數(shù)據(jù)多樣性的主要原因，這一看法部分正確。然而，數(shù)據(jù)多樣性的增加主要是由于新型多結(jié)構(gòu)數(shù)據(jù)，以及包括網(wǎng)絡(luò)日志、社交媒體、互聯(lián)網(wǎng)搜索、手機通話記錄及傳感器網(wǎng)絡(luò)等數(shù)據(jù)類型造成。其中，部分傳感器安裝在火車、汽車和飛機上，每個傳感器都增加了數(shù)據(jù)的多樣性。

處理速度快( Velocity)：高速描述的是數(shù)據(jù)被創(chuàng)建和移動的速度。在高速網(wǎng)絡(luò)時代，通過基于實現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務(wù)器，創(chuàng)建實時數(shù)據(jù)流已成為流行趨勢。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù)，還必須知道如何快速處理、分析并返回給用戶，以滿足他們的實時需求。根據(jù)IMS Research關(guān)于數(shù)據(jù)創(chuàng)建速度的調(diào)查，據(jù)預(yù)測，到2020年全球?qū)碛?20億部互聯(lián)網(wǎng)連接設(shè)備。

數(shù)據(jù)價值密度低( Value)：大數(shù)據(jù)具有多層結(jié)構(gòu)，這意味著大數(shù)據(jù)會呈現(xiàn)出多變的形式和類型。相較傳統(tǒng)的業(yè)務(wù)數(shù)據(jù)，大數(shù)據(jù)存在不規(guī)則和模糊不清的特性，造成很難甚至無法使用傳統(tǒng)的應(yīng)用軟件進行分析。傳統(tǒng)業(yè)務(wù)數(shù)據(jù)隨時間演變已擁有標準的格式，能夠被標準的商務(wù)智能軟件識別。目前，企業(yè)面臨的挑戰(zhàn)是處理并從各種形式呈現(xiàn)的復雜數(shù)據(jù)中挖掘價值。

1.4 大數(shù)據(jù)的三個特征

除了有四個特性之外，大數(shù)據(jù)時代的數(shù)據(jù)還呈現(xiàn)出其他三個特征。

第一個特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等，多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求.

第二個特征是數(shù)據(jù)價值密度相對較低。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用，信息感知無處不在，信息海量，但價值密度較低，如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”，是大數(shù)據(jù)時代亟待解決的難題。

第三個特征是處理速度快，時效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。

2 大數(shù)據(jù)的技術(shù)與處理

2.1 大數(shù)據(jù)的技術(shù)

1.數(shù)據(jù)采集：ETL工具負責將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成，最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中，成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。

2.數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫、NOSQL、SQL等。

3.基礎(chǔ)架構(gòu)：云存儲、分布式文件存儲等。

4.數(shù)據(jù)處理：自然語言處理(NLP，NaturalLanguageProceing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關(guān)鍵是要讓計算機"理解"自然語言，所以自然語言處理又叫做自然語言理解(NLU，NaturalLanguage Understanding)

，

也

稱

為

計

算

語

言

學(Computational Linguistics。一方面它是語言信息處理的一個分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。

5.統(tǒng)計分析：假設(shè)檢驗、顯著性檢驗、差異分析、相關(guān)分析、T檢驗、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析（最優(yōu)尺度分析）、bootstrap技術(shù)等等。

6.數(shù)據(jù)挖掘：分類 （Claification）、估計（Estimation）、預(yù)測（Prediction）

、

相

關(guān)

性

分

組

或

關(guān)

聯(lián)

規(guī)

則（Affinity grouping or aociation rules）、聚類（Clustering）、描述和可視化、Description and Visualization）、復雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)。

7.模型預(yù)測：預(yù)測模型、機器學習、建模仿真。

8.結(jié)果呈現(xiàn)：云計算、標簽云、關(guān)系圖等。

2.2 大數(shù)據(jù)的處理

1.采集 大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端（Web、App或者傳感器形式等）的數(shù)據(jù)，并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如，電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù)，除此之外，Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。

在大數(shù)據(jù)的采集過程中，其主要特點和挑戰(zhàn)是并發(fā)數(shù)高，因為同時有可能會有成千上萬的用戶來進行訪問和操作，比如火車票售票網(wǎng)站和淘寶，它們并發(fā)的訪問量在峰值時達到上百萬，所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設(shè)計。

2.導入/預(yù)處理

雖然采集端本身會有很多數(shù)據(jù)庫，但是如果要對這些海量數(shù)據(jù)進行有效的分析，還是應(yīng)該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫，或者分布式存儲集群，并且可以在導入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算，來滿足部分業(yè)務(wù)的實時計算需求。導入與預(yù)處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大，每秒鐘的導入量經(jīng)常會達到百兆，甚至千兆級別。

3.統(tǒng)計/分析

統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫，或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等，以滿足大多數(shù)常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存儲Infobright等，而一些批處理，或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大，其對系統(tǒng)資源，特別是I/O會有極大的占用。

4.挖掘

與前面統(tǒng)計和分析過程不同的是，數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題，主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算，從而起到預(yù)測（Predict）的效果，從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜，并且計算涉及的數(shù)據(jù)量和計算量都很大，常用數(shù)據(jù)挖掘算法都以單線程為主。

整個大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個方面的步驟，才能算得上是一個比較完整的大數(shù)據(jù)處理。

3 大數(shù)據(jù)的應(yīng)用

正如諸多文獻所談到的，大數(shù)據(jù)對許多行業(yè)的影響和沖擊已經(jīng)呈現(xiàn)。例如，商零售、物流、醫(yī)藥、文化產(chǎn)業(yè)等。金融，作為現(xiàn)代經(jīng)濟中樞，其實也已透出了大數(shù)據(jù)金融的曙光。

過去的2013年，中國金融界熱議最多的或許是互聯(lián)網(wǎng)金融，更有人指出2013年是中國互聯(lián)網(wǎng)金融元年。確實，第三方支付、P2P、網(wǎng)貸、眾籌融資、余額寶、微信支付等發(fā)展迅速。眾多傳統(tǒng)金融業(yè)者也或推出自己的電商平臺，或與互聯(lián)網(wǎng)企業(yè)聯(lián)手提供相應(yīng)的金融產(chǎn)品和服務(wù)。

互聯(lián)網(wǎng)金融，無論是業(yè)界、監(jiān)管者或理論界，都在試圖給出自己的理解和定義。但到目前為止，尚未有一個統(tǒng)一的、規(guī)范的概念。在我看來，互聯(lián)網(wǎng)金融本來就是一個不確切的概念，也不可能有一個明確的定義。嚴格說來，所謂互聯(lián)網(wǎng)金融只是大數(shù)據(jù)金融的一種展現(xiàn)或形態(tài)。換言之，前者是表，后者是里。

這是因為，無論是互聯(lián)網(wǎng)還是金融業(yè)，其實質(zhì)都是大數(shù)據(jù)（信息）。首先，對互聯(lián)網(wǎng)企業(yè)而言，流量、客戶等數(shù)據(jù)（信息）是其涉足金融業(yè)的基石。對金融企業(yè)而言，提供中介服務(wù)，撮合金融交易也是以數(shù)據(jù)（信息）為基礎(chǔ)。其次，沒有大數(shù)據(jù)技術(shù)的支撐，所謂互聯(lián)網(wǎng)金融也難以快速、持續(xù)成長。20世紀90年代互聯(lián)網(wǎng)浪潮的蓬勃興起，至今已近二十年。但從世界范圍看，所謂互聯(lián)網(wǎng)金融卻發(fā)展緩慢。當然，其中原因很多，但其主要原因則是大數(shù)據(jù)技術(shù)是近幾年才快速發(fā)展起來的。最后，從金融企業(yè)來看，在數(shù)據(jù)中心建設(shè)，軟硬件系統(tǒng)建設(shè)，數(shù)據(jù)（信息）挖掘、分析等方面也是做得有聲有色，其龐大的客戶數(shù)據(jù)、海量交易記錄及眾多信息源，使其在大數(shù)據(jù)應(yīng)用方面也做了許多積極探索。因此，要準確反映近年新金融趨勢，“大數(shù)據(jù)金融”比“互聯(lián)網(wǎng)金融”更為貼切。

4 大數(shù)據(jù)應(yīng)用中的三大難題近年來，大數(shù)據(jù)這個詞成為互聯(lián)網(wǎng)領(lǐng)域關(guān)注度最高的詞匯，時至今日，大數(shù)據(jù)已經(jīng)不再是IT圈的“專利”了，從去年的春晚，到剛剛過去的兩會，都能見到它的身影，但實際上春晚與兩會的數(shù)據(jù)都只能叫做小數(shù)據(jù)，它與真正的大數(shù)據(jù)還相差甚遠。即便如此，數(shù)據(jù)所產(chǎn)生的價值已經(jīng)被人們所認知。

就大數(shù)據(jù)來說，它的發(fā)展可以分成三個階段，第一個階段是組織內(nèi)部的數(shù)據(jù)，這些數(shù)據(jù)通常都是結(jié)構(gòu)化的數(shù)據(jù)，我們一般將這些數(shù)據(jù)進行分類、排序等操作，將相同類型的數(shù)據(jù)進行對比、分析、挖掘，總而言之基本上都是統(tǒng)計工作。到了第二階段，數(shù)據(jù)的范圍擴大到行業(yè)內(nèi)，各種各樣的應(yīng)用數(shù)據(jù)出現(xiàn)，數(shù)據(jù)量大規(guī)模增長，尤其是非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn)。典型的像視頻、圖片這一類的數(shù)據(jù)，在這一階段的特點就是非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)并存，且數(shù)據(jù)量巨大，要對這些數(shù)據(jù)進行分析是我們目前現(xiàn)階段所處在的狀態(tài)。

第三階段則是未來大數(shù)據(jù)發(fā)展的理想化狀態(tài)，首先它一定是跨行業(yè)的，且數(shù)據(jù)的范圍是整個社會。通過對這些數(shù)據(jù)進行分析加以使用，將直接改變我們的生活方式，這也是現(xiàn)在很多企業(yè)所設(shè)想的未來交通、醫(yī)療、教育等領(lǐng)域的發(fā)展方向。

1.大數(shù)據(jù)太大不敢用

第三個階段是我們所憧憬的，但在我們所處的第二階段面對的更多是問題。其中的一個問題就是“大”。大數(shù)據(jù)給人最直觀的感受就是大，它所帶來的問題不僅僅是存儲，更多的是龐大的數(shù)據(jù)沒辦法使用，以交通為例，從2001年開始在北京的主干道上都增設(shè)了一些卡口設(shè)備，到了今天基本上大街小巷都能看到。這些設(shè)備每天所拍攝的視頻及照片產(chǎn)生的數(shù)據(jù)量是驚人的，僅照片每天就能產(chǎn)生2千萬張，而解決這些數(shù)據(jù)的存儲只是最基本的任務(wù)，我們更需要的是使用這些數(shù)據(jù)。例如對套牌車輛的檢查，對嫌疑車輛的監(jiān)控，當你想要使用這些數(shù)據(jù)的時候，傳統(tǒng)的數(shù)據(jù)庫以及系統(tǒng)架構(gòu)，放進這么龐大的數(shù)據(jù)，是根本跑不動的。這一問題導致很多企業(yè)對大數(shù)據(jù)望而卻步。

2.大數(shù)據(jù)太難不會用

說到大數(shù)據(jù)的使用，自然離不開Hadoop，Hadoop本身提供了分布式系統(tǒng)中兩個最重要的東西：分布式存儲（HDFS）和分布式計算（Mapreduce）。這兩者解決了處理大數(shù)據(jù)面臨的計算和存儲問題，但更為重要的是，為開發(fā)大數(shù)據(jù)應(yīng)用開辟了道路。 Hadoop是目前解決大數(shù)據(jù)問題最流行的一種方式，但其仍然有不成熟的地方，曾作為雅虎云計算以及Facebook軟件工程師的Jonathan Gray就表示：“Hadoop實施難度大，且復雜，如果不解決技術(shù)復雜性問題，Hadoop將被自己終結(jié)。”正是由于這樣的原因，Gray創(chuàng)辦了自己的公司——Continuuity，這家公司的目標就是在Hadoop和Hbase基礎(chǔ)上創(chuàng)建一個抽象層，屏蔽掉Hadoop底層技術(shù)的復雜性。由此可見想要用好大數(shù)據(jù)又是一大考驗。

3.大數(shù)據(jù)太貴用不起

Hadoop的特點就是讓你可以使用廉價的x86設(shè)備來完成大數(shù)據(jù)的業(yè)務(wù)，但事實上如果你真想要用它來完成某些商業(yè)任務(wù)你還得是個“土豪”。在國外那些使用大數(shù)據(jù)的成功案例里，亞馬遜曾給出過這樣一組數(shù)字，NASA需要為45天的數(shù)據(jù)存儲服務(wù)支付超過100萬美元。像Quant___cast這樣的數(shù)字廣告公司，同樣也是花費了巨額的資金用在Hadoop技術(shù)上，來根據(jù)自己的需求定制系統(tǒng)。從上面兩個案例來看用于商業(yè)用途的大數(shù)據(jù)現(xiàn)階段還是很費錢的，隨著大數(shù)據(jù)軟件環(huán)境逐漸成熟，開發(fā)工具增多，價格在未來會逐漸降低。

從上面羅列的這三點困難，其實并不是要給大數(shù)據(jù)潑冷水，而是想說大數(shù)據(jù)想要淘金并不簡單，首先在做大數(shù)據(jù)之前，好好盤點一下自己擁有的資源，不僅僅是數(shù)據(jù)資源，還包括知識與技能。確定了自己的能力之后，選擇一個能夠發(fā)揮你現(xiàn)有資源最大價值的項目。如果你需要幫手，應(yīng)先考慮商業(yè)顧問，再考慮技術(shù)人才。為了解答一個生意上的困惑花下的錢，叫作投資，而把錢投到一個擁有特殊技能的IT人才身上，那就叫沉沒成本。當你有了這些之后，選擇更靈活且可擴展的工具，為以后的擴充打好基礎(chǔ)。更重要的是——從小規(guī)模做起。

5 大數(shù)據(jù)創(chuàng)新的驅(qū)動力

計算機科學與技術(shù)的發(fā)展使得大規(guī)模信息處理基礎(chǔ)設(shè)施產(chǎn)生重要改變。在過去的30年中，經(jīng)典的數(shù)據(jù)庫管理系統(tǒng)（DBMS）在處理大規(guī)模數(shù)據(jù)方面與時俱進，在企業(yè)數(shù)據(jù)處理等方面得到廣泛應(yīng)用。數(shù)據(jù)庫研究和技術(shù)進展主要集中在數(shù)據(jù)建模、描述性查詢語言、事務(wù)處理和數(shù)據(jù)庫可靠性等。在這個過程中，相關(guān)的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘分析技術(shù)也成為一個熱點研究方向；人們認識到數(shù)據(jù)處理過程中的信息可以被有效整理和分析來支持以數(shù)據(jù)為中心的決策支持。數(shù)據(jù)庫管理系統(tǒng)在目前的互聯(lián)網(wǎng)時代繼續(xù)占據(jù)了重要地位。在一個典型的互聯(lián)網(wǎng)服務(wù)系統(tǒng)架構(gòu)中，數(shù)據(jù)庫管理系統(tǒng)和Web服務(wù)器及應(yīng)用服務(wù)共同作用，為互聯(lián)網(wǎng)用戶提供各類信息和服務(wù)。在這個系統(tǒng)架構(gòu)中，人們期望系統(tǒng)能支持無限次和高速的互聯(lián)網(wǎng)用戶訪問，這個時候數(shù)據(jù)庫層由于在硬件可擴展性上面的不足可能成為系統(tǒng)性能瓶頸。這個挑戰(zhàn)我們稱為大數(shù)據(jù)問題（big data problem）。大數(shù)據(jù)系統(tǒng)期望能對大規(guī)模異構(gòu)復雜數(shù)據(jù)建模，進行實時分析；傳統(tǒng)的商用數(shù)據(jù)庫系統(tǒng)很難提供良好的解決方案。另一個大數(shù)據(jù)相關(guān)的挑戰(zhàn)是服務(wù)器端數(shù)據(jù)中心的數(shù)據(jù)維護及安全隱私問題。近年來云計算技術(shù)已經(jīng)成為大數(shù)據(jù)中心的一種可靠解決方案，Google, Yahoo and Microsoft等公司也紛紛開發(fā)自己的云計算系統(tǒng)。盡管云計算在互聯(lián)網(wǎng)應(yīng)用中已經(jīng)體現(xiàn)出很多優(yōu)越性，其在系統(tǒng)成熟性、可用性等方面還有很大提高空間。

顯而易見，大數(shù)據(jù)領(lǐng)域的大規(guī)模數(shù)據(jù)管理和復雜數(shù)據(jù)分析已經(jīng)成為新的研究前沿。目前的各類大數(shù)據(jù)應(yīng)用正是大數(shù)據(jù)研究的驅(qū)動力，比如社會網(wǎng)絡(luò)、移動計算、科學應(yīng)用等等。這些應(yīng)用產(chǎn)生的大數(shù)據(jù)往往具有海量、時序動態(tài)性、多樣等特性，給數(shù)據(jù)庫領(lǐng)域的各項技術(shù)帶來巨大挑戰(zhàn)，涵蓋包括數(shù)據(jù)獲取、組織管理、分析處理和應(yīng)用呈現(xiàn)等整個數(shù)據(jù)管理生命周期。針對數(shù)據(jù)管理和分析不同系統(tǒng)應(yīng)用，各類大數(shù)據(jù)處理技術(shù)在也不斷發(fā)展。MapReduce作為一種分布式的數(shù)據(jù)處理框架由于其靈活性、可擴展性、高效和容錯等特性其近年來得到了廣泛應(yīng)用。此外，也有多類其他分布式數(shù)據(jù)處理系統(tǒng)用來解決MapReduce不擅長的問題，比如交互式分析、圖計算和分析、實時和流處理、通用數(shù)據(jù)處理等等。大數(shù)據(jù)不但給數(shù)據(jù)庫研究領(lǐng)域，同時也給體系結(jié)構(gòu)、存儲系統(tǒng)、系統(tǒng)軟件和軟件工程等計算機多個學科帶來了很多機會和挑戰(zhàn)。大數(shù)據(jù)正是目前很多計算機科學問題的根本，并驅(qū)動眾多新科技的發(fā)展。

6 大數(shù)據(jù)的發(fā)展前景

大數(shù)據(jù)的概念來源于、發(fā)展于美國，并向全球擴展，必將給我國未來的科技與經(jīng)濟發(fā)展帶來深遠影響。根據(jù)IDC 統(tǒng)計，目前數(shù)據(jù)量在全球比例為: 美國32%、西歐19%、中國13%，預(yù)計到2020 年中國將產(chǎn)生全球21% 的數(shù)據(jù)，我國是僅次于美國的數(shù)據(jù)大國，而我國大數(shù)據(jù)方面的研究尚處在起步階段，如何開發(fā)、利用保護好大數(shù)據(jù)這一重要的戰(zhàn)略資源，是我國當前亟待解決的問題。

而大數(shù)據(jù)未來的發(fā)展趨勢則從以下幾個方面進行：

（1）開放源代碼

大數(shù)據(jù)獲得動力，關(guān)鍵在于開放源代碼，幫助分解和分析數(shù)據(jù)。Hadoop 和NoSQL 數(shù)據(jù)庫便是其中的贏家，他們讓其他技術(shù)商望而卻步、處境很被動。畢竟，我們需要清楚怎樣創(chuàng)建一個平臺，既能解開所有的數(shù)據(jù)，克服數(shù)據(jù)相互獨立的障礙，又能將數(shù)據(jù)重新上鎖。

（2）市場細分

當今，許多通用的大數(shù)據(jù)分析平臺已投入市場，人們同時期望更多平臺的出現(xiàn)，可以運用在特殊領(lǐng)域，如藥物創(chuàng)新、客戶關(guān)系管理、應(yīng)用性能的監(jiān)控和使用。若市場逐步成熟，在通用分析平臺之上，開發(fā)特定的垂直應(yīng)用將會實現(xiàn)。但現(xiàn)在的技術(shù)有限，除非考慮利用潛在的數(shù)據(jù)庫技術(shù)作為通用平臺 ( 如Hadoop、NoSQL)。人們期望更多特定的垂直應(yīng)用出現(xiàn)，把目標定為特定領(lǐng)域的數(shù)據(jù)分析，這些特定領(lǐng)域包括航運業(yè)、銷售業(yè)、網(wǎng)上購物、社交媒體用戶的情緒分析等。同時，其他公司正在研發(fā)小規(guī)模分析引擎的軟件套件。比如，社交媒體管理工具，這些工具以數(shù)據(jù)分析做為基礎(chǔ)。

（3）預(yù)測分析

建模、機器學習、統(tǒng)計分析和大數(shù)據(jù)經(jīng)常被聯(lián)系起來，用以預(yù)測即將發(fā)生的事情和行為。有些事情是很容易被預(yù)測的，比如壞天氣可以影響選民的投票率，但是有些卻很難被準確預(yù)測。例如，中間選民改變投票決定的決定性因素。但是，當數(shù)據(jù)累加時，我們基本上有能力可以大規(guī)模嘗試一個連續(xù)的基礎(chǔ)。網(wǎng)上零售商重新設(shè)計購物車，來探索何種設(shè)計方式能使銷售利潤最大化。根據(jù)病人的飲食、家族史和每天的運動量，醫(yī)生有能力預(yù)測未來疾病的風險。當然，在人類歷史的開端，我們就已經(jīng)有各種預(yù)測。但是，在過去，許多預(yù)測都是基于直覺，沒有依靠完整的數(shù)據(jù)集，或者單單靠的是常識。當然，即便有大量數(shù)據(jù)支撐你的預(yù)測，也不表明那些預(yù)測都是準確的。2007 年和2008 年，許多對沖基金經(jīng)理和華爾街買賣商分析市場數(shù)據(jù)，認為房地產(chǎn)泡沫將不會破滅。根據(jù)歷史的數(shù)據(jù)，可以預(yù)測出房地產(chǎn)泡沫即將破裂，但是許多分析家堅持原有的觀點。另一方面，預(yù)測分析在許多領(lǐng)域流行起來，例如欺詐發(fā)現(xiàn)( 比如在外省使用信用卡時會接到的詐騙電話)，保險公司和顧客維系的風險管理。 7 結(jié)語

大數(shù)據(jù)正在以不可阻攔的磅礴氣勢，與當代同樣具有革命意義的最新科技進步 (如納米技術(shù)、生物工程、全球化等)一起，揭開人類新世紀的序幕。可以簡單地說，以往人類社會基本處于蒙昧狀態(tài)中的不發(fā)展階段，即自然發(fā)展階段?，F(xiàn)在，這一不發(fā)展階段隨著2012年的所謂“世界末日”之說而永遠成為了過去。大數(shù)據(jù)宣告了21世紀是人類自主發(fā)展的時代，是不以所謂“上帝”的意志為轉(zhuǎn)移的時代，是“上帝”失業(yè)的時代。

對于地球上每一個普通居民而言，大數(shù)據(jù)有什么應(yīng)用價值呢?只要看看周圍正在變化的一切，你就可以知道，大數(shù)據(jù)對每個人的重要性不亞于人類初期對火的使用。大數(shù)據(jù)讓人類對一切事物的認識回歸本源;大數(shù)據(jù)通過影響經(jīng)濟生活、政治博弈、社會管理、文化教育科研、醫(yī)療保健休閑等等行業(yè)，與每個人產(chǎn)生密切的聯(lián)系。

大數(shù)據(jù)技術(shù)離你我都并不遙遠，它已經(jīng)來到我們身邊，滲透進入我們每個人的日常生活消費之中，時時刻刻，事事處處，我們無法逃遁，因為它無微不至：它提供了光怪陸離的全媒體，難以琢磨的云計算，無法抵御的仿真環(huán)境。大數(shù)據(jù)依仗于無處不在的傳感器，比如手機、發(fā)帶，甚至是能夠收集司機身體數(shù)據(jù)的汽車，或是能夠監(jiān)控老人下床和行走速度與壓力的“魔毯”(由GE與Intel聯(lián)合開發(fā))，洞察了一切。通過大數(shù)據(jù)技術(shù)，人們能夠在醫(yī)院之外得悉自己的健康情況;而通過收集普通家庭的能耗數(shù)據(jù)，大數(shù)據(jù)技術(shù)給出人們切實可用的節(jié)能提醒;通過對城市交通的數(shù)據(jù)收集處理，大數(shù)據(jù)技術(shù)能夠?qū)崿F(xiàn)城市交通的優(yōu)化。隨著科學技術(shù)的發(fā)展，人類必將實現(xiàn)數(shù)千年的機器人夢想。早在古希臘、古羅馬的神話中就有冶煉之神用黃金制造機械仆人的故事。《論衡》中也記載有魯班曾為其母巧公制作一臺木馬車，“機關(guān)具備，一驅(qū)不還”。而到現(xiàn)代，人類對于機器人的向往，從機器人頻繁出現(xiàn)在科幻小說和電影中已不難看出。公元2035年，智能型機器人已被人類廣泛利用，送快遞、遛狗、打掃衛(wèi)生……這是電影《我，機器人》里描繪的場景。事實上，今天人們已經(jīng)享受到了部分家用智能機器人給生活帶來的便利。比如，智能吸塵器以及廣泛應(yīng)用于汽車工業(yè)領(lǐng)域的機器手等等。有意思的是，2010年松下公司專門為老年人開發(fā)了“洗發(fā)機器人”，它可以自動完成從涂抹洗發(fā)水、按摩到用清水洗凈頭發(fā)的全過程。未來的智能機器人不會是電影《變形金剛》中的龐然大物，而會越來越小。目前，科學家研發(fā)出的智能微型計算機只和雪花一樣大，卻能夠執(zhí)行復雜的計算任務(wù)，將來可以把這些微型計算機安裝在任何物件上用以監(jiān)測環(huán)境和發(fā)號施令。隨著大數(shù)據(jù)時代的到來和技術(shù)的發(fā)展，科技最終會將我們帶進神奇的智能機器人時代。

在大數(shù)據(jù)時代，人腦信息轉(zhuǎn)換為電腦信息成為可能。科學家們通過各種途徑模擬人腦，試圖解密人腦活動，最終用電腦代替人腦發(fā)出指令。正如今天人們可以從電腦上下載所需的知識和技能一樣，將來也可以實現(xiàn)人腦中的信息直接轉(zhuǎn)換為電腦中的圖片和文字，用電腦施展讀心術(shù)。2011年，美國軍方啟動了“讀心頭盔”計劃，憑借讀心頭盔，士兵無需語言和手勢就可以互相“閱讀”彼此的腦部活動，在戰(zhàn)場上依靠“心靈感應(yīng)”，用意念與戰(zhàn)友互通訊息。目前，“讀心頭盔”已經(jīng)能正確“解讀”45%的命令。隨著這項“讀心術(shù)”的發(fā)展，人們不僅可以用意念寫微博、打電話，甚至連夢中所見都可以轉(zhuǎn)化為電腦圖像。據(jù)美國《紐約時報》報道，奧巴馬政府將繪制完整的人腦活動地圖，全面解開人類大腦如何思考、如何儲存和檢索記憶等思維密碼作為美國科技發(fā)展的重點，美國科學家已經(jīng)成功繪出鼠腦的三維圖譜。2012年，美國IBM計算機專家用運算速度最快的96臺計算機，制造了世界上第一個“人造大腦”，電腦精確模擬大腦不再是癡人說夢。試想一下，如果人類大腦實現(xiàn)了數(shù)據(jù)模擬，或許你的下一個BOSS是機器人也不一定。

總而言之，大數(shù)據(jù)技術(shù)的發(fā)展有可能解開宇宙起源的奧秘。因為，計算機技術(shù)將一切信息無論是有與無、正與負，都歸結(jié)為0與1，原來一切存在都在于數(shù)的排列組合，在于大數(shù)據(jù)。

第二篇：大數(shù)據(jù)培訓心得

一、學習總結(jié)

1．大數(shù)據(jù)的定義

也叫巨量資料，指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具，在合理的時間內(nèi)達到采集、管理、處理、并整理成為幫助企業(yè)營或政府更積極目的資訊。

2. 4V特點

規(guī)模性（volume）、高速性（Velocity）、多樣性（variety）、價值性（value）

3. 應(yīng)用

采用某些技術(shù)，從技術(shù)中獲得洞察力，也就是BI或者分析，通過分析和優(yōu)化實現(xiàn)對企業(yè)未來運營的預(yù)測。

二、心得體會

在如此快速的到來的大數(shù)據(jù)革命時代，我們還有很多知識需要學習，許多思維需要轉(zhuǎn)變，許多技術(shù)需要研究。職業(yè)規(guī)劃中，也需充分考慮到大數(shù)據(jù)對于自身職業(yè)的未來發(fā)展所帶來的機遇和挑戰(zhàn)。當我們掌握大量數(shù)據(jù)，需要考慮有多少數(shù)字化的數(shù)據(jù)，又有哪些可以通過大數(shù)據(jù)的分析處理而帶來有價值的用途？在大數(shù)據(jù)時代制勝的良藥也許是創(chuàng)新的點子，也許可以利用外部的數(shù)據(jù)，通過多維化、多層面的分析給我們?nèi)蘸髣?chuàng)業(yè)帶來價值。借力，順勢，合作共贏。

第三篇：大數(shù)據(jù)培訓心得感悟范文

10月23日至11月3日，我有幸參加了管理信息部主辦的“20_年大數(shù)據(jù)分析培訓班”，不但重新回顧了大學時學習的統(tǒng)計學知識，還初學了Python、SQL和SAS等大數(shù)據(jù)分析工具，了解了農(nóng)業(yè)銀行大數(shù)據(jù)平臺和數(shù)據(jù)挖掘平臺，學習了邏輯回歸、決策樹和時間序列等算法，親身感受了大數(shù)據(jù)的魅力。兩周的時間，既充實、又短暫，即是對大數(shù)據(jù)知識的一次親密接觸，又是將以往工作放在大數(shù)據(jù)基點上的再思考，可以說收獲良多。由衷地感謝管理信息部提供這樣好的學習機會，也非常感謝_培訓學院提供的完善的軟硬件教學服務(wù)。

近年來，大數(shù)據(jù)技術(shù)如火如荼，各行各業(yè)爭先恐后投入其中，希望通過大數(shù)據(jù)技術(shù)實現(xiàn)產(chǎn)業(yè)變革，銀行作為數(shù)據(jù)密集型行業(yè)，自然不甘人后。我行在大數(shù)據(jù)分析領(lǐng)域，也進行了有益的探索，并且有了可喜的成績。作為從事內(nèi)部審計工作的農(nóng)行人，我們長期致力于數(shù)據(jù)分析工作。但受內(nèi)部審計工作性質(zhì)的限制，我們也苦于缺少有效的數(shù)據(jù)分析模型，不能給審計實踐提供有效的支持。這次培訓，我正是帶著這樣一種期待走進了課堂，期望通過培訓，打開審計的大數(shù)據(jù)之門。

應(yīng)該說，長期以來，農(nóng)業(yè)銀行審計工作一直在大規(guī)模數(shù)據(jù)集中探索。但根據(jù)審計工作特點，我們更多的關(guān)注對行為數(shù)據(jù)的分析，對狀態(tài)數(shù)據(jù)的分析主要是描述性統(tǒng)計。近年來火熱的大數(shù)據(jù)分析技術(shù)，如決策樹、神經(jīng)網(wǎng)絡(luò)、邏輯回歸等算法模型，由于業(yè)務(wù)背景不易移植，結(jié)果數(shù)據(jù)不易解釋，在內(nèi)部審計工作中還沒有得到廣泛的應(yīng)用。

通過這次培訓，使我對大數(shù)據(jù)分析技術(shù)有了全新的認識，對審計工作如何結(jié)合大數(shù)據(jù)技術(shù)也有了一些思考。

一是審計平臺技術(shù)架構(gòu)可以借鑒數(shù)據(jù)挖掘平臺。目前，審計平臺采用單機關(guān)系型數(shù)據(jù)庫。隨著全行業(yè)務(wù)不斷發(fā)展，系統(tǒng)容量不斷擴充。超過45度傾角的數(shù)據(jù)需求發(fā)展趨勢，已經(jīng)令平臺不堪重負。這次培訓中介紹的數(shù)據(jù)挖掘平臺技術(shù)架構(gòu)，很好地解決了這一難題。挖掘平臺利用大數(shù)據(jù)平臺數(shù)據(jù)，在需要時導入、用后即可刪除，這樣靈活的數(shù)據(jù)使用機制，即節(jié)省了數(shù)據(jù)挖掘平臺的資源，又保證了數(shù)據(jù)使用效率。審計平臺完全可以借鑒這一思路，也與大數(shù)據(jù)平臺建立對接，緩解審計平臺資源緊張矛盾。

二是可嘗試在部分場景應(yīng)用大數(shù)據(jù)分析技術(shù)。目前，審計選樣主要通過專家打分法。這次培訓中介紹的邏輯回歸和決策樹算法，也是解決這一方面的問題。通過歷史樣本和歷史底稿的數(shù)據(jù)，通過訓練建立選樣模型，將與底稿相關(guān)的主要風險特征選入模型，再將模型應(yīng)用于驗證樣本。這樣就可以應(yīng)用大數(shù)據(jù)技術(shù)，為審計提供支持。

三是加強與管理信息部和軟件開發(fā)中心的合作。本次培訓中我們也看到，經(jīng)過一段時間的積累，我行已經(jīng)具備了一定的大數(shù)據(jù)分析經(jīng)驗，儲備了一批具有相應(yīng)經(jīng)驗的人才。作為業(yè)務(wù)部門，我們應(yīng)加強與管理信息部和軟件開發(fā)中心的對接，通過相互溝通和配合，確定業(yè)務(wù)需求，發(fā)揮各自優(yōu)勢推動大數(shù)據(jù)技術(shù)的落地。就像行領(lǐng)導所指出的那樣，大數(shù)據(jù)技術(shù)哪個部門先投入，哪個部門先獲益。目前，我行大數(shù)據(jù)技術(shù)應(yīng)用正處于井噴前夕，我們應(yīng)抓住這一有利時機，推動審計工作上一個新臺階。

這次培訓對于我來說，只是打開了一扇窗，未來大數(shù)據(jù)分析的道路還很長、也一定很曲折，但我也堅定信念，要在這條路上繼續(xù)努力，所謂“獨行快、眾行遠”，有這樣一批共同走在大數(shù)據(jù)分析路上的農(nóng)行人陪伴，相信農(nóng)業(yè)銀行大數(shù)據(jù)之路必將有無限風光。

亚洲成a人片在线不卡一二三区,天天看在线视频国产,亚州Av片在线劲爆看,精品国产sm全部网站

報告總結(jié)更多+

應(yīng)用文書更多+

教學資源更多+

合同范本更多+

心得體會更多+

講話致辭更多+

求職文檔更多+

企業(yè)文檔更多+

更多文庫更多+

大數(shù)據(jù)培訓心得體會(大全)

第一篇：大數(shù)據(jù)心得體會

第二篇：大數(shù)據(jù)培訓心得

第三篇：大數(shù)據(jù)培訓心得感悟范文

相關(guān)文章

心得體會

最新排行點擊排行

猜你喜歡
我要投稿

亚洲成a人片在线不卡一二三区,天天看在线视频国产,亚州Av片在线劲爆看,精品国产sm全部网站

報告總結(jié)更多+

應(yīng)用文書更多+

教學資源更多+

合同范本更多+

心得體會更多+

講話致辭更多+

求職文檔更多+

企業(yè)文檔更多+

更多文庫更多+

大數(shù)據(jù)培訓心得體會(大全)

第一篇：大數(shù)據(jù)心得體會

第二篇：大數(shù)據(jù)培訓心得

第三篇：大數(shù)據(jù)培訓心得感悟范文

相關(guān)文章

心得體會

最新排行 點擊排行

猜你喜歡 我要投稿

最新排行點擊排行

猜你喜歡
我要投稿