當前位置 > 首頁 > 技術熱點 > 在國外大數據分析師怎么樣的?

广西快三什么时候有的:在國外大數據分析師怎么樣的?

广西快三专家推荐号 www.otukai.com.cn 來源:中國數據分析行業網 | 時間:2019-10-30 | 作者:數據委

要挖掘大數據的價值必然要對大數據進行內容上的分析與計算,深度學習和知識計算是大數據分析的基礎,而可視化既是數據分析份關鍵技術也是數據分析結果呈現的關鍵技術,以下是對它們的簡單介紹。

 

深度學習?

利用層次化的架構學習出對象在不同層次上的表達,這種層次化的表達可以幫助解決更加抽象的問題,在層次化中,高層的概念通常是通過低層的概念來定義的,深度學習通常使用人工神經網絡,常見的具有多個隱層的多層感知機(MLP)就是典型的深度架構。深度學習的起源要追溯到神經網絡,20世紀80年代,向后傳播(BP)算法的提出使得人們開始嘗試訓練深層次的神經網絡。然而,BP算法在訓練深層網絡的時候表現不夠好,以至于深層感知機的效果還不如淺層感知機。于是很多人放棄使用神經網絡,轉而使用凸的更容易得到全局最優解的淺層模型,提出諸如支持向量機、boosting等淺層方法,以致于此前大部分的機器學習技術都使用淺層架構。2006年,Hinton等人使用無監督的逐層貪婪的預訓練(greedy layer-wise pre-trian)方法成功減輕了深度模型優化困難的問題,從而掀起深度學習的浪潮。

 

近幾年,深度學習在語音、圖像以及自然語言理解等應用領域取得一系列重大進展。從2009年開始,巍然研究院的Dahl等人率先在語音處理中使用深度神經網絡(DNN),將語音識別的錯誤率顯著降低,從而使得語音處理成為成功應用深度學習的第一領域;在圖像領域,Hinton等人使用深層次的卷積神經網絡(CNN)在ImageNet評測上取得巨大突破,將錯誤率從26%降低到15%,重要的是,這個模型中并沒有任何手工構造特征的過程,網絡的輸入就是圖像的原始像素值。Google Brain項目中,Le等人嘗試使用完全無標注的圖像訓練得到人臉特征檢測器,使用這些學習到的特征可以在圖像分類中取得非常好的效果;Google的深度學習系統(DistBelief)在獲取數百萬YouTube視頻數據后,能夠精準地識別出這些視頻中的關鍵元素--貓;在自然語言領域,Bengio等人使用神經網絡并結合分布式表達式(distributed representation)的思想訓練語言模型并取得很好的效果,不過當時還沒有使用到更深層次的模型;2008年,Collobert等人訓練了包含一個卷積層的深度神經網絡,利用學習得到的中間表達式同時解決多個NLP問題;在國內,2011年科大訊飛首次將DNN技術運用到語音云平臺,并提供給開發者使用,并在訊飛語音輸入法和訊飛口訊等產品中得到應用;百度成立IDL(深度學習研究院),專門研究深度學習算法,目前已有多項深度學習技術在百度產品上線。深度學習對百度影響深遠,在語音識別、OCR識別、人臉識別、圖像搜索等應用上取得突出效果;此外,國內搜狗、云之聲等紛紛開始在產品中使用深度學習技術。

 

知識計算

?基于大數據的知識計算是大數據分析的基礎,知識計算是國內外工業界開發和學術界研究的一個熱點,要對數據進行高端分析,就需要從大數據中先抽取出有價值的知識,并把它構建成可支持查詢、分析和計算知識庫。目前,世界各國各個組織建立的知識庫多達50余種,相關的應用系統更是達到上百種。其中,代表性的知識庫或應用系統有KnowItAll、TextRunner、Nell、Probase、Satori、Prospera、Sofie及一些基于維基百科等在線百科知識構建的知識庫,如DBpedia、Yago、Omega和WikiTaxonomy;此外,一些商業網站、公司和政府也發布了類似的知識搜索和計算平臺,如Evi公司的TrueKnowledge知識搜索平臺、美國官方政府網站Data.gov、Wolfram的知識計算平臺wolframalpha、Google的知識圖譜Knowledge Graph、Facebook推出的類似的實體搜索服務 Graph Search等;在國內,中文知識圖譜的構建與知識計算也有大量的研究和開發工作,代表性的有中國科學院計算技術研究所的OpenKN、上海交大最早構建的中文知識圖譜平臺zhishi.me,百度推出了中文知識圖譜搜索,搜狗推出的知立方平臺、復旦大學GDM實驗室推出的中文知識圖譜展示平臺等。

 

支持知識計算的基礎是構建知識庫,這包括3個部分,即知識庫的構建、多源知識的融合與知識庫的更新,知識庫的構建就是要構建幾個基本的構成要素,包括抽取概念、實例、屬性和關系。從構建方式上,可以分為:手工構建--依靠專家編寫一定的規則,從不同的來源收集相關的知識信息,構建知識的體系結構,典型的例子是知網、同義詞詞林、概念層次網絡和中文概念詞典、OpenCyc等;自動構建--基于知識工程、機器學習,人工智能等理論自動從互聯網上采集并抽取概念、實例、屬性和關系,著名的例子是Probase、Tago等。手工構建知識庫,需要構建者對知識的領域有一定的了解,才能編寫出合適的規則,開發過程中也需要投入大量的人力物力;相反自動構建的方法依靠自動的學習經過標注的語料來獲取規則,如屬性抽取規則、關系抽取規則等,在一定程度上可以減少人工構建的工作量。自動構建知識庫的方法主要分為有監督的構建方法和半監督的構建方法兩種。

 

多源知識的融合是為了解決知識的復用問題,如前文所述,構建一個知識庫的代價是非常大的,為了避免從頭開始,需要考慮知識復用和共享,這就需要對多個來源的知識進行融合,即需要對概念、實例、屬性和關系的沖突、重復冗余、不一致進行數據的清理工作,包括對概念、實例進行映射、消歧,對關系進行合并等,其中概念間關系或分類體系的融合是很關鍵的一部分,按融合方式分為手工融合和自動融合。對于規模較少的知識庫,手動融合是可行的,但這是一種非常耗時且容易出錯的融合方式。而建立在機器學習、人工智能和本體工程等算法上的融合方式具有更好的擴展性,相關工作包括Yago、Probase等。

 

大數據時代數據的不斷發展與變化帶給知識庫構建一個巨大的挑戰是知識庫的更新問題,知識庫的更新分為兩個層面:新知識加入;已有知識更新。目前專門針對開放網絡知識庫的更新工作較少,很多都是從數據庫的更新角度展開的,如對數據庫數據的增加、刪除和修改工作的介紹。雖然對開放網絡知識庫的更新,與數據庫的更新有很多相似之處,但是其本身對更新的實時性要求較高。目前這方面的工作,從更新方式來講分為兩類:基于知識庫構建人員的更新;基于知識庫存儲的時空信息的更新。

 

社會計算?

以Faceboo、Twitter、新浪微博、微信等為代表的在線社交網絡和社會媒體正深刻改變著人們傳播信息和獲取信息的方式,人和人之間結成的關系網絡承載這網絡信息的傳播,人的互聯成為信息互聯的載體和信息傳播的媒介,社會媒體的強交互性、時效性等特點使其在信息產生、消費和傳播過程中發揮著越來越重要的作用。當前在線社會計算無論是學術圈和工業界都備受重視,大家關注的問題包括對在線社會網絡結構、信息傳播以及信息內容的分析、建模與挖掘等一系列問題。

 

在線社會網絡的結構分析

 

在線社會網絡在微觀層面上具有隨機化無序的現象,在宏觀層面上往往呈現出規則化、有序的現象,為了理清網絡具有的這種看似矛盾的不同尺度的結構特征,探索和分析連接微觀和宏觀網絡中觀結構(也稱為社區結構)成為本領域一個重要的研究方向。一般意義上講,社區結構是指網絡節點按照連接關系的緊密程度不同而自然分成若干個內部連接緊密、社區結構發現和社區結構演化性分析等基本問題。社區定義或度量大體上分為4類:基于節點的社區定義、基于節點組(社區)的社區定義、基于網絡整體的社區定義、基于層次結構的社區定義。

 

在線社會網絡的信息傳播模型

 

在信息傳播模型的研究中,最廣泛深入研究的是傳染病模型,除了傳染病模型,隨機游走模型也是信息傳播的基本模型之一,作為最基本的動力學過程之一,隨機游走與網絡上的許多其他動力學過程(反應-擴散過程、社團挖掘、路由選擇、目標搜索)緊密相關。今年,研究人員開始注意到信息傳播和傳染病傳播具有顯著不同的特性,包括信息傳播的記憶性、社會增強效應、不同傳播者的角色不同、消息內容的影響等。Romero等人提出Stickniss和Persistence兩個重要概念,分析不同領域內Hashtag在Twitter上的傳播過程。Wu等人分析名人、機構、草根等不同群體之間的消息流向,并分析了不同類型的消息被轉發的情況及其生命周期。

 

社會媒體中信息檢索與數據挖掘? 社會媒體的出現對信息檢索與數據挖掘的研究提出了新的挑戰,不同于傳統的Web數據,社會媒體中的數據呈現出一些新的特征:信息碎片化現象明顯,文本內容特征越發稀疏;信息互聯被人的互聯所取代,社會媒體用戶形成的社會關系網絡的搜索和挖掘過程中的重要組成部分;社會媒體的易參與性使得人人具有媒體的特征,呈現出自媒體現象,個人影響力、情感與傾向性摻雜其中。針對這些特點研究人員在傳統信息檢索與數據挖掘計算基礎上提出了一些列的新模型。

 

鑒于用戶所創造的信息往往具有很強的時效性,Yang等人提出一種時間序列聚類的方法,從Twitter數據中挖掘熱門話題發展趨勢的規律;用戶的評價和評論中包含了大眾的觀點和態度,所以Bollen等人通過對Twitter中用戶的信息進行情感分析,將大眾情緒的變化表示為7種不同的情緒時間序列,進而發現這些序列能夠預測股票市場的走勢;社會媒體的檢索與挖掘研究在國內也收到越來越多的重視,包括北京大學、清華大學、哈工大等大學和研究機構已經取得了一定的進展,設計的研究內容包括社會化標簽系統中的標簽學習和排序、信息抽取和分類、社會化多媒體檢索、協作搜索和推薦等等。

 

可視化??

對抽象數據使用計算機支持的、交互的、可視化的表示形式以增強認知能力。大數據可視化不同于傳統的信息可視化,面臨最大的一個挑戰就是規模,如何提出新的可視化方法能夠幫助人們分析大規模、高維度、多來源、動態演化的信息,并輔助做出實時的決策,成為該領域最大的挑戰。為解決這個問題,我們可以依賴的主要手段是兩種,數據轉換和視覺轉換。現有研究工作主要聚焦在4個方面:通過對信息流進行壓縮或者刪除數據中的冗余信息對數據進行簡化;通過設計多尺度、多層次的方法實現信息在不同解析度上的展示,從而使用戶可自主控制展示解析度;利用創新的方法把數據存儲在外存,并讓用戶可以通過交互手段方便地獲取相關數據,這類算法成為核外算法(out-of-core algorithm);提出新的視覺隱喻方法以全新的方式展示數據。

 

1 - 在國外大數據分析師怎么樣的?

 

大數據處理和分析的終極目標是借助對數據的理解輔助人們在各類應用中作出合理的決策。在次過程中,深度學習、知識計算、社會計算和可視化起到了相輔相成的作用。