當前位置 > 首頁 > 專家訪談 > 美國羅格斯商學院教授熊輝:算法和模型怎么高效掙錢?

广西快三开奖直播视:美國羅格斯商學院教授熊輝:算法和模型怎么高效掙錢?

广西快三专家推荐号 www.otukai.com.cn 來源:中國數據分析行業網 | 時間:2016-06-16 | 作者:數據委

熊輝教授是計算機系出身的博士,是美國羅格斯商學院的終身教授,是中國商業聯合會數據委專家庫成員。在近期的一場演講中,他對機器學習和數據挖掘技術,以及這些技術在商業領域的應用,作了深入淺出又非常生動的講解。大數據時代到來,大數據如何轉化為商業利益,請聽熊輝教授解讀。

一.?大數據分析究竟是什么?

今天主要是跟大家分享,我們在過去幾年中研究工作的總結。

今年我們一共在 KDD 發布了 9 篇論文,題目非常的多樣化,內容涵蓋也非常廣泛,包括房地產、通訊、市場營銷、人力資源,還有一些好玩的方向,比如我們做了用大數據抓小偷,還有醫藥相關的,例如如何去做醫療流程的優化和診斷。

今天跟大家分享的也是一個非常好玩的方向。

我最喜歡用下面這張 slide 介紹什么叫做 “數據挖掘”,它能夠很好的幫助大家,尤其是沒有計算機基礎的人來理解數據挖掘是做什么的:

數據挖掘其實很像是醫生在診斷病人,當病人到達醫院之后,醫生先要收集病人的病癥,將各項病癥進行分析并產生關聯,然后才能進行診斷。

所有的數據都不一樣,例如做通訊的數據,從移動、聯通、電信來的數據都不一樣,因為大家的客戶群不同,背后的數據特點不同。

病人也是一樣,同樣的病癥,例如感冒,如果病人是老人、懷孕的婦女、小孩,他們呈現出來的病狀都是不一樣的。

數據分析就像是根據這些完全不一樣的病癥,收集并進行分析,然后進行診斷的過程。

二. 為什么說大數據分析很難?

數據挖掘是一個很老的 topic,最早提出這個觀點的是沃爾瑪。當時叫 “海量數據”,也就是 “very large data”。

我經常用瞎子摸象來比喻數據分析。大象就對應海量數據,每一個數據分析師就是這個瞎子,我們只能夠摸一部分大象的部位,就像數據分析師只能夠拿到部分數據,但我們通過部分的數據來感受整體。

現在的 big data 和以前相比有什么區別呢?——現在的象不僅大,還有翅膀,還會飛。我們的很多應用需求造成我們的數據在不斷的移動變化:

例如出租車的 GPS 數據,是一直在移動和變化中的。又例如金融行業,金融行業的高頻數據交易每秒鐘都會有上萬個交易。在這種每天會產生上百萬個交易的前提下,我們運用的交易策略產生和風險評估機制都要適應這種快速變化的海量數據時代。

這種情況會加劇我們數據分析的復雜度和難度,這是目前 big data 所帶來的挑戰——我們在單位時間內所需要處理的數據量遠遠超過我們的計算能力和算法能力。

三. 最重要的不是算法好,而是算法快

大象在飛的時候,決定誰能夠勝出的往往是誰的算法更快,而不是更好。目前市場上面臨這么激烈的競爭,大家在競爭中,拼的往往是時間,是你的算法能夠多快速地解決問題。

好的算法不是比別人好多少,而是比別人快多少。

我很喜歡用下面的這個公式來解釋算法的本質:

我們經常在商業中做很多預測,a 是我們在長期的歷史規律總結出來的規律,也是《易經》中的 “不變的理”,β是短期變化規律的一種耦合。好的預測是既能夠把握長期不變的理,又能把握短期的變化規律,然后抓住他們的耦合。

就像一群魚游過來,游得很快,水很渾濁,我們的算法比的就是誰能最快地觀察到魚群游過來,同時從魚群中甄別出哪一條魚是最有價值的,觀察到之后馬上捕獲它。整個算法比拼的是這種快速運算,快速解決問題的能力。否則,差一個毫秒,別人就把魚吃完了。

四. 大數據商業化的難點在提出問題

我作為一個計算機背景出身的人,最理解計算機領域的人的想法。

從計算機學科畢業的人,往往會覺得自己掌握的是科學,會輕視問題的提煉,因為他覺得自己掌握了算法。

但往往問題的關鍵不在于問題的本身,而是問題的提煉。99% 的問題算法都能解決,但商業中真正的難點在于提煉出問題。

比如我現在如果給你一堆移動數據,非常多非常龐雜,你能從里面發現什么商業模式?提煉出來什么問題?

這不是大多數人可以做到的。但大多數計算機學科的人可以做到的是,如果我提煉了一個問題,希望你運用數據分析幫我找到解決途徑,他們是很擅長的;但如果反向操作,我給你一組數據,希望你從中提煉出一些需要解決的問題,或者說好的商業模式,這樣的能力就會有所欠缺。

而商學院出來的人又恰恰相反,往往擅長提煉問題,但缺乏解決問題的能力。這是學校的問題,學校往往培養專才,不培養通才。

西方的方法是擅長演繹,從上倒下推理出問題。

而我們現在常做的是從下往上,歸納法來解決問題。

未來的人才一定是兩方面都擅長,既能用演繹法尋找出問題,又能用歸納法找出解決問題的辦法。

這個世界上沒有最好的算法,只有最合適的算法。

所以如果有人跟我說他有一個最好的算法,我就跟他說你 bullshit。

就像沒有包治百病的藥,只有針對不同癥狀,最合適的藥。

我目前的團隊就是由商學院的學生和計算機學科的學生構成,相互補充,形成優勢互補。

我的團隊有幾個研究原則:

1、只做實際的問題;

2、所用的數據必須是一線的數據;

3、必須解決商業的問題。

下面會跟大家分享一些我們實際解決過的案例。

五. 要把商業問題轉化成數學問題

我們跟一個美國 500 強的公司合作,如何將商業的問題轉換為數據分析問題。我花了很長時間了解他們要解決的商業問題是什么問題,到最后提煉為 “如何提升 ROI”。

他們的痛點是他們想提高轉換率,是 to B 的生意,需要做商業分析,幫助提高轉換率和縮短轉換周期。

我們先看他們有什么數據,一類屬于靜態數據:他們所對接的客戶屬于哪個部門,他的職級是多少,他們公司的地點在哪里,公司規模有多大,屬于什么行業等。我們要判斷他是屬于決策者還是僅僅是信息搜集者?他們公司的收入可以讓他們接受我們多少錢的產品。

一類是動態信息,他在了解我們的官網信息中,進行了哪些動作?例如他了解過哪些產品,瀏覽過什么資料?是不是下載某項產品的白皮書,或者觀看了什么視頻?這一類的動態產品能夠形成一個知識樹,從中了解出他對我們的認知到達了哪一步。

我們想找到所有客戶結果之間的共性,就是他在每一個節點中的結果,比如 “成功簽約” 的客戶所共有的結果是什么。

就像讓 5 萬人去爬山,有一部分人登頂了,有一部分沒有。我們坐在直升機上看成功攀登到山頂的人,他們在每一個節點作出了什么選擇。然后分析成功登頂的共性,就能分析出影響他們最終到達山頂的節點數據,然后從中摸索出規律。

對 應到我們所說的例子,因為提升 ROI 的關鍵在于,我們必須 focus 在那些重要的,能最終成交的客戶身上,所以我們通過分析,5 萬個用戶的節點數據,最終形成了購買的客戶群,他們停留的節點,做的選擇,大致就能歸納出一些規律。比如他如果到了一個節點,可能會往下做哪一步,我們可 以對其保持重點關注。

這樣,商業問題回到數學問題。從數學上的描述成為一個簡單問題。

這整個步驟從前到后看,第一步是最難的,就是抽象出問題,其后的每一步都不是難點,都是優化函數的問題。

我們用一套市場的數據,投射到低維空間后整理之后,根據用戶的動作,推薦下一個動作,還能夠做營銷方式的篩選。我們發現有一些營銷方式根本不能導致用戶進入購買流程,就不需要浪費錢去購買這些營銷方式了。

而且我們還發現,如果客戶是被動的被引入市場計劃中,最終一般都會放棄。往往是主動獲取信息,才能夠完成購買。這樣能夠幫助他迅速分析誰是真正來購買產品的,誰只是來套取信息的。

六. 數據挖掘在醫療領域的應用

介紹去年的另外一個例子,也是去年 KDD 發表的一篇文章。這個和剛才舉例的市場營銷是完全不同的,體現在特征上。

病人到醫院之后要經過的流程:掛號-特征提?。ㄑ檠齲砸瘟疲鱸?。我們聚焦的點是,通過信息的篩選,預測病人會不會得其它某些疾病。

我們做了什么事情,我們繪圖。

每個病人都有一張圖,上百萬個病人,找他們共有的子圖,然后形成一千張基準圖。每一個病人,都是幾個不同病癥的組合。一千張基準圖排列組合,可以還原一百萬個病人的病癥。

同樣的一種疾病,但表現出來的病癥不同。根據你的不同病癥,用幾個基準圖來對應,吃與病癥相關的藥。

每個人給予完全個人化的藥物配置。這是這個問題真正的關鍵。

這就是智能吃藥。

此外,我們還跟美國 200 多所醫院合作,制作傳感器,就是病人攜帶的手環和醫生的胸牌之間設置一個傳感器。這樣病人到了哪個位置,哪個樓層,哪個地址,和醫療設備之間發生了什么交互,這些交互都會被記錄。

比如護士需要給病人量體溫,那么傳感器會在兩人距離很近的一個距離范圍內,記錄下來。這樣就能有效避免護士實際沒有測量卻亂填體溫記錄現象的發生?;蛘?,比如醫生出入傳染病房之后應該洗手,但如果他沒有和消毒液發生交互,這個傳感器就可以發出警報。

七. 大數據判斷房商圈商業價值

去年,我們做了一個房地產評估。房地產評估其實做了很多年我們怎么作出不一樣呢?

傳統的方式考慮更多的是學區是否好,交通如何,靜態指標怎么樣,房型、開發商如何。

我們做的不同是,我們做動態的數據。如果這個地區過去 5 年里很高收入段的人在增加,這個地方的樓價就會漲,反之就會跌。

所以我們判斷的標準是在這個樓盤有價值客戶的活躍度有多高,我們根據誰在這里生活而判斷房價的走勢。

那么如何判斷用戶的價值呢?通過 POI 和地點軌跡,比如頻繁進入高消費場所的人群,就判定為高價值用戶;頻繁出入低消費場所的人群,就判定為低價值用戶。我們把商圈的概念進行量化,量化每一個商圈的完整性,幫助我們進一步提高評估的標準。

講了這么多,我自己的經驗是:

首先,了解商業的痛點。

其次,通常要先知道數據的體征。從技術本身而言,一定要考慮數據的特征。

每個病人來源不同,他的病癥是不一樣的。移動通訊的數據,三月和二月就是不一樣。周末和非周末,春天和夏天,數據都是不同的。

給你很多數據,用什么數據很講究。不是所有的數據都要用。

任何的數據,都要轉為矩陣, 每一行每一列, 都很講究。

再次,不要受其他數據干擾。我常和學生說,一開始,要把事情做大,就是要有發散性思維,但當真正開始后,要把事情做小,cut 掉所有不相關的數據。要做到 “大道至簡”,不然會收到很大的干擾。

以上就是我的經驗分享,謝謝大家。