10萬(wàn)+優(yōu)質(zhì)自媒體資源,精準(zhǔn)引流
WOT2016大數(shù)據(jù)峰會(huì)將于2016年11月25-26日在北京粵財(cái)JW萬(wàn)豪酒店召開(kāi),屆時(shí),數(shù)十位大數(shù)據(jù)領(lǐng)域一線(xiàn)專(zhuān)家、數(shù)據(jù)技術(shù)先行者將齊聚現(xiàn)場(chǎng),在圍繞機(jī)器學(xué)習(xí)、實(shí)時(shí)計(jì)算、系統(tǒng)架構(gòu)、NoSQL技術(shù)實(shí)踐等前沿技術(shù)話(huà)題展開(kāi)深度交流和溝通探討的同時(shí),分享大數(shù)據(jù)領(lǐng)域最新實(shí)踐和最熱門(mén)的行業(yè)應(yīng)用。
51CTO記者對(duì)即將參加大會(huì)演講的一點(diǎn)資訊大數(shù)據(jù)平臺(tái)研發(fā)總監(jiān)田超行了專(zhuān)訪(fǎng),讓我們先睹為快,探聽(tīng)田超在一點(diǎn)資訊大規(guī)模實(shí)時(shí)點(diǎn)擊反饋平臺(tái)方面的心得。
田超,目前在一點(diǎn)資訊任職大數(shù)據(jù)中心技術(shù)總監(jiān)負(fù)責(zé)基礎(chǔ)架構(gòu)及大數(shù)據(jù)平臺(tái)相關(guān)工作。碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,曾任職雅虎北京研發(fā)中心工程師、同步盤(pán)CTO、高德軟件高級(jí)技術(shù)經(jīng)理等職?,F(xiàn)任一點(diǎn)資訊大數(shù)據(jù)平臺(tái)技術(shù)總監(jiān)。
大數(shù)據(jù)技術(shù)是對(duì)于海量數(shù)據(jù)的處理能力及構(gòu)建在這樣處理能力之上的數(shù)據(jù)應(yīng)用。從Hadoop大規(guī)模普及開(kāi)始,業(yè)界擁有了構(gòu)建大規(guī)模數(shù)據(jù)存儲(chǔ)和計(jì)算的能力,而隨著技術(shù)的不斷發(fā)展,上層應(yīng)用對(duì)于擁有實(shí)時(shí)處理海量數(shù)據(jù)能力的需求在不斷增強(qiáng),這就衍生出了如Storm在內(nèi)的各種實(shí)時(shí)計(jì)算的框架和系統(tǒng)。而今天做的一些技術(shù)包括Spark、Googledataflow等則希望能夠更有機(jī)的將離線(xiàn)計(jì)算與在線(xiàn)計(jì)算進(jìn)行統(tǒng)一。
實(shí)時(shí)的數(shù)據(jù)處理能力對(duì)于一個(gè)現(xiàn)代互聯(lián)網(wǎng)公司來(lái)說(shuō)是必要的組成部分。各個(gè)公司的在線(xiàn)機(jī)器學(xué)習(xí)、實(shí)時(shí)用戶(hù)畫(huà)像系統(tǒng)、實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)、實(shí)時(shí)統(tǒng)計(jì)分析系統(tǒng)等業(yè)務(wù)都需要擁有實(shí)時(shí)的大規(guī)模反饋數(shù)據(jù)計(jì)算的能力,這些系統(tǒng)的實(shí)時(shí)計(jì)算部分有一定的共同點(diǎn),也有一定的特殊部分。一點(diǎn)資訊的實(shí)時(shí)反饋平臺(tái)在設(shè)計(jì)之初對(duì)上述系統(tǒng)對(duì)實(shí)時(shí)計(jì)算部分的公用計(jì)算模型和數(shù)據(jù)結(jié)構(gòu)進(jìn)行了抽象,對(duì)系統(tǒng)設(shè)計(jì)的時(shí)候參考了Google的Mesa系統(tǒng),從而設(shè)計(jì)成為一個(gè)可擴(kuò)展的平臺(tái),能夠在一點(diǎn)咨詢(xún)內(nèi)部支撐著上述系統(tǒng)的實(shí)時(shí)計(jì)算部分任務(wù)。
許多的資訊平臺(tái)智能為讀者服務(wù),但是一點(diǎn)資訊可以反向,為讀者服務(wù)的同時(shí)也可以為作者提供資訊。系統(tǒng)在根據(jù)用戶(hù)的行為來(lái)分析,以及挖掘用戶(hù)對(duì)興趣的需求和需求被滿(mǎn)足的情況。這些數(shù)據(jù)及對(duì)數(shù)據(jù)的深度挖掘?yàn)橐稽c(diǎn)資訊的內(nèi)容生態(tài)建設(shè),提供了一個(gè)全局的上帝視角,使一點(diǎn)資訊可以從更高的角度來(lái)觀(guān)察群體上的表現(xiàn)及內(nèi)容趨勢(shì)。一點(diǎn)資訊還有一個(gè)叫一點(diǎn)insight的系統(tǒng),目前屬于邀約測(cè)試中,該系統(tǒng)會(huì)把對(duì)于用戶(hù)興趣的知識(shí)映射到不同的領(lǐng)域上,以各種數(shù)據(jù)可視化的方式來(lái)展示這些知識(shí)。
搜索引擎強(qiáng)調(diào)的是用戶(hù)搜索,相當(dāng)于用戶(hù)帶領(lǐng)內(nèi)容;推薦是用戶(hù)完全處于被動(dòng),也不做表達(dá),先給予用戶(hù)共性的內(nèi)容,再根據(jù)其點(diǎn)擊行為,猜測(cè)用戶(hù)的喜好,然后再將內(nèi)容推薦給用戶(hù)。搜索引擎和推薦引擎是有著相似結(jié)構(gòu)的不同系統(tǒng)。把搜索技術(shù)和推薦技術(shù)有機(jī)的融合在一起,是一點(diǎn)資訊興趣引擎設(shè)計(jì)的核心目標(biāo)。興趣引擎中,對(duì)于用戶(hù)的搜索和推薦行為數(shù)據(jù)底層完全打通,充分的利用用戶(hù)主動(dòng)表達(dá)與被動(dòng)行為信號(hào),基于人工智能技術(shù)不斷學(xué)習(xí)和挖掘用戶(hù)的興趣,并基于用戶(hù)興趣進(jìn)行內(nèi)容的分發(fā)。
對(duì)于大數(shù)據(jù)到人工智能之間技術(shù)的不斷發(fā)展,在田超看來(lái)實(shí)際上是業(yè)界對(duì)數(shù)據(jù)的處理,以及利用能力不斷發(fā)展提升的自然過(guò)程。最早的時(shí)候,業(yè)界大多數(shù)技術(shù)都是用來(lái)處理結(jié)果數(shù)據(jù)的,數(shù)據(jù)量在GB級(jí)別,存儲(chǔ)使用Database,對(duì)于數(shù)據(jù)獲取和存儲(chǔ)計(jì)算的能力處于初級(jí)階段;隨著Hadoop等一系列基礎(chǔ)架構(gòu)的不斷發(fā)展,大數(shù)據(jù)技術(shù)也不斷發(fā)展起來(lái),技術(shù)人員不僅僅是處理業(yè)務(wù)結(jié)果數(shù)據(jù),對(duì)描述用戶(hù)行為的日志也進(jìn)行了更深度的處理,輔助業(yè)務(wù)進(jìn)行計(jì)算,這個(gè)時(shí)代數(shù)據(jù)量已經(jīng)增長(zhǎng)到了PB級(jí)別,存儲(chǔ)使用各種分布式文件系統(tǒng),這一階段各種離線(xiàn)計(jì)算、流式計(jì)算、圖計(jì)算模型也都隨著大數(shù)據(jù)應(yīng)用的發(fā)展而發(fā)展起來(lái);而今天,在已經(jīng)擁有了更好的計(jì)算模型以及更加海量的數(shù)據(jù)之后,對(duì)于數(shù)據(jù)的利用也更加深化,人工智能及深度學(xué)習(xí)技術(shù)與大數(shù)據(jù)的結(jié)合也可以構(gòu)造更加智能的應(yīng)用。
51CTO主辦的高端技術(shù)峰會(huì)【W(wǎng)OT2016“大數(shù)據(jù)技術(shù)峰會(huì)】將于11月25日-26日在北京粵財(cái)JW萬(wàn)豪酒店盛大揭幕,40余位業(yè)內(nèi)重量級(jí)嘉賓匯聚,解析大數(shù)據(jù)技術(shù)與行業(yè)應(yīng)用的實(shí)踐結(jié)合。福利大放送,主辦方將邀請(qǐng)更多講師來(lái)到“WOT講師專(zhuān)訪(fǎng)間”,深度解析技術(shù)干貨。