本篇文章2391字,讀完約6分鐘
電子沙盤http://www.sidukj.cn/vr.html【科技在線】大數(shù)據(jù)成熟了嗎? 交換隱私方便嗎? 曾經(jīng)受歡迎的大數(shù)據(jù)的發(fā)掘,最近成為了輿論的熱門話題。 有網(wǎng)友的專業(yè)測試證實了某商家利用大數(shù)據(jù)挖掘技術(shù)已經(jīng)成熟。 百度董事長兼首席執(zhí)行官李彥宏表示,中國人對隱私問題不那么敏感,進一步加劇了這種狀況。 大數(shù)據(jù)挖掘技術(shù)就像帶有負面信息的明星,似乎一眨眼就變暗了,成了竊取隱私的小偷。
在《大數(shù)據(jù)時代》這本書暢銷幾年后,大數(shù)據(jù)不再那么受歡迎,但并未退役,其快速發(fā)展成為了人工智能實現(xiàn)的基礎之一。
那么,大數(shù)據(jù)挖掘是什么技術(shù)呢? 從誕生迅速發(fā)展到現(xiàn)在,什么樣拼命努力的技術(shù)人員又增長了那些能力? 面對大數(shù)據(jù)難以管理的問題,是否通過技術(shù)手段進行控制?
客戶圖像:機器給人類貼標簽
通過添加標簽來制作客戶的圖像是數(shù)據(jù)挖掘中經(jīng)常使用的技術(shù)。 北京大學計算機科學技術(shù)研究所多媒體新聞解決研究室主任彭宇新教授指出,繪制客戶圖像是利用社會交流互聯(lián)網(wǎng)的新聞,根據(jù)客戶的社會屬性、生活習慣、支出行為等新聞,抽象出標簽化的客戶模型,機器像人一樣可靠 社會交流互聯(lián)網(wǎng)數(shù)據(jù)是實現(xiàn)這一目標的基礎,機器見人多來源于社會交流互聯(lián)網(wǎng)數(shù)據(jù)的挖掘。
標簽一般是分解顧客新聞得到的高度精致的特征表示,便于機器進行新聞提取、聚合分解等解決。 標簽本身不再需要分解副本等解決工作,便于利用機器提取標準化新聞。
有了標簽,計算機就可以自動解決人和相關的新聞,通過算法、模型可以逐步了解人。 彭宇新表示,多個標簽可以共同完成圖像,將整個過程分為三個步驟。 一是收集數(shù)據(jù),也就是基于文案的新聞捕捉,口語中叫做爬數(shù)據(jù),二是顧客的行為模型,通過機器學習技術(shù)形成算法模型,評價顧客可能的一點點行為。 第三,可視化展示。 是用能讓人理解的方法展示機器運算的結(jié)果。 這三個步驟經(jīng)過了多次調(diào)整,在實際應用中,有可能根據(jù)結(jié)果反饋和業(yè)務訴求進行二次建模等調(diào)整。
整個過程的影響參數(shù)相對多樣,不同行為類型的權(quán)重對標簽新聞的影響也不同。 以應用廣泛的商品營銷為例,例如網(wǎng)絡銷售葡萄酒時,購買權(quán)重為5,僅瀏覽數(shù)為1,考慮瀏覽間隔、停留時間、生活習慣等,用許多復雜的算法最終表現(xiàn)一個標簽的權(quán)重,從而形成圖像
基于客戶的圖像技術(shù),大數(shù)據(jù)挖掘?qū)⑦M行分類和相關規(guī)則的計算等分解。 例如,有多少客人喜歡葡萄酒? 喜歡葡萄酒的人中,男性、女性的比例是多少? 喜歡葡萄酒的人一般喜歡什么體育企業(yè)品牌?
媒體間的智能識別:在計算機上佩戴慧眼
以前以文案新聞為主流,但現(xiàn)在充斥著圖片和視頻等多媒體數(shù)據(jù)。 彭新表示,后者目前占大數(shù)據(jù)的80%以上。
由于數(shù)據(jù)種類發(fā)生了巨大的變化,智能識別的任務變得更加困難。 管不住、不好用的問題日益突出。 機器只能讀自己的語言。 彭宇新說,人類世界的所有語言都必須轉(zhuǎn)換成機器理解的語言才能被識別。 以前只解決拷貝比較簡單,但現(xiàn)在必須追加很多復雜的圖像和視頻等數(shù)據(jù)。
例如,世界上有數(shù)千種鳥類,許多種類的差異非常細微,即使是擁有專業(yè)信息的人也不容易準確識別,計算機自動識別更是困難。 彭宇新表示,理解圖像、視頻拷貝的難點在于如何進行語義自動識別,這也是他們團隊多年來的攻關課題之一,為此,團隊發(fā)明了基于觀察力模型和深度增量學習的識別方法。
觀察力模型,顧名思義,是讓計算機自動定位圖像的有意義的區(qū)域,提高檢測精度; 深度學習是指計算機利用已經(jīng)學到的知識加速新知識的學習,通過動態(tài)擴展,可以幫助檢測新概念。
新模型新算法的力量,使機器能夠迅速識別圖像、視頻的語義新聞。 彭新隊近幾年在參加國際權(quán)威評估trecvid的視頻樣本檢索比賽中6次均獲得第一名,在與卡內(nèi)基梅隆大學、牛津大學、ibm watson研究中心等參賽隊伍的競爭中獲勝。 一個主題是,在464小時的視頻中快速準確地找到所有倫敦地鐵的標志,彭宇新隊僅用一秒鐘就獲得了冠軍,獲得了第一名。
在單一媒體新聞的分解和識別上,如何讓機器像人一樣看待和理解呢?
為了實現(xiàn)跨媒體新聞融合和一體化分解識別的目的,項目小組首先將數(shù)據(jù)自動逐個發(fā)送到每個不同媒體類型對應的分解識別模塊。 例如,分割視頻鏡頭,提取關鍵幀,逐一發(fā)送到鏡頭檢索、片段檢索、視頻字幕識別等模塊,將單一媒體的分解結(jié)果進行媒體間的語義關聯(lián)分解,實現(xiàn)媒體間新聞的語義協(xié)作。 一種常見的做法是建立第三方空之間的交叉媒體關聯(lián)。 彭宇新說,計算機根據(jù)我們教給我們的模型分別提取圖像、視頻、拷貝、音頻的特征,投影在一個第三方空之間,不同媒體的新聞就可以對話了。
抽絲技術(shù)剝繭,使圖像和視頻新聞像復制品一樣透明。 我們是以應用為目標進行的,但準確率、解決速度都經(jīng)過多年的優(yōu)化,現(xiàn)在可以實用了。 彭新新表示,該技術(shù)不僅支持信息媒體等領域的數(shù)據(jù)管理和檢索,還支持網(wǎng)絡管理部門分解和監(jiān)測大數(shù)據(jù)。
延長瀏覽
匿名解決:預期的隱私保護措施
雖然要打破新聞的控制權(quán)幾乎是不可能的,但是保護隱私有一個方便的方法。 郵電大學教授楊義先的《安全簡史》中有一個形象的比喻,認為數(shù)據(jù)在網(wǎng)絡上裸奔時,避免被跟蹤的便捷安全手段是捂臉。 這就是所謂的匿名化解決機制。
根據(jù)客戶隱私保護的相關規(guī)定,數(shù)據(jù)公司在銷售數(shù)據(jù)時必須匿名解決數(shù)據(jù)。 北京大學計算機科學技術(shù)研究所研究員趙東巖說。 然而,為了確定準確的位置和推送服務,匿名化的解決方案可能被忽略。 它指的是目標客戶群的面向身份,而不是發(fā)送給組。 因此,個性化推送和匿名解決在當前技術(shù)中是相互競爭的。
的沖突相比,行業(yè)先行者提出了區(qū)塊鏈的處理思路。 我把那個叫做身份證。 北京領主科技企業(yè)研究員劉偉泰表示,大數(shù)據(jù)的本質(zhì)是集團研究,但集團的粒度可以細化一些,另外,區(qū)塊鏈技術(shù)可以賦予顧客授權(quán)的做法。
不難想象,隨著新技術(shù)的不斷創(chuàng)新,新聞安全方面的技術(shù)突破不斷增加。 也可以用來平衡新聞控制權(quán),而不是挖掘大數(shù)據(jù)。
標題:“隱私換便捷?大數(shù)據(jù)發(fā)掘究竟是怎樣的技術(shù)?”
地址:http://m.kungfu-fish.com//xwdt/41652.html