頭條資訊 - 為您提供最新最全的新聞資訊,每日實時更新

如何打造數據驅動的知識型經濟?這裡有一份技術列表

科技數碼 機器之心

如何打造數據驅動的知識型經濟?這裡有一份技術列表

迄今為止,我們的系統產生的還僅僅是數據,而不是信息,更不是知識。」上世紀90年代,管理大師彼得·德魯對數據使用這樣評論道。

現在看來,這個評論放在當今依然適用。在數據使用過程中,今天需要思考的是,如何將數據、信息轉化為知識,擴大人類的理性,輔助決策?

本篇文章解釋了數據、信息、知識、智慧的「數據金字塔」,並列出了知識型經濟所需要的技術列表。

過去的一年裡,疫情讓社會生活方方面面都受到了重挫,但也帶來了一些有趣的副作用:倒逼企業數字化轉型。

正如微軟CEO薩蒂亞·納德拉(Satya Nadella),「新冠疫情在數月內促進了企業的數字化轉型。」

那些提前佈局數字化的公司在疫情期間看到了收益,其他公司也在使用各種數字化工具,視頻通話、遠程辦公、雲計算、機器學習等得到了更多的應用。

但不管企業處於哪個階段,隨著數字化轉型的加速,所有業務活動中越來越多的部分都在以數據的形式留下了足跡。每個員工、客戶、供應商的動態,每個線索、信息位和過程都將以數字化的方式進行或記錄。

反過來,這意味著從理論上講,我們從數據中獲得的應該不僅僅是對現狀的洞察,還應該從數據到信息、從信息到知識。

在不久的將來,企業將是由數據驅動的,經濟將是基於知識的。以下是知識型經濟所需要的技術列表:

一 數據金字塔:從數據到知識

從1946年第一臺計算機誕生,幾十年IT技術的迅速發展下,人類從數據稀缺進入了數據爆炸時代,但我們一直沒有解決的問題是,「如何將數據、信息轉化為知識,擴大人類的理性,輔助決策?」

當前,我們對數據的利用還處在非常淺層的階段,管理大師彼得·德魯於上世紀90年代對數據使用的評論仍然適用於今天:「迄今為止,我們的系統產生的還僅僅是數據,而不是信息,更不是知識。」

數據、信息、知識,加上最高層級的智慧,四者之間的關係可以用「數據金字塔」來表示。這個金字塔一直以來都是信息科學語言的一部分,在基於知識的新數字世界中,對數據進行編碼,利用商業、運營知識是取得進步和保持競爭力的關鍵。

如何打造數據驅動的知識型經濟?這裡有一份技術列表

數據金字塔:數據、信息、知識和智慧之間的關係表示

那麼,我們如何從數據到信息,從信息到知識呢?首先要解釋三者的區別。

數據就是數字或字符,是原始或無組織形式的事實的集合,沒有上下文,也沒有意義。例如,「18122020」只是一個數字序列。但是,如果我們將此序列定義為DDMMYYY格式的日期,則可以將其解釋為2020年12月18日。在此附加上下文中,數字具有含義。

信息是為了特定目的而以一種更容易測量、可視化和分析的方式處理的數據。例如,我們可以通過公開各種看似完全不同的數據點和斷開連接的數據點之間的關係的方式來組織數據。根據每天休市時的數據創建特定時間段內數據點的圖表來分析道瓊斯指數的表現。

知識是經過某種方式處理、構造、應用或付諸實踐的信息。例如,通過捕獲和表達與我們的數據點相關的關係的含義,我們可以自動化地洞察,並提取新知識。語義關係的知識圖譜可以幫助解釋某些股票如何影響道瓊斯指數,以及不同的事件如何影響它們的價格。

向數據添加上下文會將其轉變為信息,處理信息可以將其轉變為知識,這些轉換的關鍵是「連接」和「元數據」。

提到數據處理,大部分人想到的是深度學習。如今通過深度學習,我們可以通過找到數據背後的規律,並作出預測。

但深度學習並不是唯一的數據處理方式,本篇文章嘗試從一個不同的視角來分析,關注一個特定的數據結構:圖。

二 圖分析

圖論的歷史與一個看似完全毫無聯繫的問題有關,「通過柯尼斯堡(Königsberg)許多橋樑的最佳方式是什麼?」1736年,瑞士數學家和物理學家萊昂哈德·歐拉(Leonhard Euler)建立了一個模型解決了這個問題,該模型就是圖論的基礎。

歐拉的做法是將「橋」和「連接橋的路徑」建模為圖中的「節點」和「邊」,然後形式化節點和邊的關係,這就構成了許多圖形算法的基礎。

如何打造數據驅動的知識型經濟?這裡有一份技術列表

在基於知識的新數字世界中,對數據進行編碼和將數據與業務知識結合是取得進步並保持競爭力的關鍵。

最著名的圖形算法可能是PageRank ——谷歌帝國的基礎。PageRank將網絡上的文檔建模為圖形,並使用它們之間的鏈接來得出特定查詢的相關性。

從18世紀到今天,科學家們已經開發了許多圖形算法,其主要類別包括路徑查找、中心性、社區檢測、相似性是圖算法的主要類別,這些算法在數據分析中有很多應用。

從eBay到NASA,再到調查記者和獨立數據科學家,圖分析都有大量的應用,包括欺詐檢測、網絡分析、自然語言處理等。2019年,分析公司Gartner就預測過,「圖分析將在未來幾年內增長,因為人們需要在複雜的數據中提出複雜的問題。」

三 圖數據庫

前文提到,將數據轉換成信息的關鍵是「連接」和「元數據」。圖是利用連接的最佳方法,而圖數據庫則可以使表達和連接查詢變得更容易。

這就是為什麼圖數據庫非常適合那些需要利用數據連接(反欺詐、預測性建議)案例的原因。從操作應用到分析,從數據集成到機器學習,圖都有優勢。

但圖和圖數據庫之間並不一樣。圖分析可以在任何後端執行,它們僅需要讀取圖形形狀的數據。而圖形數據庫是一種能夠完全支持讀和寫的數據庫,利用了圖形數據模型、API和查詢語言。

圖數據庫其實已經存在很長時間了,但到2017年才收到廣泛關注,當時AWS和微軟分別使用Neptune和Cosmos DB將圖數據庫暴露給更廣泛的受眾。自那時以來,圖數據庫就成了數據管理中最熱門的領域。

「到2022年,圖形處理和圖形DBMS的應用將以每年100%的速度增長,以不斷加速數據準備並實現更復雜和適應性更強的數據科學。圖形數據存儲區可以跨數據孤島有效地建模,探索和查詢具有複雜相互關係的數據。」Gartner在《2019年十大數據和分析技術趨勢》報告中表示。

四 知識圖譜

連接數據孤島是知識管理的前提,而知識圖譜擅長於此。知識圖譜是圖的特定子類,也稱為語義圖。它們自帶元數據、模式、全局標識符和推理能力,這使得它們成為捕捉和管理知識的理想選擇。

很多人將知識圖譜作為一項新技術,但實際上知識圖譜已經存在了至少20年,其發明者正式萬維網發明者蒂姆·伯納斯·李(Tim Berners-Lee)。

2001年蒂姆·伯納斯發表語義網宣言( Semantic Web manifesto),儘管其中提到的原則和技術一直有爭議,但它仍然成為知識圖譜復興的幕後推手。

如何打造數據驅動的知識型經濟?這裡有一份技術列表

Gartner將知識圖譜納入2020年人工智能技術成熟度曲線報告,並將其作為處於高峰的新技術熱點

谷歌的PageRank也在圖及知識圖譜的興起中扮演重要角色。儘管PageRank取得了成功,但如果沒有語義和元數據,網絡上內容的抓取和分類同樣是一個難解決的問題。因此,谷歌接受了語義技術,並在2012年創造了術語「知識圖」。

schema.org的廣泛採用標誌著圖技術和知識圖譜迅速崛起的開始。知識圖可以解決數據治理和數據集成等關鍵挑戰。

最終,知識圖譜可以作為數字載體,可以將知識獲取和組織的理念與數字時代的數據管理實踐統一起來。

五 圖、AI和自然語言處理

如果你認為知識圖譜是捕捉和管理知識的終極目標,那你就錯了。知識圖譜擅長以自上而下的方式明確地捕捉知識。這也是Gartner將知識圖譜列入2020年人工智能成熟度曲線報告的原因。

在管理顯性、先驗知識方面,知識圖譜比其他任何技術都要好,但是對於隱性、突發性及不斷髮展的知識而言,又如何處理?這就是機器學習效果很好的地方,但在這裡,圖形也可能會有所幫助。

如何打造數據驅動的知識型經濟?這裡有一份技術列表

圖與機器學習有什麼關係?實際上很多。這是雙向的。機器學習可以幫助引導和填充知識圖譜。圖形中包含的信息可以提升機器學習方法的效率。

機器學習及其深度學習子領域,與圖形非常匹配。在圖上的機器學習仍然是一項新興的技術,但卻是一項充滿希望的技術。亞馬遜、阿裡巴巴、蘋果、Facebook和Twitter只在一些生產中使用這項技術。在頂級人工智能會議上發表的研究報告中,有超過25%與圖有關。

最後,根據Facebook人工智能研究員Fabio Petroni的說法,圖可能不是獲取知識的最佳方式。「我們已經發明瞭表示知識的最佳方式——文本。隨著自然語言處理(NLP)的最新進展,我們現在有了機器,可以檢索上下文的片段,在此基礎上進行推理,並解決知識密集型任務,而不需要使用知識庫,只需要使用文本和理解文本即可。」

轉載請超鏈接註明:頭條資訊 » 如何打造數據驅動的知識型經濟?這裡有一份技術列表
免責聲明
    :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。
加載中...