來源:CPDA數據分析師網 / 作者:數據君
您的公司是否還在努力瞭解什麼是大數據以及如何管理大數據?這裡有來自專家的關於大數據的6個神話,可幫助您在大數據領域中將事實與虛構分開。
1.大數據意味著“大量”數據
如今大數據已成為流行語。但是其真正含義通常仍然不清楚,有些人將大數據簡稱為大量數據,但是這不是很正確,比這複雜一點,大數據是指結構化(如Excel工作表)或非結構化(如電子郵件中的元數據)的數據集如何與社交媒體分析或IoT數據之類的數據結合以構成更大的故事,大數據故事顯示了組織內部正在發生的事情的趨勢-這個故事很難用傳統的分析技術來把握,數據量很大就像水放在玻璃杯中時,非常易於管理,但是在洪水中它勢不可擋當數據規模增長到100時,用於單臺機器的數據的數據分析系統將被沖走,或1000次,因此可以肯定的是原型是小型的,但是大型的建築師。
2.數據需要乾淨
最大的神話是您必須擁有乾淨的數據才能進行分析,沒有人擁有乾淨的數據,我必須清理它以進行分析的整個瘋狂想法是行不通的,您要做的是您進行了足夠好的分析,儘管存在所有骯髒的情況,您還是可以獲取數據,然後進行分析它顯示了您在哪裡存在數據質量問題,儘管有數據質量問題,我也可以向您展示一些很好的模式,現在您可以進行有針對性的數據質量工作,只是改善數據以獲得更好的見解,通常企業會把這些努力放到後面,因為它們的數據不是乾淨的,這不是必需的,部署分析應用程序將在視覺上闡明數據的弱點,一旦發現這些不足,就可以制定清理計劃,分析應用程序可以利用一種機制來強調清理工作並監視進度。
如果您的數據不乾淨我認為這就是更多原因
一旦將這些數據綁定在一起,並在應用程序中以可視化的方式將它們變為現實時,就會看到這些關聯,並且看到數據匯聚在一起,那麼很快就會發現數據不足,您可以查看數據問題所在,並在清理數據時提供基準。
3.等待使您的數據完美
這是另一個您不希望清理數據的原因,到清理數據的時間,它已經存在了三個月,所以您擁有陳舊的數據, 因此該信息不再相關,如何進行分析,發現問題,更改分析,重新運行分析的,分析相隔僅四到五分鐘,因此如果我可以進行分析,請找到問題,解決問題,重新運行分析並在四,五分鐘後查看報告,這改變了我進行分析的方式的本質,把所有事情都做對了,然後編寫了代碼,但是現在每個人都在進行敏捷編碼,您編寫一些東西對其進行測試,然後看看如何改進它,然後再使其變得更好,世界已經改變了,人們仍在行事,就像它是舊的做事方式。
4.數據湖
數據湖(通常是鬆散的存儲大量原始結構化數據和結構化數據的存儲庫)在大數據環境中經常被提及,唯一的問題是儘管被引用的頻率很高,但它們卻不存在,一個企業的數據不會被轉儲到數據湖中,它是在部門的數據孤島中精心策劃的,以鼓勵專注的專業知識,它們還提供了良好的數據治理和合規性所需的問責制和透明度。
5.分析數據很昂貴
您是否由於數據分析工具中涉及的假定費用而害怕開始使用數據?有個好消息對您來說,有了今天可用的免費數據工具,任何人都可以開始分析大數據,當今雲計算的低成本意味著您實際上可以做不可能做的事情。
CPDA數據分析師培訓
6.機器算法將取代人工分析人員
分析大數據的方法方面看到了一個有趣的二分法,存在分歧一方面有人在說,我將把成千上萬的數據科學家扔在這個問題上,然後有人在說,機器學習將做到這一切,它將完全自動化,這些解決方案都不起作用,沒有足夠的數據科學家,而且成本正在迅速上升,此外業務用戶擁有多年的域登錄和業務直覺,當您帶一名數據科學家說,那傢夥會去做並告訴您要做什麼時,這實際上會產生完全錯誤的類型數據科學家經常無法充分了解我們的業務,無法立即真正精通業務,完美的數據科學家完全瞭解特定業務的運作方式,其數據的運作方式是一個神話。
實際上大多數數據科學項目實際上都沒有實施,因為它是如此困難
它需要幾個月的時間才能完成,而到完成時您關心的問題已經太老了,但是過度依賴機器學習也存在一些問題,這給了我答案但沒有解釋,這是在告訴我該怎麼做,而不是為什麼我應該這樣做,人們不喜歡被告知該怎麼做,特別是被神奇的機器告知,關鍵不只是答案,而是解釋和建議,一方面數據科學家將越來越專注於真正棘手的問題,考慮每個部門和公司成立數據處理部門和數字處理部門的時間,數據處理部門”和“數字處理部門”,他們基本上變成了Excel,Word和PowerPoint,儘管如此人們還是數據和數字處理方面的專家,仍然有一些數據處理和數字處理方面的專家,他們仍然存在,他們有不同的頭銜和不同的工作,但在真正高級的情況下,這些人仍然存在,但是80 -90%的人將遷移到Excel,就大數據而言這就是世界應該發展的方式。
轉載請超鏈接註明:頭條資訊 » CPDA數據分析師培訓:關於大數據的6個神話?
免責聲明 :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。