數字時代帶來了海量的數據,而中國的快速發展和大國人口為大數據的應用提供了一個全球范圍內最適宜的環境。大數據環境相比傳統數據庫環境,不僅僅是數量級上的提升,更需要在保持性能的情況下進行計算——這無疑給大數據的安全帶來了更多挑戰。那么大數據安全該如何落地?大數據和大數據安全的發展又通往何方?洽聞國內專注大數據保護的廠商——觀數科技近期進行了新一輪千萬級的融資,安全牛采訪了觀數科技創始人李科,并就這些問題以及觀數科技的發展進行了解。李科,曾任椒圖科技總經理。在安全行業從業十多年,有多年 Web 滲透測試服務和安全評估經驗,參與數千次滲透項目實驗,并擁有多項安全相關專利。


觀數科技李科解讀大數據安全的三大痛點,高性能支持數據量飛升


從主機安全到大數據安全


安全牛:觀數的團隊是以前椒圖科技的,而椒圖科技是致力于主機安全的,那你們怎么就開始做數據庫安全、大數據的安全了呢?


李科:這其實和我們從椒圖離開有直接關系。我從椒圖離開的時候,因為競業限制,需要重新選擇方向。而我們發現,在大數據這個領域,也需要用到訪問控制,只是主體和客體發生了變化,但技術的使用和目標卻依然是一樣的。


安全牛:我感覺應該還是有點區別的:主機安全主要面對的是系統,而大數據的安全則面對的是數據庫。


李科:技術棧確實不一樣,但本質上只是主體和客體的變化:在操作系統上,主體可能是用戶和進程;在分布式數據庫上主體就可能是列、組、字段等——但進行防護安全理念是不變的。所以,我們就可以把之前做主機防護的思路轉化到分布式數據庫上。


安全牛:所以你選擇轉移到大數據,是因為你覺得大數據是未來的方向,而且暫時沒什么人在專營大數據保護這個領域。


李科:在 2015 年尋找方向的時候,我們首先在考慮云計算。但是,云計算各種層面上都和主機安全重合度太高——云計算其實是將一個主機虛擬成多個系統,但大數據恰恰相反——大數據把多個主機集合成一個系統,這其實會帶來新的問題。我們自己動手后發現,根據網上的教程搭建出來的系統,只要網線能連上,就能訪問 hadoop 中所有數據。然而,這些訪問沒有任何的賬戶體系,也缺乏足夠的訪問控制。在這樣的情況下,我們在國內做了一些研究,尋找是否有專注于做大數據安全的公司,結果發現沒有。但是,我們發現國外有像 BlueTalon 這樣的公司;于是我們就認為這樣的需求事實上是存在的。


安全牛:那在確定了這個方向之后,你們開始著手做了哪些內容呢?


李科:我們就開始往這個方向做第一款 DAF,對應 WAF( D 代表 Data )。在 2016 年做出來了以后,拿到公安部三所去送檢。當時國家也還沒有標準,所以專家認為這是可以填補國內空白的工作,就去參照國外同類產品的功能。我們現在也是唯一一個有公安部發的針對 hadoop 安全的《信息安全專用產品銷售許可證》。目前仍然只有我們一家有這個證。


大數據安全的三大痛點:敏感數據處理、合法合規、集群管理


安全牛:那你們之后都在哪些行業推廣了自己的產品呢?


李科:首先是運營商。我們發現運營商在整個大數據的板塊里,從技術的角度來看是最成熟,規模也是最龐大的。


其實我們剛和電信接觸的時候,他們并不認可單一的產品。他們對大數據安全是有一個整體的頂層設計的,所以如果我們只能解決中間一個環節的問題,他們是沒法給我們立項的——我們必須要一個整體的安全解決思路。那我們就反過來和他們溝通,詢問他們的真實痛點是什么。最后,我們總結出了三個痛點:敏感數據的處理、合法合規、以及集群管理。


安全牛:敏感數據的處理一直都是數據安全領域非常重要的話題,那在大數據安全領域你們是怎么看的?


李科:這一步里細分了很多領域,比如如何梳理敏感數據資產。電信有些寬表有幾千個字段,包含了身份證號、電話、家庭地址等等。電信表示他們知道自己有很多敏感數據,但是如果沒有一個完善的資產表,他們無法知道這些敏感數據在哪。另一方面數據開放才有價值:數據需要在流動中才能產生價值,在這個過程需要跨部門,甚至跨機構,但是需要在流動過程中防止敏感數據泄露。


安全牛:現在你們在這個痛點上有什么樣的解決方案?


李科:我們平臺里有兩個模塊:一個是敏感數據發現,這個就對接了現在的主流大數據平臺,像 HDFS、HBase、Hive 等。我們自己也定義了一個數據分類分級的標準。我們通過和人訪談,比如在電信行業之前有自己內部的一套標準,并且在今年發文正式制定。我們根據這個標準,創建了一個發現敏感數據的引擎,可以掃描數據庫并生成報告,告訴用戶自己的哪些敏感數據在哪個表、哪個字段。


另一個模塊是脫敏,分為兩種:靜態脫敏和動態脫敏。靜態脫敏主要用于存量數據,當要開放給其他第三方分析的時候,在從A庫拖到B庫的過程中,用加星、泛化等方式進行脫敏處理。靜態脫敏一般沒有實效性要求。靜態脫敏已經在我們一期的幾個電信環境都已經落地了。當我們今年在第二期的時候,就遇到了動態脫敏的需求。動態脫敏要求實時處理,這就比靜態脫敏更進了一步。這個時候我們就轉換思路,用 Spark 在中間做了一個轉化層,這個轉化層可以做到只要數據經過,就能實時進行脫敏處理。但事實上,我們發現結果不是特別理想。因為一旦數據量太大,我們這個環節就會成為瓶頸。所以,后來我們又想了一個辦法:我們只截獲傳輸中的 SQL 語句,或者是大數據取得語句,通過改造語句,直接做到在輸出的時候不含敏感字段。


安全牛:感覺這個要求的技術含量很高,因為一個 SQL 指令的處理會面臨的是海量的數據。


李科:對,而且語句當中存在嵌套。我們在這個技術上確實花了很長時間,而且不少廠家已經在這個坑上卡了一年多。


我們實際上也不快,只是我們在電信行業里花了一年多時間去研究這方面的實現方式。這需要同時對業務和大數據整個框架都比較熟悉才能做到。前幾年都在說 NoSQL、NewSQL,但這兩年我們感覺在大場景里都在轉向 AllSQL——這樣才能標準化。現在就有點像 Linux 十年前的環境,沒有標準化。我對大數據行業前兩年的印象就是亂象叢生,但現在我們明顯能看到是在往 AllSQL 的方向走。


安全牛:等保2.0是今年才出的,那你們是之前就發現了合法合規是一個痛點嗎?


李科:是的,因為其實除了等保,之前還有網絡安全法。另一方面,工信部本身就有一套對數據安全和行業監測的標準,這其實是剛需。


安全牛:集群管理這個痛點又是怎么一回事呢?


李科:之前機器只有幾十個,上百個,客戶會需要一個好的管理軟件,去下發補丁、統一管理。但是,現在集群數量太多了,像剛剛提到的有 1,500 個,那如何管理這樣龐大的集群就成了問題。主機層面有其他廠商在處理,我們不會去插手,然而這上千個集群中會有幾十種組件,使用的版本還可能有區別;那么,一旦某個版本出現性能不足、消耗內存過多、需要打補丁、甚至出現了漏洞該怎么辦?我們現在把這個需求稱為 “集群管理”,而且用戶在這方面急需一些有管理能力的工具,而我們的平臺現在也兼具了這樣一部分功能:一旦安裝了我們平臺,那么當前集群的一些參數,比如 CPU 消耗、內存消耗,都可以被收集。我們在平臺上還有一個閾值的調整,對于偏離閾值的情況進行告警;當有新的補丁發布,我們會進行提示。我們目前已經解決了集群管理中的一部分問題。這方面在未來還有很多工作要做。這可以算是泛安全的概念。


觀數的技術優勢


安全牛:這三個痛點是你們現在總結出來的,并且在運營商行業有了一定的成果。那現在你們是準備繼續在運營商領域挖掘,還是計劃擴展行業了?


李科:我們其實除了運營商,還有一個領域是電網。


因為電網除了電力輸送之外,還有一個作用是信息。電網本質上和運營商是一樣的,只不過電網跑的東西是它自身——國家電網是有一套自己的內網進行運行的。這一套系統的需求其實和運營商差不多。所以在電網里,我們的一些大數據審計、漏掃之類的功能也在使用。這兩個行業我們已經摸索了兩年多了,因此相對而言有一些經驗。但是我們現在還沒有做好去擴展新行業的準備。我們這次融資的目標,是將業務擴展到全國的運營商,將我們現在比較成功的模式在全國進行復制。


安全牛:我們知道現在大數據市場已經完全爆發了,各行各業都在建大數據平臺。在這個情勢下,很多安全需求可以很直白地被看出來。那么這些安全需求現在由誰在處理呢?


李科:運營商和電網是我們作為原廠商專門去耕耘的行業,我們并不主要去做其他行業,但是我們有合作伙伴希望我們一起去挖掘——比如深信服。我們剛中標了一個區的雪亮工程,他們使用的大數據集群和超融合一體機都是深信服的,那么里面集成的大數據訪問控制和脫敏就是我們來處理。


安全牛:這么多大數據市場和結構,其實都缺乏有效的安全保護,或者是比較合理的機制。大數據平臺都已經建立起來了,那這些工作是誰在做呢?


李科:有一些廠商也在跟進。大一些的廠商都已經開始涉足這個領域了。和他們相比,我們起步更早,有更多的積累,并且我們只做這一件事。舉個例子,某些廠商做數據庫審計,他們做了很多年,市場也很大,他們現在也在做這方面的審計,但是他們現在而言支持的組件遠比我們少。


我認為做這行是需要時間的,而不是說其他廠商沒有這方面的能力。


安全牛:那你們在運營商和電商兩個領域的經驗,以及總結出來的三個痛點是否是普適的呢?


李科:是。這三個痛點肯定是普適的。這是我們在第一年的項目中總結出來的。但是,我們在第二年的項目當中又發現了一些變化:變得更場景化。然而,場景化的需求不是廠商閉門造車就能搞明白的。我們現在的審計已經做到天天和用戶在一起做分析。最初我們主要做的就是五要素:主體、客體、時間、動作、結果,形成一個記錄。我們會基于記錄進行分析,把數據做成了可視化——這是我們第一期的工作,達成了事后有據可查。而現在我們開始在做事件關聯,就是我所審計的日志,和客戶的業務產生關聯性。另一方面,當我們發現某個字段出現 “update” 和 “delete” 操作,并且這個字段是敏感字段,那我一旦點開這個字段,我能發現這個字段上級屬于哪個列族、哪個庫,并且來自于哪——即血緣分析。這是我們現在主要在往前做的功能。


安全牛:現在大數據市場本身也在變化,比如之前都是 Hadoop,那這種情況是否會影響你們的發展?


李科:在第一年的時候確實存在這個問題,我們都要去做定制開發,所以我們支持的組件范圍就相對比較廣。但是現在 AllSQL 的模式正在影響用戶,所有的功能都在往這個方向轉,所以我們現在的精力也主要往這個方向走。我們的思路是今年在我們的電信產品中,往一個平臺的方向走:無論后臺是用哪種組件,只要接入我們平臺,就用 SQL 的協議進行轉換,從而就能做得更標準化。


大數據安全 Vs. 數據庫安全


安全牛:你認為你們和普通的數據庫安全廠商最大的區別是什么?


李科:其實從根本上來看,我們現在是在一線的、不完善的技術層面進行摸索。大數據解決的是性能問題;我們一直都是以此為前提在做安全。所有人都知道性能和安全是沖突的——而我們和傳統的數據庫安全的區別就在這點上。傳統數據庫在做的時候不需要太多考慮性能方面的問題,因為性能早就已經決定了——他們就是處理實時的、小數據量的內容。但是到了大數據領域,用傳統數據庫也能解決——用一千個防火墻;但是一旦這么處理了,也不用做大數據了,因為效率太低失去了大數據的意義。我們的技術特長和難點,就是我們一定要在兼顧性能的情況下考慮安全。


首先分布式就是有區別的——所有雞蛋并不是放在一個籃子里,我們要解決如何整體去保護的問題。另一點就是不能影響性能。


安全牛:所以很多比較敏感的涉密單位,最后的保護方式就是加密。但是一旦加密,對于使用而言就很麻煩,性能會很低下。那你們大數據會涉及到這方面問題嗎?


李科:這類單位的重點是分類分級。一旦某些信息被分類到一定敏感級別,即使犧牲性能,也必須要進行加密;未到達敏感級別就不能加密。因此,分類分級反而是這類單位大數據的最關鍵點。據我所知,現在有多個運營商都在要求大數據加密的組件,我們也為他們提供了一些 demo。但是要做到這件事情,首先要能梳理好企業自身的數據資產,否則全部數據都加密,大數據也就不用落地了。


觀數的未來發展


安全牛:剛剛聊了很多技術方面的內容,那在市場前景、企業文化等方面,你是怎么看的呢?本次新融資的投資方是誰,這輪融資的主要規劃是什么?


李科:市場前景的話,就像我之前提到的,大數據已經在開始往標準化的方向走了;對于我們而言,現在就是立足這兩個行業,以我們自己的能力去深挖。在這兩個行業里,我們需要做的就是把我們標準化的產品打磨出來。我們剛進入行業的時候都是接項目。盡管我們都是帶著我們自己的產品和客戶溝通,但是客戶都覺得我們的產品和他們的實際需求差距有點大,所以就需要進行定制。結果就是前幾個項目我們都是定制,再加上我們原來產品,進行了大量的開發工作。在這個過程中,我們發現,可以把一些做得很好、很標準的功能單獨提取出來做成產品——這些產品是不需要我們將來去做服務的,就像防火墻以及審計類產品一樣。我們今年的目標就是做出兩款標準化產品。這些標準化產品的意義在于我們以后就有能力和大廠商合作,作為原廠商輸出產品,給一些深信服、綠盟、奇安信等大公司員工進行培訓,讓他們提供服務,甚至可以將大量的利潤讓給這些公司。只有這樣通過渠道,像我們這樣以技術,而非銷售為導向的公司,才能提升產品的銷售量。這是我們現在最重要的事情。


我們本次投資方是瀚暉資本,是一家關注高成長性的投資機構,此前成功投資過歐派家居 (603833)、科順股份 (300373)。本次融資主要規劃是建立銷售 體系和技術支撐隊伍,提升服務質量和能力,進一步擴大市場。


我來說幾句

不吐不快,我來說兩句
最新評論

還沒有人評論哦,搶沙發吧~