近期,工業和信息化部等八部門聯合印發《物聯網新型基礎設施建設三年行動計劃(2021—2023年)》,明確到2023年底,在國內主要城市初步建成物聯網新型基礎設施,物聯網連接數突破20億。這一數字背后,意味著更加龐大的數據規模。在物流領域同樣如此,隨著行業的發展,無論車聯網規模還是不同規模物流中心內智能設備的接入量都在大幅增加。面對隨之而來的具有時效性強、實時數據量大等特點的海量數據,如何實現高效的數據存儲和處理至關重要。
基(ji)于此,各種(zhong)涵蓋(gai)數(shu)(shu)據(ju)采集、存儲、查詢、分析和計(ji)算等功能的(de)(de)物聯網(wang)數(shu)(shu)據(ju)平臺開(kai)(kai)始不(bu)斷涌現,北京(jing)濤思數(shu)(shu)據(ju)科技有限公司(以(yi)下(xia)簡稱“濤思數(shu)(shu)據(ju)”)便是(shi)其(qi)中之(zhi)一。但是(shi),不(bu)走尋常路(lu)的(de)(de)濤思數(shu)(shu)據(ju),不(bu)僅摒棄(qi)傳統(tong)基(ji)于Hadoop生態的(de)(de)搭(da)建方式(shi),推出專(zhuan)為(wei)(wei)時(shi)序空間(jian)大(da)(da)數(shu)(shu)據(ju)設計(ji)的(de)(de)時(shi)序數(shu)(shu)據(ju)庫平臺,更是(shi)以(yi)開(kai)(kai)源的(de)(de)方式(shi),突破(po)行業(ye)傳統(tong)思維,開(kai)(kai)創了一條大(da)(da)膽創新探索之(zhi)路(lu),成為(wei)(wei)時(shi)序數(shu)(shu)據(ju)領(ling)域(yu)炙(zhi)手可(ke)熱的(de)(de)標桿企業(ye)。
活力四射的濤(tao)思數據團(tuan)隊
與濤思(si)數(shu)據創(chuang)始(shi)人(ren)陶建輝的(de)初(chu)次會(hui)面,剛好在一場(chang)大雪(xue)(xue)之后。突然(ran)(ran)而(er)至的(de)大雪(xue)(xue)一夜之間便褪(tun)去了(le)北京絢麗多彩的(de)秋色(se),但(dan)雪(xue)(xue)后碧藍的(de)天空,光禿的(de)樹枝(zhi),與濤思(si)數(shu)據所在的(de)望京CBD設計別致的(de)建筑群(qun)相互映襯著,倒也具(ju)有別樣的(de)美。大自然(ran)(ran)總是充滿神秘(mi)莫測的(de)變(bian)化,而(er)對于軟(ruan)件行業出身的(de)陶建輝來(lai)說,最熟(shu)悉的(de)卻莫過(guo)于變(bian)化。軟(ruan)件行業可以(yi)說是技(ji)術更(geng)新換代速度最快的(de)行業之一,就拿App來(lai)說,其平均壽命大概只有10個月。想做一款“長命”的(de)基礎性軟(ruan)件產品(pin)的(de)念(nian)頭,很久(jiu)之前就開始(shi)在陶建輝的(de)腦中萌生。最終,兩(liang)方面的(de)原因堅(jian)定了(le)他(ta)的(de)信念(nian)。
一是蓬勃的市場需求。隨著互聯網的發展,特別是通訊成本的急劇下降,各式各樣的數據被采集并發送到云端,數據量呈現爆炸式地增長。“10年前,你很難想象,幾乎每輛車、每臺設備都在源源不斷地產生數據;現在,這一切都在發生;未來,這一趨勢還將加速。工業領域在傳統的實時監控技術上,各種大數據分析技術、特別是人工智能技術,讓采集的大數據產生了巨大的商業價值,催生了一個前所未有的市場。”他表示。
二是技術的(de)(de)相(xiang)對(dui)落(luo)后。他進(jin)一(yi)步分(fen)享道:“相(xiang)對(dui)于數(shu)據(ju)量(liang)(liang)的(de)(de)快速增長,數(shu)據(ju)處理的(de)(de)技術卻相(xiang)對(dui)落(luo)后。雖然(ran)市(shi)場上已經(jing)有從(cong)存(cun)儲、計算到分(fen)析較為完整的(de)(de)大(da)(da)數(shu)據(ju)處理框架,包括各種免費開(kai)源(yuan)系(xi)統,但需要耗費大(da)(da)量(liang)(liang)的(de)(de)存(cun)儲空(kong)間和計算資源(yuan)。一(yi)個運營商(shang)光存(cun)儲查(cha)詢半年的(de)(de)上網記(ji)錄就需要使(shi)用數(shu)千(qian)臺服務器,而且還需要不斷(duan)擴容(rong)。因此海量(liang)(liang)數(shu)據(ju)的(de)(de)增長對(dui)技術提出了更大(da)(da)的(de)(de)挑(tiao)戰,也給(gei)我們這些技術極客們提供了一(yi)個巨大(da)(da)的(de)(de)機(ji)會。”
如何彌補現有技術的缺陷,充分滿足龐大的市場需求,成為陶建輝接下來要考慮的重點。在對整個物聯網和大數據生態進行研究后,他發現,通用大數據方案通常會將開源的Kafka、Redis、HBase、MongoDB、Cassandra等大數據軟件拼裝起來,利用集群來處理海量數據。因涉及多種系統,開發效率低、運行效率差、運維復雜、應用推向市場慢等問題頻發。對于數據采集量巨大的物聯網、工業互聯網等行業,傳統的通用大數據方案更加難以為繼。而通過存儲結構的優化則可以大大提升性能。海量時序空間數據處理(從采集、存儲、查詢、計算到分析)無疑是個巨大的機會。正是在此背景之下,2017年6月濤思數據正式成立,隨后,物聯網大數據平臺TDengine應運而生。
“作為一款基礎性軟件,TDengine就(jiu)好(hao)比一塊小(xiao)小(xiao)的磚頭,無論(lun)整(zheng)個軟件世界如(ru)何變化,迭(die)代,若干(gan)年后它依(yi)然可以(yi)發揮價值,如(ru)此(ci)我便很知足了(le)。”陶建輝笑著補充道。盡管濤思數據成立(li)已經4年多了(le),但在(zai)回(hui)憶公(gong)司創(chuang)立(li)過程時,他的臉(lian)上依(yi)然滿是(shi)似乎(hu)創(chuang)業(ye)者(zhe)初(chu)期才有的激情與昂(ang)揚。
濤思數據自 2017 年成立以來獲獎無(wu)數
TDengine定(ding)位(wei)是(shi)物聯(lian)網(wang)大數(shu)據(ju)(ju)平臺(tai),即(ji)時序(xu)數(shu)據(ju)(ju)處(chu)理平臺(tai),其核心(xin)是(shi)將(jiang)時序(xu)數(shu)據(ju)(ju)實時數(shu)據(ju)(ju)和(he)歷史數(shu)據(ju)(ju)操作合一透明,同時具備緩(huan)存、數(shu)據(ju)(ju)訂閱、流式計算、消息(xi)隊(dui)列等功(gong)能,為(wei)物聯(lian)網(wang)數(shu)據(ju)(ju)處(chu)理提供(gong)全(quan)棧解決方案(an)。
TDengine 時序數據處理(li)平臺
所謂(wei)時序數據(ju),即帶時間(jian)標簽的數據(ju),指(zhi)按照時間(jian)的順(shun)序變化、時間(jian)序列(lie)化的數據(ju)。陶(tao)建輝通過對物(wu)聯(lian)網、工(gong)業互聯(lian)網數據(ju)進行調(diao)研,總結出這類(lei)數據(ju)的十大特征:
(1)所有采集的(de)數據(ju)都是時(shi)序的(de);
(2)數(shu)據都是結構(gou)化的;
(3)一(yi)個采集點的數據源(yuan)是唯一(yi)的;
(4)數據很少有更新或刪(shan)除(chu)操作;
(5)數據一般是按到期(qi)日期(qi)來刪除的(de);
(6)數(shu)據以寫操作為主(zhu),讀操作為輔;
(7)數據流量(liang)平穩,可以(yi)較為準確的計算;
(8)數據(ju)都有(you)統計、聚合等實時計算操作;
(9)數據一定(ding)(ding)是指(zhi)定(ding)(ding)時間段和指(zhi)定(ding)(ding)區(qu)域查找的;
(10)數(shu)據量巨大(da),一天的數(shu)據量就超(chao)過(guo)100億條。
針對這些特點,TDengine定義(yi)了(le)創新的時序數(shu)據存儲結構,通過無鎖(suo)設計和多(duo)核(he)技術讓數(shu)據插入和讀出(chu)的速度比現有(you)通用數(shu)據庫高出(chu)10倍(bei)以(yi)上(shang)。除此之外,濤思數(shu)據還(huan)賦予(yu)了(le)TDengine兩個核(he)心技術創新點,分別(bie)是“一個數(shu)據采集點一張表”以(yi)及(ji)“超級表”,保證TDengine插入和查詢效率(lv)最優化,同時便于進行(xing)聚合(he)查詢、多(duo)維分析。
除了在(zai)產(chan)品性(xing)能、性(xing)價比上(shang)不斷提升,TDengine能夠形(xing)成(cheng)更加廣泛(fan)的(de)(de)影響,還(huan)在(zai)于陶建輝一個(ge)大(da)(da)膽的(de)(de)決定——開(kai)源。這一舉動在(zai)國外軟件市(shi)場尚不足為奇,但在(zai)相對(dui)保守(shou)的(de)(de)國內市(shi)場來(lai)說,無疑(yi)反響強烈。TDengine自2019年(nian)7月正(zheng)式宣布(bu)開(kai)源,2020年(nian)8月,宣布(bu)將集群版本開(kai)源以來(lai),所獲成(cheng)績喜人,在(zai)開(kai)源社區GitHub(世界上(shang)最大(da)(da)的(de)(de)代碼托(tuo)管平(ping)臺)已(yi)收獲17k Stars。在(zai)資本市(shi)場,濤思數(shu)據也備受(shou)關(guan)注,近兩年(nian)已(yi)經(jing)先后獲得近千萬(wan)(wan)美(mei)元(yuan)的(de)(de)Pre-A輪融資、1000多萬(wan)(wan)美(mei)元(yuan)的(de)(de)A輪融資以及4700萬(wan)(wan)美(mei)元(yuan)的(de)(de)B輪融資。
在(zai)陶建輝看來,開源是(shi)中國(guo)(guo)軟件(jian)(jian)(jian)走向世界的(de)(de)(de)(de)(de)最(zui)好捷徑(jing)。在(zai)目前的(de)(de)(de)(de)(de)這(zhe)些(xie)成績之外,陶建輝內心(xin)(xin)始終(zhong)有一(yi)個(ge)堅定的(de)(de)(de)(de)(de)目標(biao)——做(zuo)時(shi)序數(shu)據(ju)領(ling)域的(de)(de)(de)(de)(de)全(quan)(quan)球第一(yi)。“在(zai)基(ji)礎軟件(jian)(jian)(jian)領(ling)域,無論(lun)操作(zuo)系統、數(shu)據(ju)庫、軟件(jian)(jian)(jian)開發工具還是(shi)現在(zai)的(de)(de)(de)(de)(de)大數(shu)據(ju)處理平臺,幾乎(hu)都是(shi)美國(guo)(guo)公(gong)司(si)的(de)(de)(de)(de)(de)天下。在(zai)基(ji)礎軟件(jian)(jian)(jian)領(ling)域占有一(yi)席之地,是(shi)我們(men)所(suo)有IT人的(de)(de)(de)(de)(de)夢想(xiang),更是(shi)一(yi)個(ge)國(guo)(guo)家科技實(shi)力的(de)(de)(de)(de)(de)象(xiang)征。”談及(ji)中國(guo)(guo)軟件(jian)(jian)(jian)的(de)(de)(de)(de)(de)現狀他略顯遺憾,但是(shi)隨即恢復了對(dui)于未來發展(zhan)的(de)(de)(de)(de)(de)信心(xin)(xin),“中國(guo)(guo)擁有全(quan)(quan)球最(zui)大的(de)(de)(de)(de)(de)數(shu)據(ju)市場,其采集(ji)的(de)(de)(de)(de)(de)數(shu)據(ju)量和場景之多已經(jing)超過美國(guo)(guo)。在(zai)中國(guo)(guo)市場成功的(de)(de)(de)(de)(de)大數(shu)據(ju)產(chan)品,一(yi)定會(hui)被全(quan)(quan)球市場所(suo)接(jie)納。”
開源不僅為濤思數據帶來了巨大的(de)成功,為行業做出了很好的(de)表(biao)率;對于(yu)中國軟(ruan)件人才(cai)的(de)培養來說(shuo),也具有非(fei)常積極的(de)意義(yi)。
陶建輝表示,高校學(xue)(xue)(xue)(xue)(xue)生往往在(zai)跟(gen)導師做(zuo)項目時(shi)才能夠(gou)接觸到(dao)(dao)源(yuan)代(dai)碼(ma),而各類開(kai)放平(ping)臺上的(de)(de)(de)開(kai)源(yuan)軟件也非(fei)常有限(xian),但(dan)是隨著TDengine的(de)(de)(de)開(kai)源(yuan),學(xue)(xue)(xue)(xue)(xue)生可以免費(fei)接觸到(dao)(dao)無(wu)數源(yuan)代(dai)碼(ma),這無(wu)疑是最好的(de)(de)(de)學(xue)(xue)(xue)(xue)(xue)習機會和資源(yuan),會對中(zhong)國(guo)(guo)軟件整體水(shui)平(ping)的(de)(de)(de)提高起到(dao)(dao)積(ji)極的(de)(de)(de)促進(jin)作用(yong)。為了促進(jin)大(da)學(xue)(xue)(xue)(xue)(xue)生對開(kai)源(yuan)的(de)(de)(de)認識和理(li)解,陶建輝先后在(zai)清華大(da)學(xue)(xue)(xue)(xue)(xue)、復旦大(da)學(xue)(xue)(xue)(xue)(xue)、重慶大(da)學(xue)(xue)(xue)(xue)(xue)、西(xi)南大(da)學(xue)(xue)(xue)(xue)(xue)、北京大(da)學(xue)(xue)(xue)(xue)(xue)、中(zhong)國(guo)(guo)人民大(da)學(xue)(xue)(xue)(xue)(xue)、北京郵電大(da)學(xue)(xue)(xue)(xue)(xue)和中(zhong)國(guo)(guo)科學(xue)(xue)(xue)(xue)(xue)技術(shu)大(da)學(xue)(xue)(xue)(xue)(xue)等20多個高校,分享(xiang) TDengine的(de)(de)(de)核心技術(shu),開(kai)源(yuan)背后的(de)(de)(de)思考,鼓勵大(da)學(xue)(xue)(xue)(xue)(xue)生積(ji)極參(can)與到(dao)(dao)開(kai)源(yuan)建設中(zhong)來。
值(zhi)(zhi)得一(yi)提(ti)的是(shi),對于(yu)程序(xu)員來說,他們往往是(shi)默默地改變著大家生活(huo)的一(yi)群人(ren),隨著軟件的開源(yuan),他們從產品背(bei)后開始走出來,和(he)更廣泛的人(ren)群有(you)(you)了交流和(he)互動,在相互促進(jin)之(zhi)下,不僅可以進(jin)一(yi)步提(ti)升(sheng)專(zhuan)業能力(li),用(yong)代碼打(da)造屬于(yu)自己(ji)的“名片”,同樣也有(you)(you)利于(yu)行業整體水(shui)平的提(ti)高(gao)。這些在陶建輝眼中,都是(shi)比(bi)企業成功更加有(you)(you)意義、有(you)(you)價值(zhi)(zhi)的事情。
時序(xu)數(shu)據的(de)處(chu)理,是一(yi)切數(shu)字化、智(zhi)能化的(de)基礎。在TDengine廣泛(fan)的(de)服務領(ling)域中,物流是非(fei)常重要的(de)部分(fen)。并且隨著物流行業的(de)快速發展、自(zi)動駕駛等技(ji)術(shu)的(de)升級和愈加廣泛(fan)的(de)應用,對(dui)時序(xu)數(shu)據處(chu)理的(de)需求(qiu)也在不斷擴大。
“在(zai)(zai)物(wu)流(liu)領域(yu)最典(dian)型(xing)的(de)(de)(de)(de)(de)應用(yong)(yong)如(ru)物(wu)流(liu)車輛的(de)(de)(de)(de)(de)實時位置和運行軌跡數(shu)(shu)據(ju)(ju),以(yi)及(ji)物(wu)流(liu)機(ji)器人、穿(chuan)梭車等(deng)(deng)(deng)移動裝備的(de)(de)(de)(de)(de)位置、電池(chi)狀態,以(yi)及(ji)路(lu)徑規(gui)劃(hua)、環境監測、軌跡追(zhui)蹤等(deng)(deng)(deng)等(deng)(deng)(deng)數(shu)(shu)據(ju)(ju),通過TDengine,我們可(ke)以(yi)實現(xian)用(yong)(yong)更(geng)小的(de)(de)(de)(de)(de)空間(jian)存儲更(geng)加海量(liang)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju),同時在(zai)(zai)最短的(de)(de)(de)(de)(de)時間(jian),將用(yong)(yong)戶需(xu)要(yao)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)進行調用(yong)(yong),以(yi)及(ji)分析計算等(deng)(deng)(deng),為(wei)其他更(geng)多功(gong)能的(de)(de)(de)(de)(de)實現(xian)提供支(zhi)撐。”他針對TDengine在(zai)(zai)物(wu)流(liu)領域(yu)的(de)(de)(de)(de)(de)應用(yong)(yong)進行了說明,并進一步舉例(li),國內某(mou)快遞巨頭旗(qi)下互聯(lian)網科技(ji)公司,由于其原來采用(yong)(yong)的(de)(de)(de)(de)(de)時序數(shu)(shu)據(ju)(ju)庫OpenTSDB性(xing)能較(jiao)差、占用(yong)(yong)存儲空間(jian)多、對大跨度(du)高(gao)頻詞的(de)(de)(de)(de)(de)查(cha)詢支(zhi)持(chi)不夠(gou)等(deng)(deng)(deng)原因,將目光轉向了TDengine,在(zai)(zai)將大數(shu)(shu)據(ju)(ju)監控平臺遷(qian)移到TDengine之(zhi)(zhi)后(hou),其所(suo)需(xu)服務器從之(zhi)(zhi)前的(de)(de)(de)(de)(de)21臺減少到3臺。此外(wai),TDengine在(zai)(zai)部署、寫入(ru)速度(du)、查(cha)詢速度(du)、存儲效率(lv)、緩存、流(liu)式計算等(deng)(deng)(deng)方面均凸顯(xian)出明顯(xian)的(de)(de)(de)(de)(de)優勢。此外(wai),如(ru)在(zai)(zai)煙草等(deng)(deng)(deng)行業(ye)(ye),隨著企業(ye)(ye)業(ye)(ye)務的(de)(de)(de)(de)(de)發展(zhan),生產中需(xu)要(yao)監測的(de)(de)(de)(de)(de)指(zhi)標從幾萬個增加到幾十萬甚至百(bai)萬個以(yi)上(shang),TDengine的(de)(de)(de)(de)(de)應用(yong)(yong)有(you)利于企業(ye)(ye)提升(sheng)(sheng)數(shu)(shu)據(ju)(ju)存取效率(lv)、打破傳統數(shu)(shu)據(ju)(ju)孤(gu)島、提升(sheng)(sheng)數(shu)(shu)據(ju)(ju)有(you)效利用(yong)(yong)率(lv)。
“技術是(shi)濤(tao)思數(shu)據(ju)的(de)(de)(de)(de)立身(shen)之本,通(tong)過(guo)技術創新潛心研(yan)發(fa)極(ji)(ji)致的(de)(de)(de)(de)產(chan)品,讓技術創造(zao)價值是(shi)我們努力(li)的(de)(de)(de)(de)方向。”在(zai)整(zheng)個(ge)交流(liu)過(guo)程中,從他(ta)不時(shi)爽朗的(de)(de)(de)(de)笑(xiao)聲中,聽得(de)出他(ta)對(dui)濤(tao)思數(shu)據(ju)未來發(fa)展的(de)(de)(de)(de)極(ji)(ji)大(da)信心;從他(ta)始終富有激情且面帶(dai)微笑(xiao)的(de)(de)(de)(de)臉上,也看得(de)出他(ta)對(dui)手(shou)中事業的(de)(de)(de)(de)熱愛。“一般來說(shuo),程序員的(de)(de)(de)(de)黃金年齡是(shi)25~35歲,像我這(zhe)樣50歲還在(zai)寫代(dai)碼的(de)(de)(de)(de)程序員已經是(shi)稀(xi)有動物了。”陶建輝自嘲到,“但是(shi),我還會繼續寫,寫一輩子。”陶建輝站在(zai)大(da)大(da)的(de)(de)(de)(de)落地窗(chuang)前(qian),窗(chuang)外視野開(kai)闊,陽光正好。