近日,北京聚云位智信息科技有限公司全球首發(fā)了新版本數(shù)據(jù)庫產(chǎn)品Linkoop DB,該產(chǎn)品面向大數(shù)據(jù)和人工智能,采用自主研發(fā)技術(shù)突破了一系列限制,在兼容傳統(tǒng)數(shù)據(jù)庫功能的前提下,為人工智能應(yīng)用提供了更簡便的支撐和更強(qiáng)大的計算。
聚云將這款數(shù)據(jù)庫產(chǎn)品命名為“決策型數(shù)據(jù)庫系統(tǒng)”,該數(shù)據(jù)庫系統(tǒng)具備如下特點:
1.自主研發(fā)。聚云未使用MYSQL或者PostgreSQL等現(xiàn)存數(shù)據(jù)庫內(nèi)核,完全參照基礎(chǔ)數(shù)據(jù)庫理論和大量行業(yè)積累而設(shè)計實現(xiàn),因而從根本上避免了“外國人設(shè)計、中國人實現(xiàn)”做法帶來的深層次存儲與計算能力的限制。
2. Linkoop DB采用MPP理念設(shè)計,可以做到無上限線性擴(kuò)展。Linkoop DB是分析型數(shù)據(jù)庫系統(tǒng)的演進(jìn)結(jié)果 ,屬于關(guān)系型數(shù)據(jù)庫。
3. Linkoop DB充分考慮了復(fù)雜的、迭代類AI計算與流計算的支持。并由此目標(biāo)出發(fā),重新設(shè)計實現(xiàn)了數(shù)據(jù)庫內(nèi)核中的存儲引擎、計算引擎和優(yōu)化策略。
數(shù)據(jù)庫技術(shù)的發(fā)展歷史大體分成兩條主線,事務(wù)型數(shù)據(jù)庫系統(tǒng)(Transactional Database)和分析型數(shù)據(jù)庫系統(tǒng)(Analytical Database)。 事務(wù)型數(shù)據(jù)庫系統(tǒng)是OLTP(on-line transaction processing)業(yè)務(wù)系統(tǒng)的核心支撐軟件,主要針對日常交易的增刪改查。事務(wù)型數(shù)據(jù)庫系統(tǒng)的主要供應(yīng)商是Oracle和IBM。分析型數(shù)據(jù)庫系統(tǒng)是OLAP(On-Line Analytical Processing)業(yè)務(wù)系統(tǒng)的核心支撐軟件,主要針對數(shù)據(jù)統(tǒng)計、分析和決策支持,是企業(yè)數(shù)據(jù)倉庫(EDW,Enterprise Data Warehouse)的核心構(gòu)成軟件。分析型數(shù)據(jù)庫系統(tǒng)的主要供應(yīng)商是Teradata,Oracle和IBM,以及其他一些規(guī)模中小的數(shù)據(jù)庫系統(tǒng)。
然而,隨著業(yè)務(wù)需求在擴(kuò)展性、實時性和決策性等方面的快速發(fā)展,以傳統(tǒng)分析型數(shù)據(jù)庫為核心的決策支持系統(tǒng)已經(jīng)不能滿足當(dāng)前和未來的發(fā)展需要。因此,一個滿足當(dāng)下和未來數(shù)據(jù)處理需求的新型數(shù)據(jù)庫系統(tǒng),就成為了解決問題的關(guān)鍵。即,如何緊緊圍繞海量數(shù)據(jù)處理、性能優(yōu)化、實時處理和人工智能場景等方面的大數(shù)據(jù)核心需求的解決,是評判一家大數(shù)據(jù)公司是否在正確方向發(fā)展的合理準(zhǔn)則。
聚云在今年4月份獲得Pre-A融資后,在既有技術(shù)基礎(chǔ)上補(bǔ)充了一大批核心技術(shù)人員,并繼續(xù)突破傳統(tǒng)數(shù)據(jù)庫技術(shù),引領(lǐng)處理技術(shù)的迭代演進(jìn)。
海量數(shù)據(jù)處理不僅需要解決數(shù)據(jù)存儲的問題,更重要的是解決數(shù)據(jù)訪問的問題,也就是說讓計算模塊能夠用最快的方式拿到數(shù)據(jù)輸入。因此數(shù)據(jù)的更新、插入、過濾和索引至少是和存儲擴(kuò)展性一樣重要的能力?;陂_源Hadoop體系演進(jìn)而來的SQL-on-Hadoop系統(tǒng)很多碰到了這方面的技術(shù)瓶頸。解決的辦法是需要全新的、可擴(kuò)展的存儲引擎,這是考驗相關(guān)公司技術(shù)能力的重要指標(biāo)。
性能優(yōu)化是試圖找到最理想任務(wù)執(zhí)行策略的技術(shù),不同的執(zhí)行策略消耗的資源可能有巨大差別。優(yōu)化器的設(shè)計與實現(xiàn)一直是數(shù)據(jù)庫領(lǐng)域的核心技術(shù),在當(dāng)前大數(shù)據(jù)時代也是如此。由大數(shù)據(jù)和人工智能帶來的巨大需求發(fā)展同時也對優(yōu)化器的發(fā)展提出了更高要求。解決的思路是以準(zhǔn)確的方式刻畫多種不同任務(wù)類型(批處理、流處理和機(jī)器學(xué)習(xí)等)的執(zhí)行代價,從而選擇代價最優(yōu)的方案執(zhí)行任務(wù)。
實時數(shù)據(jù)處理是需求發(fā)展的必然要求,它主要解決兩個場景:一是避免數(shù)據(jù)采集端形成數(shù)據(jù)積壓;二是解決實時得到計算響應(yīng)的業(yè)務(wù)需求。現(xiàn)實應(yīng)用場景中實時和批量經(jīng)常是相互關(guān)聯(lián)的,因此需要統(tǒng)一的操作方式來避免以多平臺的方式管理數(shù)據(jù)和計算邏輯。
人工智能是場景化的應(yīng)用,當(dāng)前主要難度在于問題的理解、尋找問題的合適刻畫方式以及試探性的調(diào)整算法以及參數(shù)的過程耗時耗力。多數(shù)人工智能公司依靠領(lǐng)域?qū)<液蛿?shù)據(jù)專家配合的方式來解決問題,然而,領(lǐng)域?qū)<液蛿?shù)據(jù)專家都是稀缺資源,也難于培養(yǎng),從而導(dǎo)致人工智能成為了貴族應(yīng)用,不好落地。解決的辦法是自動化,包括特征選擇、模型選擇、模型訓(xùn)練、模型評估以及模型發(fā)布的局部自動化和整體自動化。如此才能降低AI的落地門檻,成為大面積可落地的生產(chǎn)力。
聚云決策型數(shù)據(jù)庫Linkoop DB采用自研存儲系統(tǒng)完成海量數(shù)據(jù)的線性擴(kuò)展存儲,并同時保持高性能的數(shù)據(jù)存取。在性能優(yōu)化方面,聚云擁有獨(dú)創(chuàng)的“增量式查詢優(yōu)化技術(shù)”,保障海量數(shù)據(jù)計算的最佳性能。在算法模型方面,聚云自研了多因素關(guān)聯(lián)、多目標(biāo)優(yōu)化和多系統(tǒng)協(xié)同等場景化的人工智能模型,采用突破性技術(shù)使特征選擇和模型評估自動化,并采用SQL統(tǒng)一驅(qū)動的方式,讓業(yè)務(wù)決策與數(shù)據(jù)訪問無縫結(jié)合。聚云還深度改造了開源實時計算框架使之與SQL、規(guī)則、人工智能模型高度融合,從而在擴(kuò)大解決問題領(lǐng)域的同時顯著提高了系統(tǒng)計算能力。截至目前,聚云Linkoop DB已經(jīng)在金融、電信、制造、教育等領(lǐng)域得到了廣泛應(yīng)用與驗證。