技術特點如下:
1、結構化&非結構化統(tǒng)一處理
2、數(shù)據(jù)采集清洗同步
3、分布式內存處理
4、多種數(shù)據(jù)災備方式
5、高并發(fā)、大吞吐、高可靠
6、數(shù)據(jù)實時處理不落地
7、100%兼容現(xiàn)有Hadoop環(huán)境和傳統(tǒng)數(shù)據(jù)庫環(huán)境
核心功能如下:
1、語義模型管理
語義模型管理的目標是,盡量降低成熟語義模型開發(fā)工作量,降低模型開發(fā)過程中的交易成本,平滑學習曲線。助推語義能力開發(fā)技術的推廣。
其中,模型從需求采集、語料搜集、標簽/標注、模型網絡搭建設計、模型訓練、驗證、發(fā)布可形成一個流水線管理模式。
(1)樣本管理
樣本管理負責采集、維護、管理領域類標簽、標注完成的樣本集。提供按標簽體系,按項目,按場景等多維管理功能。
。2)模型管理
模型訓練管理負責承載既有算法模板管理復用,算法模型參數(shù)調優(yōu),多算法模型對比等功能。同時承擔模型存檔、維護等功能。
(3)模型指標驗證
驗證、測試管理承擔各類模型有效性驗證,各參數(shù)指標測試等功能,同時提供模擬各落地場景測試環(huán)境的能力。提供功能性測試和非功能性測試環(huán)境管理。
2、數(shù)據(jù)匯聚與流式處理
平臺利用Dataexchange數(shù)據(jù)流水線的方式對數(shù)據(jù)進行實時及批量抽取數(shù)據(jù)、清洗、轉換、過濾等流式處理,支持文件、數(shù)據(jù)庫、數(shù)倉、網絡、日志、大數(shù)據(jù)平臺等幾乎所有數(shù)據(jù)源及數(shù)據(jù)格式。
(1)操作簡便:
一鍵部署,開箱即用,無需專業(yè)技術背景,簡單易學,普通業(yè)務人員即可操作,降低使用及維護成本。
。2)多種數(shù)據(jù)采集適配接口:
Oracle、SQLServer、MySQL、DB2、PostgreSQL數(shù)據(jù)庫適配器;Oracle日志采集適配器;Hadoop/HDFS/HBase/Kafka/Spark、MongoDB、Redis、TCP/UDP等多種采集適配器。
。3)更好的兼容性,開發(fā)門檻低:
100%兼容現(xiàn)有Hadoop環(huán)境和傳統(tǒng)數(shù)據(jù)庫環(huán)境,無需用戶在流計算框架上進行編程開發(fā)工作,提供了SQL語義的流數(shù)據(jù)分析功能,降低了使用門檻。
高并發(fā)、大吞吐、高可靠
數(shù)據(jù)傳輸可按照優(yōu)先級任務調度、支持定時批量、實時批量數(shù)據(jù)傳輸,具有大吞吐、高并發(fā)、集群化、高可靠等特點。
。4)數(shù)據(jù)實時處理不落地:
數(shù)據(jù)處理過程不落地,降低存儲開銷數(shù)據(jù)實時計算,實時處理。
3、數(shù)據(jù)匯聚與流式處理
可完成所有的數(shù)據(jù)采集、傳輸、復制、預處理、融合和內存計算功能;采集來自各種數(shù)據(jù)庫、消息系統(tǒng)、網站、移動設備、物聯(lián)網等數(shù)據(jù);內置計算平臺對采集的數(shù)據(jù)進行實時清洗和計算分析;分析后的數(shù)據(jù)結果可實時呈現(xiàn)在用戶分析中心。
4、數(shù)據(jù)對象分析
針對對象、屬性和方法利用關系流對其中的關聯(lián)關系進行配置。對象做為屬性與方法的載體,屬性與方法進行關聯(lián),同時繼承面向對象的思想,屬性也可以關聯(lián)其他對象,通過關系流配置映射業(yè)務場景,可以根據(jù)不同的業(yè)務場景,定義不同的分析對象。
。1)對象管理
對象管理是以抽象的概念來支持業(yè)務的定義,以庫的形式來進行承載,每一個對象都是一個業(yè)務的轉化,將業(yè)務以對象的概念進行抽象的實現(xiàn);同時對象也是屬性與方法的載體,以對象實體表的身份存在。
(2)屬性管理
屬性以獨立的形式存在,可以通過配置與對象和方法進行組合,屬性代表業(yè)務場景的一個元數(shù)據(jù),屬性通過關聯(lián)方法提取的內容做為元數(shù)組的值。
(3)方法管理
方法實際指的就是提取數(shù)據(jù)的功能實現(xiàn),以庫的形式存在,包含算法和功能方法兩部分,算法目前是指面向NLP領域的算法,方法主要是數(shù)據(jù)查詢、處理功能的方法;方法可以獨立使用也可以與對象、屬性進行關聯(lián)。