SkyNet:字节跳动泛客诉问题挖掘与风险监控中台实践
背景
隨著互聯(lián)網(wǎng)和智能手機(jī)的普及,人們的生活大多時(shí)候都離不開(kāi)移動(dòng) App,在信息量與日俱增的大數(shù)據(jù)時(shí)代,用戶反饋數(shù)據(jù)可以幫助發(fā)現(xiàn)熱點(diǎn)問(wèn)題、避免安全問(wèn)題、優(yōu)化產(chǎn)品體驗(yàn)、提升產(chǎn)品質(zhì)量等。
簡(jiǎn)介
SkyNet 天網(wǎng)平臺(tái)專門(mén)聚焦于泛客訴問(wèn)題數(shù)據(jù),包括 App 端內(nèi)離線反饋、IM(Instant Messaging,即時(shí)通訊)反饋、電話熱線反饋、舉報(bào)反饋、各大應(yīng)用市場(chǎng)評(píng)論、App 端內(nèi)實(shí)時(shí)評(píng)論、內(nèi)部運(yùn)營(yíng)工單等數(shù)據(jù),挖掘其中的價(jià)值,為各方業(yè)務(wù)帶來(lái)收益。
SkyNet 天網(wǎng)平臺(tái)由互娛研發(fā)客服平臺(tái)團(tuán)隊(duì)和研發(fā)效能團(tuán)隊(duì)聯(lián)合出品。
平臺(tái)介紹
功能模塊
SkyNet 天網(wǎng)平臺(tái)的能力主要包括智能監(jiān)控預(yù)警、異常熱點(diǎn)挖掘、分析看板定制、VoC(Voice of Customer,用戶原聲)展示。
監(jiān)控預(yù)警:對(duì)于已知場(chǎng)景,采用 NLP 打標(biāo)或關(guān)鍵詞匹配配置監(jiān)控告警,基于時(shí)序監(jiān)控算法實(shí)現(xiàn)智能閾值和智能告警,可以有效避免因?yàn)楣潭ㄩ撝祹?lái)的召回率和準(zhǔn)確率不高的問(wèn)題。
異常挖掘:對(duì)于未知場(chǎng)景,采用熱點(diǎn)聚類、多渠道聚合、情感分析、風(fēng)險(xiǎn)詞挖掘及命名體識(shí)別等算法,實(shí)現(xiàn)高頻高熱和低頻低熱的未知問(wèn)題智能挖掘和監(jiān)控。
看板定制:對(duì)于一段時(shí)期內(nèi)的數(shù)據(jù),生成數(shù)據(jù)圖表看板,提供日常的可視化分析能力,包括指標(biāo)分析,文本分析,實(shí)驗(yàn)分析等。
VoC 展示:瞄準(zhǔn)反饋數(shù)據(jù)原文內(nèi)容,直接傳遞用戶的聲音,為用戶發(fā)聲,營(yíng)造關(guān)注用戶反饋的文化氛圍。
SkyNet 系統(tǒng)能力模型
架構(gòu)設(shè)計(jì)
Web 平臺(tái):采用前后端分離架構(gòu),前端基于 React Hooks 開(kāi)發(fā),后臺(tái)采用微服務(wù)方案。為了增強(qiáng)用戶體驗(yàn),還提供了小程序、飛書(shū)卡片等多種交互方式。
調(diào)度側(cè):采用分布式的 Celery 集群,一主多從的架構(gòu),同時(shí)主控做了雙機(jī)房容災(zāi)。
數(shù)據(jù)側(cè):包括 API+實(shí)時(shí)+離線三種模式,API 模式基于 HTTP 封裝的數(shù)據(jù)查詢服務(wù),實(shí)時(shí)模式基于 Kafka+Flink+ES/HDFS/ClickHouse 數(shù)據(jù)處理任務(wù),用于數(shù)據(jù)處理和存儲(chǔ),離線模式基于 Spark+Hive 天級(jí)和小時(shí)級(jí)的數(shù)據(jù)處理任務(wù)。
算法側(cè):基于 Bert、LDA、BiLSTM 等模型實(shí)現(xiàn)長(zhǎng)短文本意圖識(shí)別、熱點(diǎn)發(fā)現(xiàn)、智能閾值與智能告警,快速理解反饋意圖,更早發(fā)現(xiàn)反饋量級(jí)異常。
安全側(cè):基于數(shù)據(jù)隱私和信息安全,分機(jī)房部署服務(wù)、存儲(chǔ)數(shù)據(jù)。
SkyNet 架構(gòu)原理
全球?qū)崟r(shí)數(shù)據(jù)中心
數(shù)據(jù)是平臺(tái)的核心部分,幾乎所有的功能特性都是通過(guò)大數(shù)據(jù)挖掘出來(lái)的;數(shù)據(jù)的質(zhì)量和穩(wěn)定,才能保證有穩(wěn)定的價(jià)值產(chǎn)出。
數(shù)據(jù)層經(jīng)歷了關(guān)系型數(shù)據(jù)庫(kù)到大數(shù)據(jù)的改造,至于為什么要改造?下圖已經(jīng)說(shuō)明一切,所有的改造都是為了更快更好地處理數(shù)據(jù);實(shí)時(shí)監(jiān)控、指標(biāo)分析、模型識(shí)別等服務(wù)都離不開(kāi)穩(wěn)健的數(shù)據(jù)層。
SkyNet 業(yè)務(wù)數(shù)據(jù)應(yīng)用
平臺(tái)數(shù)據(jù)層在全球各地區(qū)都搭建了數(shù)據(jù)中心,各數(shù)據(jù)中心之間的存儲(chǔ)和服務(wù)都互相隔離、互相獨(dú)立。
通用的高吞吐實(shí)時(shí)數(shù)據(jù)接入系統(tǒng)
面對(duì)復(fù)雜的業(yè)務(wù)場(chǎng)景、多樣化的數(shù)據(jù)源,我們需要建設(shè)一個(gè)通用的、實(shí)時(shí)的異構(gòu)數(shù)據(jù)接入系統(tǒng),旨在將來(lái)自不同業(yè)務(wù)方的異構(gòu)數(shù)據(jù)實(shí)時(shí)轉(zhuǎn)儲(chǔ)到統(tǒng)一的目標(biāo)數(shù)據(jù)庫(kù),為后續(xù)的數(shù)據(jù)分析過(guò)程提供便利。
基于這個(gè)目標(biāo),通過(guò)業(yè)務(wù)抽象,一項(xiàng)數(shù)據(jù)接入任務(wù)一般可分為以下幾個(gè)子步驟:
反序列化
格式化
清洗
序列化
持久化
具體步驟如下:提供定制的序列化實(shí)例,將特殊處理邏輯限定在單一模塊內(nèi)。實(shí)現(xiàn)配置解析器,提供在線接入配置,實(shí)現(xiàn)格式化、清洗、序列化和持久化 4 個(gè)子任務(wù)的通用處理控制。利用流式處理引擎自身提供的實(shí)時(shí)性、可拓展性、嚴(yán)格一次(Exactly-Once)特性,提供高可用實(shí)時(shí)數(shù)據(jù)接入能力。
異構(gòu)數(shù)據(jù)通用接入流程
當(dāng)面臨類似短視頻內(nèi)容評(píng)論數(shù)據(jù)的接入場(chǎng)景時(shí),每分鐘的實(shí)際數(shù)據(jù)量高達(dá)百萬(wàn)級(jí)別,上述的數(shù)據(jù)處理系統(tǒng)便受到了挑戰(zhàn)。
基于這個(gè)難點(diǎn),進(jìn)行了下面的優(yōu)化:把原始數(shù)據(jù)利用哈希算法進(jìn)行散列后,同時(shí)分發(fā)給多個(gè)窗口進(jìn)行處理,每個(gè)窗口處理完成后都將數(shù)據(jù)放入內(nèi)存緩存,經(jīng)過(guò)均勻散列后再批量寫(xiě)入目標(biāo)數(shù)據(jù)庫(kù),從而達(dá)到短時(shí)間內(nèi)處理大量數(shù)據(jù)的高并發(fā)效果。采用改進(jìn)后的數(shù)據(jù)處理系統(tǒng),200 個(gè) Partition,50 個(gè) TaskManager(4C8G),每分鐘能夠處理超過(guò) 200 萬(wàn)的數(shù)據(jù),并且延遲下降到毫秒級(jí)別,做到真正的異構(gòu)數(shù)據(jù)實(shí)時(shí)接入。
針對(duì)大數(shù)據(jù)場(chǎng)景的優(yōu)化處理流程
構(gòu)建千億級(jí)在線查詢引擎
整個(gè)數(shù)據(jù)層分為四層,API 層、引擎層、接入層和數(shù)據(jù)源。引擎層是基于大數(shù)據(jù) OLAP 技術(shù)建設(shè),針對(duì)不同場(chǎng)景使用不同的引擎。目前引入了 ElasticSearch、ClickHouse 和 Presto 三種引擎。
數(shù)據(jù)層技術(shù)架構(gòu)
不同引擎有不同的特性,例如 Clickhouse 擅長(zhǎng)大寬表查詢,ES 聚合查詢和更新速度快,但對(duì) PB 級(jí)數(shù)據(jù)量支持差,Presto 各方面性能均衡,而且支持跨引擎查詢。
對(duì)于多引擎情況,我們封裝了統(tǒng)一 SQL 查詢?nèi)肟?#xff0c;對(duì)外屏蔽引擎信息。同時(shí)基于業(yè)務(wù)場(chǎng)景進(jìn)行優(yōu)化,部分優(yōu)化如下:
ClickHouse:
針對(duì)查詢場(chǎng)景,建立對(duì)應(yīng)的物化視圖
字節(jié)內(nèi)部自研 HaUniqueMergeTree 表引擎
基于數(shù)據(jù)主鍵實(shí)時(shí)去重,套用 Kafka 物化視圖消費(fèi)模式,維護(hù)簡(jiǎn)單
支持主鍵更新的表引擎
保留社區(qū)版本的查詢性能
ElasticSearch 針對(duì) PB 級(jí)存儲(chǔ)優(yōu)化:
生命周期管理,冷熱分離的集群架構(gòu)
分片數(shù)控制,開(kāi)啟 Shrink 功能,對(duì)老索引進(jìn)行分片壓縮
新索引的滾動(dòng)時(shí)間控制在 1 小時(shí)或 100G
AI 賦能智能化
平臺(tái)基于 NLP、CV 和 AIOps 算法,利用文本分類、熱點(diǎn)發(fā)現(xiàn)、時(shí)序預(yù)測(cè)等算法模型實(shí)現(xiàn)快速準(zhǔn)確識(shí)別用戶反饋意圖,自動(dòng)發(fā)現(xiàn)熱點(diǎn)反饋內(nèi)容,智能監(jiān)控時(shí)序反饋量級(jí)。
以 App 端內(nèi)用戶離線反饋數(shù)據(jù)為例,用戶通過(guò)反饋入口提交反饋數(shù)據(jù)到客服平臺(tái),客服平臺(tái)把相關(guān)數(shù)據(jù)寫(xiě)入指定的 Kafka Topic,平臺(tái)數(shù)據(jù)層的 Flink 任務(wù)實(shí)時(shí)消費(fèi)和清洗數(shù)據(jù),并調(diào)用反饋文本分類模型識(shí)別用戶意圖,根據(jù)用戶在 SkyNet 平臺(tái)側(cè)配置的標(biāo)簽告警,建立時(shí)序預(yù)測(cè)模型,實(shí)現(xiàn)異常量級(jí)反饋智能報(bào)警;對(duì)于不在打標(biāo)體系內(nèi)的“其他”類數(shù)據(jù),建立熱點(diǎn)發(fā)現(xiàn)聚類模型,基于語(yǔ)義相似度聚合反饋內(nèi)容,根據(jù)聚類簇反饋量級(jí)歷史變化趨勢(shì)實(shí)現(xiàn)未知熱點(diǎn)問(wèn)題智能告警。
算法能力概覽
AI 能力
SkyNet 平臺(tái)智能算法服務(wù)包括智能打標(biāo)、熱點(diǎn)發(fā)現(xiàn)、智能監(jiān)控三部分能力。
智能打標(biāo)
用戶反饋的數(shù)據(jù)類型主要是文本和截圖,特別是用戶上傳的截圖語(yǔ)義信息更豐富,因此為更準(zhǔn)確識(shí)別用戶的反饋意圖不僅僅依靠文本分類模型,還需要具備反饋截圖的識(shí)別能力,同時(shí)為了更加細(xì)化分類標(biāo)簽,輔助快速定位異常類型,標(biāo)簽體系實(shí)現(xiàn)多級(jí)化,SkyNet 意圖識(shí)別模型基于文本和圖像,構(gòu)建了多模態(tài)智能反饋多級(jí)打標(biāo)模型。其中文本特征基于 Bert 模型,圖像特征基于 MobileNet V3 模型,在多級(jí)標(biāo)簽輸出層設(shè)計(jì)層級(jí)聯(lián)合結(jié)構(gòu),實(shí)現(xiàn)多個(gè)產(chǎn)品線打標(biāo)準(zhǔn)確率 90%以上。
智能打標(biāo)模型
熱點(diǎn)發(fā)現(xiàn)
熱點(diǎn)事件包括高頻熱點(diǎn)和低頻熱點(diǎn),高頻熱點(diǎn)是指短時(shí)間較多用戶反饋的異常,低頻熱點(diǎn)是指一定時(shí)間內(nèi)不斷有用戶反饋的新異常。熱點(diǎn)發(fā)現(xiàn)能力基于文本聚類算法,通過(guò)分詞、文本向量、聚類、相似度計(jì)算,將語(yǔ)義相似的反饋進(jìn)行統(tǒng)計(jì),對(duì)于高頻熱點(diǎn)問(wèn)題通過(guò)統(tǒng)計(jì)一段時(shí)間內(nèi)反饋量級(jí)觸發(fā)告警,對(duì)于低頻熱點(diǎn)問(wèn)題通過(guò)統(tǒng)計(jì)一段時(shí)間內(nèi)反饋量級(jí)與歷史最近多天該問(wèn)題的量級(jí)比例觸發(fā)告警,通過(guò)意圖識(shí)別和熱點(diǎn)發(fā)現(xiàn),實(shí)現(xiàn)有監(jiān)督打標(biāo)和無(wú)監(jiān)督聚類,實(shí)現(xiàn)完整覆蓋反饋內(nèi)容監(jiān)控。
熱點(diǎn)發(fā)現(xiàn)模型
智能監(jiān)控
時(shí)序預(yù)測(cè)是根據(jù)歷史時(shí)序數(shù)據(jù)預(yù)測(cè)未來(lái)趨勢(shì),對(duì)于突增和突降異常場(chǎng)景能夠準(zhǔn)確監(jiān)控,其原理是首先對(duì)歷史時(shí)序數(shù)據(jù)預(yù)處理,過(guò)濾異常點(diǎn)并平滑時(shí)序曲線,模型基于 BiLSTM 結(jié)構(gòu),根據(jù)最近歷史時(shí)序數(shù)據(jù)預(yù)測(cè)當(dāng)前時(shí)間點(diǎn)數(shù)值,為了更為準(zhǔn)確判斷真實(shí)值是否異常,基于歷史數(shù)據(jù)波動(dòng)、模型預(yù)測(cè)誤差和預(yù)測(cè)值計(jì)算該點(diǎn)智能上下限閾值,當(dāng)超過(guò)上限或低于下限則觸發(fā)告警。同時(shí)為了降低尖刺點(diǎn)造成的誤報(bào),根據(jù)異常點(diǎn)偏離程度和異常持續(xù)時(shí)間,計(jì)算異常事件概率,不僅有效降低了報(bào)警頻率,也大大提高了報(bào)警準(zhǔn)確率。
智能監(jiān)控模型
已知場(chǎng)景監(jiān)控
對(duì)于已知場(chǎng)景,根據(jù)用戶配置的告警任務(wù)的告警頻率(以 10 分鐘為例),平臺(tái)引擎層的調(diào)度服務(wù)每 10 分鐘跑一次最近 10 分鐘的反饋數(shù)據(jù),超出特定的閾值則發(fā)出告警。告警任務(wù)的閾值優(yōu)先由用戶配置指定,告警任務(wù)運(yùn)行一段時(shí)間后,也可以選擇啟用智能閾值,針對(duì)不同業(yè)務(wù)場(chǎng)景,根據(jù)歷史告警記錄采用相應(yīng)的算法給出預(yù)測(cè)閾值。
已知場(chǎng)景監(jiān)控原理
未知場(chǎng)景監(jiān)控
對(duì)于未知場(chǎng)景,用戶不用配置告警條件和閾值,只需配置告警接收人。平臺(tái)會(huì)在后臺(tái)開(kāi)啟定時(shí)任務(wù),通過(guò) LDA 主題聚類或者語(yǔ)義聚類方式發(fā)現(xiàn)新的熱點(diǎn)問(wèn)題,同時(shí),根據(jù)歷史告警記錄訓(xùn)練智能閾值,生成具體的告警策略。
具體來(lái)講,監(jiān)控未知場(chǎng)景的方法可以分為兩類,一類是基于單渠道數(shù)據(jù)跨時(shí)間周期發(fā)現(xiàn)熱點(diǎn)問(wèn)題,另一類是基于同時(shí)間周期跨渠道發(fā)現(xiàn)熱點(diǎn)問(wèn)題。
第一類可以理解為對(duì)同一渠道的數(shù)據(jù)作跨時(shí)間的監(jiān)控。以每 10 分鐘告警一次為例,取近 10 分鐘的數(shù)據(jù)進(jìn)行智能打標(biāo)分類和關(guān)鍵詞語(yǔ)義泛化,結(jié)合聚類算法生成語(yǔ)義向量矩陣,與近 3 天的數(shù)據(jù)計(jì)算得出相似度矩陣,找到相似度較高的事件。這個(gè)過(guò)程可以幫助發(fā)現(xiàn)同一渠道的低頻熱點(diǎn)事件,能夠幫助盡早發(fā)現(xiàn)潛在的線上事故和安全問(wèn)題。
未知場(chǎng)景監(jiān)控原理
第二類可以理解為對(duì)同一時(shí)間周期的數(shù)據(jù)作跨渠道的監(jiān)控。以每 10 分鐘告警一次為例,取各渠道近 10 分鐘的數(shù)據(jù)分別進(jìn)行智能打標(biāo)分類和關(guān)鍵詞語(yǔ)義泛化,結(jié)合聚類算法生成語(yǔ)義向量矩陣,各個(gè)矩陣之間計(jì)算得出相似度矩陣,找到相似度較高的事件。這個(gè)過(guò)程可以幫助發(fā)現(xiàn)一段時(shí)間內(nèi)的低頻熱點(diǎn)事件,能夠幫助盡早發(fā)現(xiàn)潛在的輿論問(wèn)題。
多渠道聯(lián)合監(jiān)控
就聯(lián)合監(jiān)控而言,一個(gè)問(wèn)題的發(fā)生往往會(huì)在多個(gè)渠道(離線反饋、IM、電話等)的數(shù)據(jù)上表現(xiàn),怎么去提升問(wèn)題發(fā)現(xiàn)的及時(shí)性、降低問(wèn)題發(fā)現(xiàn)的噪音(每個(gè)渠道都報(bào)出了這個(gè)事件)、保障問(wèn)題定級(jí)的合理性,是聯(lián)合監(jiān)控要解決的問(wèn)題。
我們通過(guò)全渠道聯(lián)合監(jiān)控,即跨渠道、跨時(shí)間線的監(jiān)控,來(lái)保證問(wèn)題在任意渠道發(fā)生后都能及時(shí)監(jiān)控到。同時(shí)通過(guò)算法去檢查其他渠道,如果識(shí)別到相似問(wèn)題,通過(guò)數(shù)據(jù)追加的方式進(jìn)行問(wèn)題描繪,從而避免不同渠道發(fā)生同一個(gè)問(wèn)題導(dǎo)致的監(jiān)控噪音。通過(guò)跨渠道串聯(lián),也可以更直觀地看到一個(gè)問(wèn)題在全局的數(shù)據(jù)表現(xiàn),保證定級(jí)的合理性。
多渠道聯(lián)合監(jiān)控原理
分布式實(shí)時(shí)調(diào)度系統(tǒng)
告警監(jiān)控作為 SkyNet 的核心功能之一,是保障公司內(nèi)部很多產(chǎn)品的最后一道防線。運(yùn)行狀態(tài)良好的告警系統(tǒng),可以及時(shí)發(fā)現(xiàn)問(wèn)題,及時(shí)引起重視,早介入、早解決、減少重大事故的負(fù)面影響。同時(shí),自動(dòng)化的告警系統(tǒng)還可以節(jié)約大量人力,提高運(yùn)營(yíng)團(tuán)隊(duì)的效率。
系統(tǒng)架構(gòu)
告警系統(tǒng)架構(gòu)
告警系統(tǒng)各個(gè)部分的功能如下:
調(diào)度節(jié)點(diǎn)(scheduler):負(fù)責(zé)根據(jù)告警配置生成并調(diào)度告警任務(wù),監(jiān)測(cè)告警任務(wù)的狀態(tài)避免重跑和漏跑,重試失敗任務(wù)。調(diào)度節(jié)點(diǎn)通過(guò)分布式鎖實(shí)現(xiàn)主從機(jī)制。
告警任務(wù)的執(zhí)行節(jié)點(diǎn)(worker):負(fù)責(zé)執(zhí)行告警任務(wù)。
保存任務(wù)信息的隊(duì)列(broker):告警任務(wù)通過(guò) broker 分發(fā)到不同的執(zhí)行節(jié)點(diǎn)( worker)。
保存配置信息使用的數(shù)據(jù)庫(kù)(mysql):保存用戶的告警配置信息。
修改配置信息的頁(yè)面(webserver):用戶交互的入口,用戶新增、修改告警配置信息的入口。
系統(tǒng)簡(jiǎn)介
我們實(shí)現(xiàn)了一套分布式的調(diào)度系統(tǒng),調(diào)度節(jié)點(diǎn)通過(guò)搶占分布式鎖確定主從節(jié)點(diǎn),在根據(jù)告警配置信息觸發(fā)告警任務(wù)的時(shí)候,可以進(jìn)行更多的操作,提高靈活性。
調(diào)度節(jié)點(diǎn)支持自由配置告警隊(duì)列,提高單一隊(duì)列故障時(shí)的可用性,避免因?yàn)閱我魂?duì)列擁塞,導(dǎo)致所有告警都不能及時(shí)觸達(dá)用戶的情況;調(diào)度節(jié)點(diǎn)支持告警任務(wù)在多個(gè)狀態(tài)之間的輪轉(zhuǎn),能夠讓任務(wù)在因?yàn)榕既怀瑫r(shí)、網(wǎng)絡(luò)故障等執(zhí)行失敗后進(jìn)行重試,從而提高任務(wù)執(zhí)行成功率,確保告警及時(shí)準(zhǔn)確地觸達(dá)用戶;調(diào)度節(jié)點(diǎn)支持服務(wù)重啟時(shí)繼續(xù)運(yùn)行未完成的任務(wù),防止任務(wù)漏跑,保證告警無(wú)遺漏,給用戶提供可靠的保障。
調(diào)度節(jié)點(diǎn)還支持告警的屏蔽和跳過(guò)機(jī)制,用戶可以在收到告警并介入處理的一段時(shí)間內(nèi),屏蔽對(duì)應(yīng)的告警,還可以在告警數(shù)據(jù)回溯時(shí),跳過(guò)告警卡片的推送,減少對(duì)用戶不必要的干擾。此外,告警推送的卡片在信息簡(jiǎn)潔明了的同時(shí),還有轉(zhuǎn)工單功能,支持一鍵將告警轉(zhuǎn)工單,方便后續(xù)跟進(jìn)。
平臺(tái)借助分布式調(diào)度系統(tǒng),目前單日處理告警任務(wù) 100w+,告警成功率 99+%。
小試牛刀
目前,SkyNet 天網(wǎng)平臺(tái)服務(wù)的業(yè)務(wù)線已經(jīng)超過(guò) 80 個(gè)。包括抖音、頭條、火山、西瓜、皮皮蝦、剪映、輕顏、懂車帝等 App 離線反饋、IM 反饋、電話投訴反饋、舉報(bào)反饋;各個(gè)具備直播能力的 App 看播評(píng)論;各個(gè)具備電商能力的 App 訂單評(píng)論;短視頻內(nèi)容評(píng)論;各大應(yīng)用市場(chǎng)評(píng)論……
牛年春節(jié)聯(lián)合項(xiàng)目
特別地,抖音作為 2021 年牛年春晚的獨(dú)家互動(dòng)合作伙伴,SkyNet 天網(wǎng)平臺(tái)也為抖音支持春節(jié)活動(dòng)貢獻(xiàn)了一份力量。春晚期間 SkyNet 的全產(chǎn)品線反饋數(shù)據(jù)看板實(shí)時(shí)展示反饋數(shù)據(jù)的波動(dòng),各業(yè)務(wù)線監(jiān)控任務(wù)平穩(wěn)運(yùn)行。
平臺(tái)升級(jí)-異地多活
平臺(tái)已具備高可用的能力,但針對(duì)春節(jié)活動(dòng)的場(chǎng)景還是遠(yuǎn)遠(yuǎn)不夠,如果機(jī)房網(wǎng)絡(luò)故障,還是會(huì)導(dǎo)致系統(tǒng)故障,所以異地多活的能力必須在春節(jié)前上。同時(shí)制定了三機(jī)房容災(zāi)方案,核心業(yè)務(wù)降級(jí)策略。
業(yè)務(wù)保障-多重降級(jí)
針對(duì)春節(jié)期間的紅包雨活動(dòng),公司基礎(chǔ)平臺(tái)服務(wù)制定了多套資源降級(jí)策略,應(yīng)對(duì)各種突發(fā)情況。基于基礎(chǔ)平臺(tái)的統(tǒng)一策略,作為業(yè)務(wù)側(cè)的我們需要制定對(duì)應(yīng)的降級(jí)策略應(yīng)對(duì)突發(fā)狀況。
參與公司演練,應(yīng)對(duì)不同降級(jí)策略,配合升級(jí)
業(yè)務(wù)分優(yōu)先級(jí),針對(duì)不同業(yè)務(wù)劃分高、中、低三等,非核心業(yè)務(wù)降級(jí),保核心業(yè)務(wù)
基礎(chǔ)網(wǎng)絡(luò)故障觸發(fā)容災(zāi)
離線資源傾斜到實(shí)時(shí)資源
短視頻評(píng)論數(shù)據(jù)價(jià)值挖掘
產(chǎn)品功能、輿情相關(guān)的反饋很容易在站內(nèi)互動(dòng)區(qū)先被暴露出來(lái)。用戶客服中心目前已有 App 內(nèi)反饋、郵件、應(yīng)用商店、社媒監(jiān)聽(tīng)等渠道,但互動(dòng)區(qū)的監(jiān)控還是一片盲區(qū),客服中心希望能利用這個(gè)渠道的價(jià)值,提高用戶反饋數(shù)據(jù)的覆蓋度,包括不限于產(chǎn)品功能體驗(yàn)類、用戶情感分析類。
面對(duì)大規(guī)模的數(shù)據(jù)量,如何快速有效地進(jìn)行實(shí)時(shí)監(jiān)控分析?如何從千億數(shù)據(jù)中挖掘有價(jià)值的數(shù)據(jù)?這些都要依賴天網(wǎng)平臺(tái)的智能化和大數(shù)據(jù)的能力。比如,基于實(shí)時(shí)數(shù)據(jù)接入系統(tǒng),結(jié)合 NLP 文本分析能力完成分類與分詞;基于大數(shù)據(jù) OLAP 技術(shù),完成對(duì)數(shù)據(jù)在線分析,包括指標(biāo)分析、文本分析、聚類分析等。
短視頻評(píng)論挖掘流程
通過(guò)監(jiān)控分析,一個(gè)月能暴露 15-20 個(gè)問(wèn)題(含產(chǎn)品 bug、風(fēng)控、內(nèi)容安全等問(wèn)題),同時(shí)會(huì)基于高贊的評(píng)論內(nèi)容做一些人工分析,比如,一個(gè)月內(nèi)的 4000 條高贊評(píng)論大概能暴露 50 個(gè)內(nèi)容問(wèn)題。
用戶之聲
下面是來(lái)自春節(jié)期間使用 SkyNet 的用戶的聲音:
“SkyNet 在春節(jié)期間給予了小程序/小游戲?qū)m?xiàng)活動(dòng)強(qiáng)有力支持,幫助項(xiàng)目組快速發(fā)現(xiàn)用戶反饋問(wèn)題,并及時(shí)跟進(jìn)解決,特別是在春節(jié)活動(dòng)高峰期間,分鐘級(jí)的活動(dòng)調(diào)整方案,都能完美響應(yīng)!”
“SkyNet 在春節(jié)期間問(wèn)題發(fā)現(xiàn)的時(shí)效全部控制在 5min 內(nèi)!”
“SkyNet 替代了人工監(jiān)控方式,每日節(jié)省值班同學(xué)人效 10h 以上!”
“SkyNet 的告警準(zhǔn)確率提升明顯,絕大部分的告警都反映了真實(shí)的問(wèn)題!”
……
加入我們
字節(jié)跳動(dòng)互娛研發(fā)效能團(tuán)隊(duì),互娛研發(fā)負(fù)責(zé)抖音、抖音火山版、剪映、FaceU、輕顏、直播、音樂(lè)等多款明星產(chǎn)品的研發(fā),目前,抖音日活(DAU)已經(jīng)突破 6 億,并繼續(xù)保持高速增長(zhǎng)。
研發(fā)效能團(tuán)隊(duì)主打服務(wù)化+智能化,旨在通過(guò)工具平臺(tái)+算法,賦能互娛的各個(gè)業(yè)務(wù)場(chǎng)景,團(tuán)隊(duì)職能包括但不限于提升研發(fā)效能,保證內(nèi)容質(zhì)量,優(yōu)化用戶體驗(yàn),保障業(yè)務(wù)安全等。團(tuán)隊(duì)擁有算法,工程(前端、后臺(tái)以及客戶端)、數(shù)據(jù)(大數(shù)據(jù)、DA)、產(chǎn)品、測(cè)試等多種職能崗位,可以高效自閉環(huán)進(jìn)行智能平臺(tái)產(chǎn)品的設(shè)計(jì)研發(fā),具有多個(gè)公司級(jí)影響力的智能化平臺(tái)產(chǎn)品成功落地經(jīng)驗(yàn)。
團(tuán)隊(duì)發(fā)展迅速,年輕富有朝氣,注重技術(shù)氛圍建設(shè),積極參與國(guó)內(nèi)外各頂尖行業(yè)技術(shù)會(huì)議,輸出高質(zhì)量技術(shù)專利和相關(guān)論文,工作 Base 地有深圳、杭州、廣州、北京多地可選。
加入我們,讓你的每一行代碼都能服務(wù)全球億萬(wàn)用戶。
簡(jiǎn)歷投遞郵箱:iesep@bytedance.com;郵件標(biāo)題:姓名 - 職能/技術(shù)棧 - 研發(fā)效能。
總結(jié)
以上是生活随笔為你收集整理的SkyNet:字节跳动泛客诉问题挖掘与风险监控中台实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 人的顶级能量从哪里获取?
- 下一篇: 苹果用什么蓝牙耳机好?适合苹果的音乐蓝牙