當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本内容安全审核

發(fā)布時間：2023/12/31 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了文本内容安全审核小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文本內(nèi)容安全審核

一、描述

短文本過濾實(shí)例，可用于智能識別各種違法違規(guī)內(nèi)容，如涉黃、涉政、暴恐、辱罵、廣告、灌水…
當(dāng)前監(jiān)管越發(fā)嚴(yán)重，如何避免用戶發(fā)布的內(nèi)容給平臺造成風(fēng)險，內(nèi)容安全審核是避規(guī)內(nèi)容風(fēng)險的主要方式。
內(nèi)容安全審核一般分為機(jī)審和人審兩種方式并行的策略，各云廠商一般已經(jīng)集成成接口服務(wù)，包括文本、圖像、語音、視頻等，同時也支持私有化部署。
本文只調(diào)研關(guān)于文本的內(nèi)容安全審核，文本和圖像還是可以自己做的。

二、公有云廠商方案

2.1 阿里

功能：提供圖片、視頻、文本、語音、網(wǎng)頁等形式內(nèi)容違規(guī)檢測API，覆蓋暴恐、涉政、涉黃、廣告、辱罵、不良場景等風(fēng)險檢測能力。
技術(shù)：鑒黃模型、暴恐分類、文本分類模型、關(guān)鍵詞過濾，OCR等。
費(fèi)用：區(qū)間計費(fèi)：套餐大于0條/日(1.80元/千條)；套餐5000條/日(1.62元/千條)；套餐50000條/日(1.53元/千條)；套餐130000條/日(1.44元/千條)；套餐260000條/日(1.35元/千條)；套餐850000條/日(1.26元/千條)
文本內(nèi)容安全-阿里云方案，沒有試用。看起來比較成熟穩(wěn)定(或者說老舊？)、似乎更加注重大客戶。不過文檔似乎不大友好，更偏向于小白的OSS文件檢測。

！內(nèi)容安全-阿里方案

2.2 百度

功能：支持圖像、文本、語音、短視頻等類型，包括智能鑒黃、違禁違規(guī)、惡意推廣、低俗辱罵、低質(zhì)灌水等。
技術(shù)：基于自然語言理解、深度學(xué)習(xí)等技術(shù)，有效識別違規(guī)文本內(nèi)容，具備拼音、諧音、拆字、形近字、影射等變體識別能力；支持自定義黑白名單；15w+的公眾人物庫，其中包含政治人物、明星等。
費(fèi)用：基礎(chǔ)15元/萬次。 50萬次(750元)； 300萬次(4200元/93折)； 500萬次(6500元/87折)； 1000萬次(12000元/8折)； 5000萬次(55000元/73折)； 1億次(100000元/67折)； 5億次(450000元/6折)
文本內(nèi)容安全-百度云方案，沒有展示技術(shù)框架，API試用比較友好，速度相對其他家比較慢(或許是規(guī)則識別后還會走模型？)。

！內(nèi)容安全-百度方案

2.3 騰訊

功能：支持文本、語音、圖像、視頻、號碼等類型的安全審核，包括涉黃檢測、涉毒檢測、廣告檢測、自定義檢測等。
技術(shù)：社區(qū)里兩篇技術(shù)分享博客，文本匹配+淺層神經(jīng)網(wǎng)絡(luò)(TextCNN->FastText)的技術(shù)方案。
費(fèi)用：套餐180萬條(22元/萬條)；套餐720萬條(19元/萬條)；套餐3600萬條(18元/萬條)；套餐18000萬條(13元/萬條)；套餐36000萬條(10元/萬條)。
文本內(nèi)容安全-騰訊云方案，文檔真是一個梗了，害，python樣例真的跑不通，暈。此外詳細(xì)違規(guī)類型代碼的中文說明也沒有。

！內(nèi)容安全-騰訊方案

2.4 網(wǎng)易

功能：支持文本、語音、圖像、視頻等類型的安全審核，包括色情、廣告、涉政、暴恐等違規(guī)內(nèi)容及各種文字變種，支持20余種語言。
技術(shù)：未知。基于海量數(shù)據(jù)，定制智能策略，高效過濾，包括聚類、詞向量等。
費(fèi)用：需要注冊才能查看，害。
敏感詞檢測一般作為第一道關(guān)卡，同時結(jié)合反垃圾智能模型對文本二次識別來打到攔截垃圾內(nèi)容的目的

！內(nèi)容安全-網(wǎng)易易盾

三、開源項(xiàng)目

3.1 observerss/textfilter

語言: Python，Star為1.7k。
詳情: 短文本匹配 + 某1w詞敏感詞庫。
技術(shù): Native(for遍歷), BS(二分搜索), DFA(就是字典樹)。

3.2 minitrill/TextAudit

語言: Python，star為0.056k。
詳情: 短視頻app文本審核模塊：1.二分類，惡意與否; 2.詳細(xì)分類; 3.后處理(對于不同頻率/不同程度/不同影響力的言論)。
技術(shù): DFA + 分類模型(TIDF + BayesianNetwork)

！內(nèi)容安全-TextAudit

3.3 houbb/sensitive-word

語言: Java，star為0.339k。
詳情: 高性能敏感詞工具。
技術(shù): DFA + 某6W敏感詞庫。支持用戶自定義敏感詞和白名單、支持?jǐn)?shù)據(jù)的數(shù)據(jù)動態(tài)更新，實(shí)時生效。

3.4 elulis/sensitive-words

語言: Java，star為0.411k。
詳情: Java快速中文敏感詞過濾，在15k敏感詞庫上的過濾速度超過50M字符每秒。
方法: DFA + 2字符hash優(yōu)化。

3.5 youzan/YZSpamFilter

語言: Python，star為0.266k。
詳情: 有贊垃圾內(nèi)容過濾工具，可為帖子、郵件、博客等提供中文垃圾信息過濾服務(wù)。
方法: 二分類模型，數(shù)據(jù)為垃圾郵件過濾。

3.6 toolgood/ToolGood.Words

語言: C#，star為2.9k。
詳情: C#語言，使用StringSearchEx2.Replace過濾，在48k敏感詞庫上的過濾速度超過3億字符每秒。（cpu i7 8750h）
方法: 正則轉(zhuǎn)DFA，C#改進(jìn)版AC自動機(jī), 可設(shè)置跳字長度，默認(rèn)全角轉(zhuǎn)半角，忽略大小寫，跳詞，重復(fù)詞，黑名單。

四、總結(jié)-建議

十分必要，但又吃力不討好的任務(wù)，建議直接用云廠商服務(wù)就好，或者是直接用(短文本匹配 + 淺層神經(jīng)網(wǎng)絡(luò))。
短文本匹配建議上TrieTree(有增刪改查需求的話); 或者是默認(rèn)詞典用AC自動機(jī), 用戶詞典才用前綴樹。
淺層神經(jīng)網(wǎng)絡(luò)用FastText、TextCNN就好, BERT感覺并沒有太大的必要, 不過上Tiny模型其實(shí)也無妨。
拼音、諧音、拆字、形近字、影射等變體可以采用拓展詞典的方式解決，當(dāng)然模型也可以。
重要的是敏感詞典，不過普通的話，幾萬的量標(biāo)注其實(shí)也并不是太麻煩。

五、引用

騰訊業(yè)務(wù)安全(1)-天御內(nèi)容安全
java 敏感詞工具實(shí)現(xiàn)思路
網(wǎng)絡(luò)常用敏感詞過濾方法
敏感詞過濾方案那些事

希望對你有所幫助!

總結(jié)

以上是生活随笔為你收集整理的文本内容安全审核的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Fragstats计算景观生态指数
下一篇： FFmpeg教程（超级详细版）