首 頁

手機版
您的位置:電腦軟件 > 行業軟件 > 法律法規 > 2017敏感信息詞庫

2017敏感信息詞庫

軟件巨細:222KB

軟件語言:簡體中文

用戶評分:

軟件類型:邦產軟件

授權方式:免費軟件

軟件官網:

更新時間:2019/4/15

軟件分類:法律法規

運行環境:Windows10, Windows8, Windows7, WinVista, WinXP

敏感詞

普通下載

高速下載

需下載高速下載器,提速50%

很多時候用戶在聊天的過程中會看到有人話語權被屏蔽,更多是在游戲中看到別的玩家經常會發一些看不到的話,比如你個***,我***,之所以會這樣是因為用戶或者玩家在組織語言的時候,用詞不當使用了敏感詞的緣故,在這里小編也為用戶收集整理了2017敏感信息詞庫,助助用戶更好地學習和掌握文明用語,同時對于一些需要維護聊天秩序的程序員而言,有了直接可以使用的敏感詞庫,將會使文本編輯工作輕松許多,不用從網上一條條尋找不規范用語,將工作量大大減少,同時小編收集整理的敏感詞庫,里面包含了很多方面,如暴恐、民生、貪腐等敏感話題,用戶可以通過學習規范自己在生活的生活用語,歡迎用戶下載使用。

包含的敏感詞庫

★色情詞庫
★暴恐詞庫
★反動詞庫
★民生詞庫
★其他詞庫
★貪腐詞庫

敏感信息詞概論

大部分論壇,為了方便管理,都進行了關于敏感詞的設定。比如,當你發貼的時候帶有某些事先設定的詞時,這個貼是不能發出的。或者這個詞被自動替換為星號(*)或叉號(X)等,或者說是被和諧掉了。在多數網站,敏感詞一般是指帶有敏感政治傾向(或反執政黨傾向)、暴力傾向、不健康顏色的詞或不文明語。也有一些網站根據自身實際情況,設定一些只適用于本網站的特殊敏感詞,例如很多電子商務網站會將一些涉及侵犯知識產權,不宜銷售的商品,例如“山寨”、“水貨”、“盜版”、“刻錄”等設置為敏感詞,在商品簡介中這些詞是發不出來的。競爭對手的名稱在一些電商網站也是無法發出的敏感詞

敏感信息詞舉例說明

例如“Pi”這個詞,在邦內“Pi”絕對算的上是敏感詞語,主要原因一是不雅,二是與黃色有連帶關系,但在實際中,“Pi”的使用率卻出奇的高,比如人們憤憤然說的“Pi民”、“Pi話”、“狗Pi不通”、“Pi滾尿流”等等,在正常的行文中經常可以看到。同時“Pi”在泰邦一般用于稱呼某個人,如您叫陳,則在泰邦就會被稱為“Pi陳”,同時果稱誰為“Pipi”,那更是尊稱,比如某老人或女人姓王,你叫她“Pipi王”,她會高興得不得了。顯然,在泰邦“Pi”是個尊稱,類似咱們說老王、小羅之類。

2017敏感信息詞庫特點

1、2017敏感信息詞庫整合了多個敏感詞庫,并添加java實現敏感詞過濾的工具類,需要根據具體業務適當調整詞庫實質。
2、敏感詞集合,共2W+的敏感詞,已通過程序算法去除重復項。
3、里面整理了最新網絡詞庫
4、考慮到各行各業需要的分詞規則不同,故沒有合并
5、文件為txt、xlsx文本用于敏感詞過濾

百度經驗敏感詞排查方法

一、大致鎖定敏感詞出現的范圍,進行替換嘗試
1.明確你的經驗,是否是敏感詞密集型的主題,比如政治、性等在中邦有管制的主題。如果是的話,那你就要注意你通篇的措辭,如何巧妙得選擇詞匯,避開敏感詞,將是非常考驗寫手經驗的。
2.如果只是普通主題,那可能是一些詞匯的問題。這些詞匯,可能還是色情(OXOX)、廣告(鏈接、手機)、政治(人名、事件)、罵人語等一般來說你只要發現文中有此類型(不和諧)的詞匯,都不用進行下一步了,直接刪了或改了吧
二、對不確定的詞,進行搜索嘗試
1.可以在百度經驗的搜索欄內對可能的敏感詞進行搜索,凡是出現顯示為“抱歉,沒有找到包含關鍵詞XX的經驗。”就可以確定XX是敏感詞了
2.在搜索框內搜索敏感詞,是根據“沒有結果”這個結果來判斷的。而很多時候搜索的句子太長,也會沒有結果。所以建議以“詞”為單位進行搜
三、嘗試若失敗,建議通過隔離段落法來排查
1.在使用這種方法之前,你必須要明白這么做的代價。
那就是:因為使用隔離法,提交時你的文章是殘缺的,若檢測通過了,文章的狀態會變成“提交中”
2.此時的代價有:
風險1:通過的文章有很多地方不能修改了。比如標題、分類、工具都不能修改了
風險2:可能因為段落的殘損導致審核不通過。
風險3:在不斷的復制粘貼中,留一份文章的附本吧,免得敏感詞沒照出來,文章都被剪沒了
3.隔離法究竟隔離幾段,留下幾段呢?
方法一:
一般的方法都是減去其中一段,提交剩下的段落,以此來確定減去的段落是否含有“不當詞匯”,這種方法操作起來比較方便,建議首選。
但是有兩個缺點,
1.如果是最后一段含有“不當詞匯”,需要每段都提交一次。(所以應該根據經驗來選擇隔離順序。)
2.如果運氣很差,“不當詞匯”出現了不只一次,在幾個段落里都有,那你用這種方法,根本查不出來啦
方法二:一段一段提交。
先提交一段,審核通過,再提交第二段,...,以此類推,直到出現不能提交的那段。但是并此方法不好,因為提交一次,就需要等待審核一次,相當耗時間。
但是這種方法克服了前面那種方法里,多段中都有敏感詞卻查不出來的缺點。
不過總的來說,這種方法并不常用
方法三:,不斷劃分文章進行排查(相當于二分法)。
把一切段落分成兩部分,先隔離第二部分,提交第一部分。
第一部分若通過,則證明敏感詞在第二部分中;若沒通過,則證明敏感詞就在第一段中。
此時選取有敏感詞的那部分,再次進行劃分,提交。最終可以找到那有“不當詞匯”的一段。
此方法是前兩種方法的折中,速度還可以,也可以查多段都有敏感詞的情況,建議第一種方法不行時,用此方法

精品軟件

其他版本下載

下載地址

  • PC版

2017敏感信息詞庫

普通下載通道

網友評論

0條評論

評論需審核后才能顯示