2025年7月19日

创作背景

大家好，我是老马。

敏感词初期在实现的时候，为了用户开箱即用将词库与核心算法库放在一起。

有一些用户希望只用自己的词库，于是内置了各种自定义的策略方法。

但是还是不够，比如有些 andriod 研发希望内置包的信息是干净的，不要有任何敏感信息。

为了保障开箱即用+支持将文件排除，我们在将敏感词库独立为另外一个项目。

系统内置词库及如何排除

内置词库文件说明

v0.27.0 将词库和当前项目拆分开，词库可以在 https://github.com/houbb/sensitive-word-data 项目查看。

对应的资源文件在 https://github.com/houbb/sensitive-word-data/tree/main/src/main/resources 目录下

文件	说明	默认加载类
`sensitive_word_allow.txt`	内置自定义白名单词库	`WordAllowSystem`
`sensitive_word_deny.txt`	内置自定义黑名单词库	`WordDenySystem`
`sensitive_word_dict.txt`	内置黑名单词库	`WordDenySystem`
`sensitive_word_dict_en.txt`	内置黑名单英文词库	`WordDenySystem`
`sensitive_word_tags.txt`	内置敏感词标签词库	`WordTagSystem`

如何排除

比如一些 android app 引入时不希望包中内置敏感的信息，希望对词库加解密或者是放在服务端初始化加载。

系统的内置词库通过下面的 maven 依赖导入

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>sensitive-word-data</artifactId>
    <version>${sensitive-word-data.version}</version>
</dependency>

依赖排除

所以可以按照 maven 排除规范，如下将其排除

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>sensitive-word</artifactId>
    <version>${sensitive-word.version}</version>
    <exclusions>
        <exclusion>
            <groupId>com.github.houbb</groupId>
            <artifactId>sensitive-word-data</artifactId>
        </exclusion>
    </exclusions>
</dependency>

排除后自定义

不希望使用内置词库，那就需要将原来内置的词库依赖改为自己的依赖

默认配置项：

SensitiveWordBs sensitiveWordBs = SensitiveWordBs.newInstance()
                .wordAllow(WordAllows.defaults())
                .wordDeny(WordDenys.defaults())
                .wordTag(WordTags.defaults())
                .init();

你可以将用到的这3个配置，改为自己的实现。

可以通过加解密，或者加载远程服务的文件信息都可以。