Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
data		data
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
args.py		args.py
extract_feature.py		extract_feature.py
extract_features_or.py		extract_features_or.py
graph.py		graph.py
modeling.py		modeling.py
optimization.py		optimization.py
requirements.txt		requirements.txt
similarity.py		similarity.py
tokenization.py		tokenization.py

Repository files navigation

bert-utils

本文基于Google开源的BERT代码进行了进一步的简化，方便生成句向量与做文本分类

1、下载BERT中文模型

2、把下载好的模型添加到当前目录下

3、句向量生成

生成句向量不需要做fine tune，使用预先训练好的模型即可，可参考extract_feature.py的main方法，注意参数必须是一个list

from bert.extrac_feature import BertVector
bv = BertVector()
bv.encode(['你好'])

4、文本分类

文本分类需要做fine tune，首先把数据准备好存放在data目录下，训练集的名字必须为train.csv，验证集的名字必须为dev.csv，测试集的名字必须为test.csv，必须先调用set_mode方法，可参考similarity.py的main方法，

训练：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.TRAIN)
bs.train()

验证：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.EVAL)
bs.eval()

测试：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.PREDICT)
bs.test

5、DEMO中自带了蚂蚁金服的测试数据供大家使用