不挂科搜题免费

问题:

BERT使用的是Transformer编码器,由于Self-attention机制,所以模型上下层直

答案:

A