ymcui/Chinese-BERT-wwmView GitHub Homepage for Latest Official Releases

Modèle pré-entraîné BERT en chinois basé sur la technique de masquage de mots entiers, fournissant divers modèles pré-entraînés de traitement du langage naturel en chinois.

Apache-2.0PythonChinese-BERT-wwmymcui 10.0k Last Updated: July 15, 2025

Présentation détaillée du projet Chinese-BERT-wwm

Aperçu du projet

Chinese-BERT-wwm est une série de modèles pré-entraînés BERT en chinois, développée par le laboratoire conjoint HFL de l'Université de Harbin et iFLYTEK, basée sur la technique de masquage de mots entiers (Whole Word Masking). Ce projet vise à promouvoir davantage la recherche et le développement du traitement de l'information en chinois, en publiant le modèle pré-entraîné BERT-wwm en chinois basé sur la technique de masquage de mots entiers, ainsi que les modèles étroitement liés à cette technique.

Caractéristiques techniques clés

Technique de masquage de mots entiers (Whole Word Masking)

Problème de masquage BERT traditionnel : Le BERT original, lors du traitement du chinois, divise les mots complets en tokens au niveau des caractères, puis masque aléatoirement certains de ces caractères, ce qui peut empêcher le modèle de comprendre pleinement la sémantique des mots.
Amélioration du masquage de mots entiers : La technique WWM garantit que les mots complets sont masqués ensemble lors du masquage, au lieu de masquer uniquement certains caractères du mot, améliorant ainsi la capacité du modèle à comprendre le vocabulaire chinois.

Optimisation de l'architecture du modèle

Optimisation basée sur l'architecture BERT officielle de Google.
Pré-entraînement spécialement conçu pour les caractéristiques de la langue chinoise.
Adoption d'une stratégie de segmentation et de masquage plus adaptée au chinois.

Série de modèles

Principales versions de modèles

BERT-wwm : Modèle BERT de base avec masquage de mots entiers.
BERT-wwm-ext : Version étendue, utilisant un ensemble de données d'entraînement plus important.
RoBERTa-wwm-ext : Version avec masquage de mots entiers basée sur l'architecture RoBERTa.
RoBERTa-wwm-ext-large : Version large, avec plus de paramètres.
RBT3 : Version allégée, utilisant uniquement les 3 premières couches.
RBTL3 : Version allégée basée sur le modèle large.

Comparaison des caractéristiques des modèles

Taille des paramètres : Des modèles légers aux modèles larges, répondant aux différents besoins en ressources de calcul.
Données d'entraînement : Pré-entraînement utilisant des données de domaine général telles que Wikipédia.
Performances : Évaluation complète sur plusieurs tâches de NLP en chinois.

Avantages techniques

1. Forte adaptabilité à la langue chinoise

Spécialement conçu pour les caractéristiques de la langue chinoise.
Résout les insuffisances de la version originale de BERT dans le traitement du chinois.
Capacité de compréhension du vocabulaire chinois plus précise.

2. Diversité des modèles

Offre un choix de modèles de différentes tailles et architectures.
Des modèles légers aux modèles larges, adaptés à différents scénarios d'application.
Prend en charge différentes configurations de ressources de calcul.

3. Écosystème open source complet

Entièrement open source, facilitant la recherche et l'application.
Fournit une documentation d'utilisation et des exemples détaillés.
Communauté active, mise à jour et maintenance continues.

Scénarios d'application

Tâches de traitement du langage naturel

Classification de texte : Analyse des sentiments, classification thématique, etc.
Reconnaissance d'entités nommées : Reconnaissance des noms de personnes, des noms de lieux, des noms d'organisations.
Systèmes de questions-réponses : Service client intelligent, questions-réponses basées sur la connaissance.
Calcul de similarité de texte : Correspondance sémantique, recherche de documents.
Génération de texte : Génération de résumés, génération de dialogues.

Applications industrielles

Technologie financière : Évaluation des risques, conseil en investissement intelligent.
Plateformes de commerce électronique : Recommandation de produits, profilage des utilisateurs.
Éducation et formation : Correction intelligente, apprentissage personnalisé.
Santé : Analyse de textes médicaux, reconnaissance des symptômes.

Performances

Résultats d'évaluation

Le projet a fait l'objet d'une évaluation complète sur plusieurs tâches de NLP en chinois, comprenant des tests sur plusieurs indicateurs tels que la précision. Par rapport à la version originale de BERT, il y a une amélioration significative dans les tâches en chinois.

Tests de référence

XNLI : Inférence en langage naturel interlingue.
Analyse des sentiments en chinois : Amélioration significative de la précision.
Reconnaissance d'entités nommées : Valeur F1 supérieure aux modèles de base.
Compréhension de la lecture : Performances excellentes sur plusieurs ensembles de données.

Guide d'utilisation

Exigences environnementales

Python 3.6+
PyTorch ou TensorFlow
Bibliothèque Transformers
Suffisamment de mémoire GPU (en fonction de la taille du modèle)

Démarrage rapide

from transformers import BertTokenizer, BertModel

# Charger le tokenizer et le modèle
tokenizer = BertTokenizer.from_pretrained('hfl/chinese-bert-wwm')
model = BertModel.from_pretrained('hfl/chinese-bert-wwm')

# Exemple d'utilisation
text = "你好，世界！"
tokens = tokenizer(text, return_tensors='pt')
outputs = model(**tokens)

Recommandations pour le choix du modèle

Ressources de calcul suffisantes : Il est recommandé d'utiliser RoBERTa-wwm-ext-large.
Équilibre entre performances et efficacité : Il est recommandé d'utiliser BERT-wwm-ext ou RoBERTa-wwm-ext.
Environnement aux ressources limitées : Il est recommandé d'utiliser le modèle allégé RBT3.

Précautions et recommandations

Recommandations d'utilisation

Correspondance des données : Si les données de la tâche diffèrent considérablement des données de pré-entraînement, il est recommandé d'effectuer des étapes de pré-entraînement supplémentaires sur les données de la tâche.
Optimisation des paramètres : Ajuster les hyperparamètres tels que le taux d'apprentissage et le nombre d'étapes d'entraînement en fonction de la tâche spécifique.
Choix du modèle : Le projet propose une variété de modèles pré-entraînés que les chercheurs peuvent choisir librement. Il est recommandé d'essayer ces modèles sur vos propres tâches.

Optimisation des performances

Utiliser l'entraînement en précision mixte pour accélérer.
Définir raisonnablement la taille du batch et la longueur de la séquence.
Envisager d'utiliser la technique de distillation de modèle pour compresser davantage.

Communauté et support

Licence open source

Suit la licence open source Apache 2.0.
Autorise l'utilisation commerciale et la modification.
Encourage la contribution et les commentaires de la communauté.

Ressources connexes

Dépôt GitHub : https://github.com/ymcui/Chinese-BERT-wwm
Article académique : Publié dans IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP).
Bibliothèque de modèles HuggingFace : Peut télécharger et utiliser directement les modèles pré-entraînés.
Discussion communautaire : Page GitHub Issues pour les échanges techniques.

Conclusion

Le projet Chinese-BERT-wwm fournit une base solide de modèles pré-entraînés pour le traitement du langage naturel en chinois, améliorant efficacement la capacité du modèle à comprendre le chinois grâce à la technique de masquage de mots entiers. Le choix diversifié de modèles, l'écosystème open source complet et le support technique continu du projet en font un outil important pour la recherche et l'application du NLP en chinois. Que ce soit pour la recherche académique ou les applications industrielles, il est possible de bénéficier de ce projet et de faire progresser le développement de la technologie de l'intelligence artificielle en chinois.