Ce projet vise à développer une plateforme de résumé automatique de textes à partir des articles d'Al Jazeera. Le résumé automatique de texte consiste à générer une version condensée et précise d'un document textuel en utilisant des techniques informatiques. Notre objectif est de fournir aux utilisateurs un résumé clair et concis du contenu des articles d'Al Jazeera.
- Ibtissam LABYADY
- Sokhna Mai WANE
- Mohamed CISSE
- Najima DAOUDI
- Ghizlane BOURAHOUAT
Nous avons utilisé les technologies suivantes pour la réalisation de ce projet :
-
Web Scraping : Nous avons extrait les articles d'Al Jazeera à partir des sites web suivants :
-
Modèles de résumé automatique :
- T5: Text-To-Text Transfer Transformer
- Modèle BART
- PEGASUS
Nous avons exploré deux approches différentes pour générer des résumés dans la langue cible :
-
Utilisation de la traduction avec un modèle pré-entraîné : Nous avons utilisé des modèles pré-entraînés T5, BART et PEGASUS pour traduire les articles en langue cible, puis nous avons généré des résumés à partir des traductions.
-
Fine-tuning sur des données dans la langue cible : Nous avons effectué un fine-tuning des modèles de T5 en utilisant des données dans la langue cible. Cela nous a permis d'adapter les modèles aux spécificités de la tâche de résumé et d'améliorer leur capacité à produire des résumés pertinents et de qualité.
Nous avons évalué les performances des modèles fine-tunés sur notre tâche de résumé en utilisant les métriques appropriées. Voici les modèles fine-tunés que nous avons évalués :
-
Modèle T5 fine-tuné pour la génération de résumés de news : ibtissam369/t5-base-finetuned-summarize-news-finetuned-xsum)
-
Modèle AraT5v2 fine-tuné pour la génération de résumés d'articles d'Al Jazeera : ibtissam369/AraT5v2-base-1024-finetuned-ALjazeera)
En conclusion, les modèles RNN (Réseaux de Neurones Récurrents) et LLMs (Langage Models) offrent des avantages significatifs pour les tâches de résumé grâce à leur capacité à capturer les dépendances contextuelles à long terme et à être adaptés à travers le fine-tuning. Cependant, il reste des défis à relever, tels que la génération de résumés cohérents et la gestion des ressources computationnelles. De plus, l'extension de ces modèles à des langues spécifiques comme le darija nécessite des efforts supplémentaires de collecte de données et de formation.