News-Text-Summarization

Plateforme de Résumé Automatique d'Articles d'Al Jazeera

Ce projet vise à développer une plateforme de résumé automatique de textes à partir des articles d'Al Jazeera. Le résumé automatique de texte consiste à générer une version condensée et précise d'un document textuel en utilisant des techniques informatiques. Notre objectif est de fournir aux utilisateurs un résumé clair et concis du contenu des articles d'Al Jazeera.

Réalisé par :

Ibtissam LABYADY
Sokhna Mai WANE
Mohamed CISSE

Encadré par:

Najima DAOUDI
Ghizlane BOURAHOUAT

Technologies utilisées

Nous avons utilisé les technologies suivantes pour la réalisation de ce projet :

Web Scraping : Nous avons extrait les articles d'Al Jazeera à partir des sites web suivants :
- Al Jazeera English
- Al Jazeera Arabic
Modèles de résumé automatique :
- T5: Text-To-Text Transfer Transformer
- Modèle BART
- PEGASUS

Approche adoptée

Nous avons exploré deux approches différentes pour générer des résumés dans la langue cible :

Utilisation de la traduction avec un modèle pré-entraîné : Nous avons utilisé des modèles pré-entraînés T5, BART et PEGASUS pour traduire les articles en langue cible, puis nous avons généré des résumés à partir des traductions.
Fine-tuning sur des données dans la langue cible : Nous avons effectué un fine-tuning des modèles de T5 en utilisant des données dans la langue cible. Cela nous a permis d'adapter les modèles aux spécificités de la tâche de résumé et d'améliorer leur capacité à produire des résumés pertinents et de qualité.

Évaluations des modèles fine-tunés

Nous avons évalué les performances des modèles fine-tunés sur notre tâche de résumé en utilisant les métriques appropriées. Voici les modèles fine-tunés que nous avons évalués :

Modèle T5 fine-tuné pour la génération de résumés de news : ibtissam369/t5-base-finetuned-summarize-news-finetuned-xsum)
Modèle AraT5v2 fine-tuné pour la génération de résumés d'articles d'Al Jazeera : ibtissam369/AraT5v2-base-1024-finetuned-ALjazeera)

Conclusion

En conclusion, les modèles RNN (Réseaux de Neurones Récurrents) et LLMs (Langage Models) offrent des avantages significatifs pour les tâches de résumé grâce à leur capacité à capturer les dépendances contextuelles à long terme et à être adaptés à travers le fine-tuning. Cependant, il reste des défis à relever, tels que la génération de résumés cohérents et la gestion des ressources computationnelles. De plus, l'extension de ces modèles à des langues spécifiques comme le darija nécessite des efforts supplémentaires de collecte de données et de formation.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
Aljazeera_dataset.csv		Aljazeera_dataset.csv
Aljazeera_dataset_eng.csv		Aljazeera_dataset_eng.csv
LOGO MohLearning.png		LOGO MohLearning.png
README.md		README.md
Textmining_Project_Text_Summarisation_BART.ipynb		Textmining_Project_Text_Summarisation_BART.ipynb
aljazeera-scrapping-eng.ipynb		aljazeera-scrapping-eng.ipynb
aljazeera-scrapping.ipynb		aljazeera-scrapping.ipynb
app.py		app.py
arabic-fine-tunning.ipynb		arabic-fine-tunning.ipynb
arabic-summarization.ipynb		arabic-summarization.ipynb
eng-fine-tuning.ipynb		eng-fine-tuning.ipynb
eng-t5-base-fine-tuning.ipynb		eng-t5-base-fine-tuning.ipynb
index.html		index.html
processing.cpython-310.pyc		processing.cpython-310.pyc
processing.py		processing.py
présentation_projet_text_summarisation.pdf		présentation_projet_text_summarisation.pdf
présentation_projet_text_summarisation.pptx		présentation_projet_text_summarisation.pptx
rapport_projet_text_summarisation.docx		rapport_projet_text_summarisation.docx
t5-base-summarization.ipynb		t5-base-summarization.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

News-Text-Summarization

Plateforme de Résumé Automatique d'Articles d'Al Jazeera

Réalisé par :

Encadré par:

Technologies utilisées

Approche adoptée

Évaluations des modèles fine-tunés

Conclusion

About

Releases

Packages

Languages

ibtissam01/News-Text-Summarization

Folders and files

Latest commit

History

Repository files navigation

News-Text-Summarization

Plateforme de Résumé Automatique d'Articles d'Al Jazeera

Réalisé par :

Encadré par:

Technologies utilisées

Approche adoptée

Évaluations des modèles fine-tunés

Conclusion

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages