redux2~20171217-154427.py 1.0 KB

1234567891011121314151617181920212223242526272829303132333435
  1. #!/usr/bin/env python
  2. # coding: utf8
  3. #pour installer nltk stopWords tout là : http://www.nltk.org/data.html
  4. import re
  5. from nltk.tokenize import sent_tokenize, word_tokenize
  6. from nltk.corpus import stopwords
  7. with open("mirabeau.txt", "r") as source:
  8. list_sup = ["'", "-", "l "," , "le ", "les ", "la ", "un ","une ", "des "]
  9. print(list_sup)
  10. texte = source.read()
  11. #print(texte)
  12. #enlever les traits d'union et les apostrophes
  13. texte = str.lower(texte)
  14. texte = texte.replace("'", " ")
  15. texte = texte.replace("-", " ")
  16. texte = texte.replace(" l ", " ")
  17. print(texte)
  18. liste_phrase = texte.split(" ")
  19. print("liste des mots originaux séparés:", liste_phrase)
  20. liste_reduit = []
  21. stopWords = set(stopwords.words('french'))
  22. for w in liste_phrase:
  23. if w not in stopWords:
  24. liste_reduit.append(w)
  25. #print("liste des mots réduit :", liste_reduit)
  26. poeme_reduit = (" ".join(liste_reduit))
  27. #print("version réduite du poeme :", poeme_reduit)
  28. with open("mirabeau_reduit.txt", "w") as destination :
  29. destination.write(" ".join(liste_reduit))