redux~20171217-114723.py 718 B

123456789101112131415161718192021222324252627282930
  1. #!/usr/bin/env python
  2. # coding: utf8
  3. import re
  4. from nltk.tokenize import sent_tokenize, word_tokenize
  5. from nltk.corpus import stopwords
  6. #source = open("mirabeau.txt", 'r')
  7. #destination = open("mirabeau_redux.txt", "wt")
  8. phrase = "Sous le pont Mirabeau coule la Seine Et nos amours Faut-il qu'il m'en souvienne..."
  9. print("poeme original:", phrase)
  10. phrase = phrase.replace("'", " ")
  11. phrase = phrase.replace("-", " ")
  12. print(phrase)
  13. l_phrase = phrase.split(" ")
  14. print("liste des mots originaux séparés:", l_phrase)
  15. # liste vide pour recevoir la liste de mots reduits
  16. p_reduit = []
  17. stopWords = set(stopwords.words('french'))
  18. for w in l_phrase:
  19. if w not in stopWords:
  20. p_reduit.append(w)
  21. print(p_reduit)