redux_test.py 788 B

12345678910111213141516171819202122232425262728
  1. #!/usr/bin/env python
  2. # coding: utf8
  3. import re
  4. from nltk.tokenize import sent_tokenize, word_tokenize
  5. from nltk.corpus import stopwords
  6. phrase = "Sous le pont Mirabeau coule la Seine Et nos amours Faut-il qu'il m'en souvienne..."
  7. print("poeme original:", phrase)
  8. phrase = str.lower(phrase)
  9. phrase = phrase.replace("'", " ")
  10. phrase = phrase.replace("-", " ")
  11. print(phrase)
  12. liste_phrase = phrase.split(" ")
  13. print("liste des mots originaux séparés:", liste_phrase)
  14. # liste vide pour recevoir la liste de mots reduits
  15. liste_reduit = []
  16. stopWords = set(stopwords.words('french'))
  17. for w in liste_phrase:
  18. if w not in stopWords:
  19. liste_reduit.append(w)
  20. print("liste des mots réduit", liste_reduit)
  21. poeme_reduit = " ".join(liste_reduit)
  22. print("version réduite du poeme", poeme_reduit)