123456789101112131415161718192021222324252627282930 |
- #!/usr/bin/env python
- # coding: utf8
- import re
- from nltk.tokenize import sent_tokenize, word_tokenize
- from nltk.corpus import stopwords
- #source = open("mirabeau.txt", 'r')
- #destination = open("mirabeau_redux.txt", "wt")
- phrase = "Sous le pont Mirabeau coule la Seine, les choses, la vie, un, une, des, Et nos amours Faut-il qu'il m'en souvienne..."
- print("poeme original:", phrase)
- phrase = str.lower(phrase)
- phrase = phrase.replace("'", " ")
- phrase = phrase.replace("-", " ")
- print(phrase)
- liste_phrase = phrase.split(" ")
- print("liste des mots originaux séparés:", liste_phrase)
- # liste vide pour recevoir la liste de mots reduits
- liste_reduit = []
- stopWords = set(stopwords.words('french'))
- for w in liste_phrase:
- if w not in stopWords:
- liste_reduit.append(w)
- print("liste des mots réduit", liste_reduit)
- poeme_reduit = " ".join(liste_reduit)
- print("version réduite du poeme", poeme_reduit)
|