bachir
/
ola5doc


			
							12345678910111213141516171819202122232425262728
							#!/usr/bin/env python
# coding: utf8
import re
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords


phrase = "Sous le pont Mirabeau coule la Seine Et nos amours Faut-il qu'il m'en souvienne..."
print("poeme original:", phrase)
phrase = str.lower(phrase)
phrase = phrase.replace("'", " ")
phrase = phrase.replace("-", " ")
print(phrase)
liste_phrase = phrase.split(" ")
print("liste des mots originaux séparés:", liste_phrase)

# liste vide pour recevoir la liste de mots reduits
liste_reduit = []

stopWords = set(stopwords.words('french'))
for w in liste_phrase:
	if w not in stopWords:
		liste_reduit.append(w)
print("liste des mots réduit", liste_reduit)

poeme_reduit = " ".join(liste_reduit)

print("version réduite du poeme", poeme_reduit)