bachir
/
ola5doc


			
							123456789101112131415161718192021222324252627282930
							#!/usr/bin/env python
# coding: utf8
import re
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

#source = open("mirabeau.txt", 'r')
#destination = open("mirabeau_redux.txt", "wt")

phrase = "Sous le pont Mirabeau coule la Seine Et nos amours Faut-il qu'il m'en souvienne..."
print("poeme original:", phrase)

phrase = phrase.replace("'", " ")
phrase = phrase.replace("-", " ")
print(phrase)
l_phrase = phrase.split(" ")
print("liste des mots originaux séparés:", l_phrase)

# liste vide pour recevoir la liste de mots reduits
p_reduit = []


stopWords = set(stopwords.words('french'))
for w in l_phrase:
	if w not in stopWords:
        p_reduit.append(w)


print(p_reduit)