bachir
/
ola5doc


			
				
					
						
						
							1234567891011121314151617181920212223242526
							#!/usr/bin/env python
# coding: utf8
import re
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

#source = open("mirabeau.txt", 'r')
#destination = open("mirabeau_redux.txt", "wt")

phrase = "Sous le pont Mirabeau coule la Seine Et nos amours Faut-il qu'il m'en souvienne..."
print("poeme original:", phrase)

phrase = phrase.replace("'", " ")
phrase = phrase.replace("-", " ")
print(phrase)
l_phrase = phrase.split(" ")
print("liste des mots originaux séparés:", l_phrase)

# liste vide pour recevoir la liste de mots reduits
p_reduit = []

stopWords = set(stopwords.words('french'))
for w in l_phrase:
	if w not in stopWords:
		p_reduit.append(w)
print("liste des mots réduit", p_reduit)