#!/usr/bin/env python # coding: utf8 import re from nltk.tokenize import sent_tokenize, word_tokenize from nltk.corpus import stopwords #source = open("mirabeau.txt", 'r') #destination = open("mirabeau_redux.txt", "wt") phrase = "Sous le pont Mirabeau coule la Seine Et nos amours Faut-il qu'il m'en souvienne..." print("poeme original:", phrase) phrase = phrase.replace("'", " ") phrase = phrase.replace("-", " ") print(phrase) l_phrase = phrase.split(" ") print("liste des mots originaux séparés:", l_phrase) # liste vide pour recevoir la liste de mots reduits p_reduit = [] stopWords = set(stopwords.words('french')) for w in l_phrase: if w not in stopWords: p_reduit.append(w) print("liste des mots réduit", p_reduit)