bachir
/
ola5doc


			
				
					
						
						
							123456789101112131415161718192021222324252627282930313233343536373839404142434445
							#!/usr/bin/env python
# coding: utf8

#pour installer nltk stopWords tout est là : http://www.nltk.org/data.html
import re
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

with open("mirabeau.txt", "r") as source:
	texte = source.read()

	#print("texte or", texte)
#enlever les traits d'union et les apostrophes
	texte = texte.replace("'", " ")
	texte = texte.replace("-", " ")
	#print(texte)
	liste_phrase = texte.lower().split(" ")
#print("liste des mots originaux séparés:", liste_phrase)

liste_reduit = []
#liste_phrase = str.lower(texte)
stopWords = set(stopwords.words('french'))
for w in liste_phrase:
	if w not in stopWords:
		print("no stopword", w)
		liste_reduit.append(w)
print("liste des mots réduite :", liste_reduit)

#ré-introduire les majuscules en debut de vers
for i in range( len ( liste_reduit ) ):
	mot_split = liste_reduit[i].split("\n")
	#print("mot_split", mot_split)
	if ( len(mot_split) == 2):
		mot_split[1] = mot_split[1].capitalize()
		liste_reduit[i] = mot_split[0] + "\n" + mot_split[1]
	if ( i > 0 and liste_reduit[i-1] == '' ):
		liste_reduit[i] = liste_reduit[i].capitalize()

	#if (elt.endswith("\n") and elt != " " ):
		#mot = elt.capitalize()
poeme_reduit = " ".join(liste_reduit)
print("version réduite du poeme :", poeme_reduit)

with open("mirabeau_reduit.txt", "w") as destination :
	destination.write(" ".join(liste_reduit))