bachir
/
ola5doc


			
				
					
						
						
							1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798
							#!/usr/bin/env python
# coding: utf8
#pour installer nltk stopWords tout est là : http://www.nltk.org/data.html
#finalement je n'utilise pas nltk stopWords qui est lacunaire mais ma propre liste
import re
#from nltk.tokenize import sent_tokenize, word_tokenize
#from nltk.corpus import stopwords

#POEME_A_REDUIRE = "mirabeau.txt"
POEME_A_REDUIRE = "du_cote_de_chez_swann.txt"

def load_stopwords():
	with open("stopwords-fr.txt", "r") as sw:
		text_stopwords = sw.read()
		text_stopwords = text_stopwords[:-1] # pour enlever le retour charriot à la fin
	return text_stopwords.split("\n")
#print("stopwords_list : ", load_stopwords() )

def load_texte_a_reduire():
	with open(POEME_A_REDUIRE, "r") as source:
		texte_original = source.read()
		texte_original = texte_original[2:]
	return texte_original
	#print("texte original :", texte_original)

def nettoyer(texte_original):
	# enlever les traits d'union et les apostrophes et éloigner ponctuation
	texte_net = texte_original.replace("'", " ")
	texte_net = texte_net.replace("-", " ")
	#texte_net = texte_net.replace(".", " .")
	#texte_net = texte_net.replace(",", " ,")
	#texte_net = texte_net.replace(";", " ;")
	#texte_net = texte_net.replace('"', ' " ')

	return texte_net

def	verses_list(texte_net): # sépare les vers sur le retour charriot
	return texte_net.split("\n")

def decoupage(verses, mots_interdits): #découpage et réduction
	# verses est une liste de chaque phrase
	# mots interdit est une liste de mots
	l_verses = []
	for verse in verses:
		le_reste =[]
		mots_du_vers = verse.split(" ") # liste des mots d'un vers
		for mot in mots_du_vers:
			if mot.lower() not in mots_interdits:
				le_reste.append(mot)
		l_verses.append(le_reste)
	return l_verses

def capitalisation(reste):
	for l_mot_restant in reste:
		for i, mot in enumerate(l_mot_restant):
			if mot:# si le mot existe
				l_mot_restant[i] = mot.capitalize()
				break #sort de la dernière boucle et donc ne capitalize
						#que le premier mot non vide rencontré"""
	return reste

def create_poeme_reduit(reste_capitalize):
	texte = ''
	for l_verse_reste in reste_capitalize:
		verse_restant = ' '.join(l_verse_reste)
		texte += verse_restant + '\n'
	return texte

# def ponctuer(texte_ponctue):
# 	texte_ponctue = texte_ponctue.replace(" .", ".")
# 	texte_ponctue = texte_ponctue.replace(" ,", ",")
# 	texte_ponctue = texte_ponctue.replace(" ;", ";")
# 	texte_ponctue = texte_ponctue.replace(' " ', '"')
# 	return texte_ponctue

#Appel des fonctions

texte_original = load_texte_a_reduire()
mots_interdits = load_stopwords()
texte_net = nettoyer(texte_original)
verses = verses_list(texte_net)
#tous_les_mots = decoupage_en_mots(verses)
#liste_reduite = reduction(tous_les_mots)
#print("la liste des vers : ", verses)
#print("la liste de tous les mots séparés :", tous_les_mots)
#print("mots interdit : ", mots_interdits)
#print("liste des mots réduite :", liste_reduite)
reste = decoupage(verses, mots_interdits)
reste_capitalize = capitalisation(reste)
texte_final = create_poeme_reduit(reste_capitalize)
#texte_def_def = ponctuer(texte_final)

#with open("mirabeau_reduit.txt", "w") as destination :
with open("du_cote_de_chez_swann_reduit.txt", "w") as destination :

	destination.write(texte_final)

print ("texte definitif : ", texte_final)