123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778 |
- #!/usr/bin/env python
- # coding: utf8
- #pour installer nltk stopWords tout est là : http://www.nltk.org/data.html
- #finalement je n'utilise pas nltk stopWords qui est lacunaire mais ma propre liste
- import re
- #from nltk.tokenize import sent_tokenize, word_tokenize
- #from nltk.corpus import stopwords
- POEME_A_REDUIRE = "mirabeau.txt"
- def load_stopwords():
- with open("stopwords-fr.txt", "r") as sw:
- text_stopwords = sw.read()
- text_stopwords = text_stopwords[:-1] # pour enlever le retour charriot à la fin
- return text_stopwords.split("\n")
- #print("stopwords_list : ", load_stopwords() )
- #mots_interdits = load_stopwords()
- def load_texte_a_reduire():
- with open(POEME_A_REDUIRE, "r") as source:
- texte_original = source.read()
- return texte_original
- #print("texte original :", texte_original)
- def verses_list(texte_original): # sépare les vers sur le retour charriot
- return texte_original.split("\n")
- # verses = verses_list(texte_original)
- def words_list(verses):
- for verse in verses:
- liste_mots = verse.split(" ")
- return liste_mots
- #print("texte original :", texte_original)
- #enlever les traits d'union et les apostrophes
- # texte = texte.replace("'", " ")
- # texte = texte.replace("-", " ")
- # #print(texte)
- # liste_phrase = texte.lower().split(" ")
- # print("liste des mots originaux séparés:", liste_phrase)
- #
- # liste_reduit = []
- # #liste_phrase = str.lower(texte)
- # stopWords = set(stopwords.words('french'))
- # for w in liste_phrase:
- # if w not in stopWords:
- # liste_reduit.append(w)
- # #print("liste des mots réduite :", liste_reduit)
- #
- # #ré-introduire les majuscules en debut de vers
- # for i in range( len ( liste_reduit ) ):
- # mot_split = liste_reduit[i].split("\n")
- # #print("mot_split", mot_split)
- # if ( len(mot_split) == 2):
- # mot_split[1] = mot_split[1].capitalize()
- # liste_reduit[i] = mot_split[0] + "\n" + mot_split[1]
- # if ( i > 0 and liste_reduit[i-1] == '' ):
- # liste_reduit[i] = liste_reduit[i].capitalize()
- #
- # #if (elt.endswith("\n") and elt != " " ):
- # #mot = elt.capitalize()
- # poeme_reduit = " ".join(liste_reduit)
- # #print("version réduite du poeme :", poeme_reduit)
- #
- # with open("mirabeau_reduit.txt", "w") as destination :
- # destination.write(" ".join(liste_reduit))
- #Appel des fonctions
- texte_original = load_texte_a_reduire()
- mots_interdits = load_stopwords()
- verses = verses_list(texte_original)
- mots = words_list(verses)
- print(mots)
|