redux_fichier3.py 2.4 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778
  1. #!/usr/bin/env python
  2. # coding: utf8
  3. #pour installer nltk stopWords tout est là : http://www.nltk.org/data.html
  4. #finalement je n'utilise pas nltk stopWords qui est lacunaire mais ma propre liste
  5. import re
  6. #from nltk.tokenize import sent_tokenize, word_tokenize
  7. #from nltk.corpus import stopwords
  8. POEME_A_REDUIRE = "mirabeau.txt"
  9. def load_stopwords():
  10. with open("stopwords-fr.txt", "r") as sw:
  11. text_stopwords = sw.read()
  12. text_stopwords = text_stopwords[:-1] # pour enlever le retour charriot à la fin
  13. return text_stopwords.split("\n")
  14. #print("stopwords_list : ", load_stopwords() )
  15. #mots_interdits = load_stopwords()
  16. def load_texte_a_reduire():
  17. with open(POEME_A_REDUIRE, "r") as source:
  18. texte_original = source.read()
  19. return texte_original
  20. #print("texte original :", texte_original)
  21. def verses_list(texte_original): # sépare les vers sur le retour charriot
  22. return texte_original.split("\n")
  23. # verses = verses_list(texte_original)
  24. def words_list(verses):
  25. for verse in verses:
  26. liste_mots = verse.split(" ")
  27. return liste_mots
  28. #print("texte original :", texte_original)
  29. #enlever les traits d'union et les apostrophes
  30. # texte = texte.replace("'", " ")
  31. # texte = texte.replace("-", " ")
  32. # #print(texte)
  33. # liste_phrase = texte.lower().split(" ")
  34. # print("liste des mots originaux séparés:", liste_phrase)
  35. #
  36. # liste_reduit = []
  37. # #liste_phrase = str.lower(texte)
  38. # stopWords = set(stopwords.words('french'))
  39. # for w in liste_phrase:
  40. # if w not in stopWords:
  41. # liste_reduit.append(w)
  42. # #print("liste des mots réduite :", liste_reduit)
  43. #
  44. # #ré-introduire les majuscules en debut de vers
  45. # for i in range( len ( liste_reduit ) ):
  46. # mot_split = liste_reduit[i].split("\n")
  47. # #print("mot_split", mot_split)
  48. # if ( len(mot_split) == 2):
  49. # mot_split[1] = mot_split[1].capitalize()
  50. # liste_reduit[i] = mot_split[0] + "\n" + mot_split[1]
  51. # if ( i > 0 and liste_reduit[i-1] == '' ):
  52. # liste_reduit[i] = liste_reduit[i].capitalize()
  53. #
  54. # #if (elt.endswith("\n") and elt != " " ):
  55. # #mot = elt.capitalize()
  56. # poeme_reduit = " ".join(liste_reduit)
  57. # #print("version réduite du poeme :", poeme_reduit)
  58. #
  59. # with open("mirabeau_reduit.txt", "w") as destination :
  60. # destination.write(" ".join(liste_reduit))
  61. #Appel des fonctions
  62. texte_original = load_texte_a_reduire()
  63. mots_interdits = load_stopwords()
  64. verses = verses_list(texte_original)
  65. mots = words_list(verses)
  66. print(mots)