stopwords_ja.txt 1.8 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127
  1. #
  2. # This file defines a stopword set for Japanese.
  3. #
  4. # This set is made up of hand-picked frequent terms from segmented Japanese Wikipedia.
  5. # Punctuation characters and frequent kanji have mostly been left out. See LUCENE-3745
  6. # for frequency lists, etc. that can be useful for making your own set (if desired)
  7. #
  8. # Note that there is an overlap between these stopwords and the terms stopped when used
  9. # in combination with the JapanesePartOfSpeechStopFilter. When editing this file, note
  10. # that comments are not allowed on the same line as stopwords.
  11. #
  12. # Also note that stopping is done in a case-insensitive manner. Change your StopFilter
  13. # configuration if you need case-sensitive stopping. Lastly, note that stopping is done
  14. # using the same character width as the entries in this file. Since this StopFilter is
  15. # normally done after a CJKWidthFilter in your chain, you would usually want your romaji
  16. # entries to be in half-width and your kana entries to be in full-width.
  17. #
  18. ある
  19. いる
  20. する
  21. から
  22. こと
  23. として
  24. れる
  25. など
  26. なっ
  27. ない
  28. この
  29. ため
  30. その
  31. あっ
  32. よう
  33. また
  34. もの
  35. という
  36. あり
  37. まで
  38. られ
  39. なる
  40. これ
  41. によって
  42. により
  43. おり
  44. より
  45. による
  46. なり
  47. られる
  48. において
  49. なかっ
  50. なく
  51. しかし
  52. について
  53. だっ
  54. その後
  55. できる
  56. それ
  57. ので
  58. なお
  59. のみ
  60. でき
  61. における
  62. および
  63. いう
  64. さらに
  65. でも
  66. たり
  67. その他
  68. に関する
  69. たち
  70. ます
  71. なら
  72. に対して
  73. 特に
  74. せる
  75. 及び
  76. これら
  77. とき
  78. では
  79. にて
  80. ほか
  81. ながら
  82. うち
  83. そして
  84. とともに
  85. ただし
  86. かつて
  87. それぞれ
  88. または
  89. ほど
  90. ものの
  91. に対する
  92. ほとんど
  93. と共に
  94. といった
  95. です
  96. とも
  97. ところ
  98. ここ
  99. ##### End of file