stoptags_ja.txt 17 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420
  1. #
  2. # This file defines a Japanese stoptag set for JapanesePartOfSpeechStopFilter.
  3. #
  4. # Any token with a part-of-speech tag that exactly matches those defined in this
  5. # file are removed from the token stream.
  6. #
  7. # Set your own stoptags by uncommenting the lines below. Note that comments are
  8. # not allowed on the same line as a stoptag. See LUCENE-3745 for frequency lists,
  9. # etc. that can be useful for building you own stoptag set.
  10. #
  11. # The entire possible tagset is provided below for convenience.
  12. #
  13. #####
  14. # noun: unclassified nouns
  15. #名詞
  16. #
  17. # noun-common: Common nouns or nouns where the sub-classification is undefined
  18. #名詞-一般
  19. #
  20. # noun-proper: Proper nouns where the sub-classification is undefined
  21. #名詞-固有名詞
  22. #
  23. # noun-proper-misc: miscellaneous proper nouns
  24. #名詞-固有名詞-一般
  25. #
  26. # noun-proper-person: Personal names where the sub-classification is undefined
  27. #名詞-固有名詞-人名
  28. #
  29. # noun-proper-person-misc: names that cannot be divided into surname and
  30. # given name; foreign names; names where the surname or given name is unknown.
  31. # e.g. お市の方
  32. #名詞-固有名詞-人名-一般
  33. #
  34. # noun-proper-person-surname: Mainly Japanese surnames.
  35. # e.g. 山田
  36. #名詞-固有名詞-人名-姓
  37. #
  38. # noun-proper-person-given_name: Mainly Japanese given names.
  39. # e.g. 太郎
  40. #名詞-固有名詞-人名-名
  41. #
  42. # noun-proper-organization: Names representing organizations.
  43. # e.g. 通産省, NHK
  44. #名詞-固有名詞-組織
  45. #
  46. # noun-proper-place: Place names where the sub-classification is undefined
  47. #名詞-固有名詞-地域
  48. #
  49. # noun-proper-place-misc: Place names excluding countries.
  50. # e.g. アジア, バルセロナ, 京都
  51. #名詞-固有名詞-地域-一般
  52. #
  53. # noun-proper-place-country: Country names.
  54. # e.g. 日本, オーストラリア
  55. #名詞-固有名詞-地域-国
  56. #
  57. # noun-pronoun: Pronouns where the sub-classification is undefined
  58. #名詞-代名詞
  59. #
  60. # noun-pronoun-misc: miscellaneous pronouns:
  61. # e.g. それ, ここ, あいつ, あなた, あちこち, いくつ, どこか, なに, みなさん, みんな, わたくし, われわれ
  62. #名詞-代名詞-一般
  63. #
  64. # noun-pronoun-contraction: Spoken language contraction made by combining a
  65. # pronoun and the particle 'wa'.
  66. # e.g. ありゃ, こりゃ, こりゃあ, そりゃ, そりゃあ
  67. #名詞-代名詞-縮約
  68. #
  69. # noun-adverbial: Temporal nouns such as names of days or months that behave
  70. # like adverbs. Nouns that represent amount or ratios and can be used adverbially,
  71. # e.g. 金曜, 一月, 午後, 少量
  72. #名詞-副詞可能
  73. #
  74. # noun-verbal: Nouns that take arguments with case and can appear followed by
  75. # 'suru' and related verbs (する, できる, なさる, くださる)
  76. # e.g. インプット, 愛着, 悪化, 悪戦苦闘, 一安心, 下取り
  77. #名詞-サ変接続
  78. #
  79. # noun-adjective-base: The base form of adjectives, words that appear before な ("na")
  80. # e.g. 健康, 安易, 駄目, だめ
  81. #名詞-形容動詞語幹
  82. #
  83. # noun-numeric: Arabic numbers, Chinese numerals, and counters like 何 (回), 数.
  84. # e.g. 0, 1, 2, 何, 数, 幾
  85. #名詞-数
  86. #
  87. # noun-affix: noun affixes where the sub-classification is undefined
  88. #名詞-非自立
  89. #
  90. # noun-affix-misc: Of adnominalizers, the case-marker の ("no"), and words that
  91. # attach to the base form of inflectional words, words that cannot be classified
  92. # into any of the other categories below. This category includes indefinite nouns.
  93. # e.g. あかつき, 暁, かい, 甲斐, 気, きらい, 嫌い, くせ, 癖, こと, 事, ごと, 毎, しだい, 次第,
  94. # 順, せい, 所為, ついで, 序で, つもり, 積もり, 点, どころ, の, はず, 筈, はずみ, 弾み,
  95. # 拍子, ふう, ふり, 振り, ほう, 方, 旨, もの, 物, 者, ゆえ, 故, ゆえん, 所以, わけ, 訳,
  96. # わり, 割り, 割, ん-口語/, もん-口語/
  97. #名詞-非自立-一般
  98. #
  99. # noun-affix-adverbial: noun affixes that that can behave as adverbs.
  100. # e.g. あいだ, 間, あげく, 挙げ句, あと, 後, 余り, 以外, 以降, 以後, 以上, 以前, 一方, うえ,
  101. # 上, うち, 内, おり, 折り, かぎり, 限り, きり, っきり, 結果, ころ, 頃, さい, 際, 最中, さなか,
  102. # 最中, じたい, 自体, たび, 度, ため, 為, つど, 都度, とおり, 通り, とき, 時, ところ, 所,
  103. # とたん, 途端, なか, 中, のち, 後, ばあい, 場合, 日, ぶん, 分, ほか, 他, まえ, 前, まま,
  104. # 儘, 侭, みぎり, 矢先
  105. #名詞-非自立-副詞可能
  106. #
  107. # noun-affix-aux: noun affixes treated as 助動詞 ("auxiliary verb") in school grammars
  108. # with the stem よう(だ) ("you(da)").
  109. # e.g. よう, やう, 様 (よう)
  110. #名詞-非自立-助動詞語幹
  111. #
  112. # noun-affix-adjective-base: noun affixes that can connect to the indeclinable
  113. # connection form な (aux "da").
  114. # e.g. みたい, ふう
  115. #名詞-非自立-形容動詞語幹
  116. #
  117. # noun-special: special nouns where the sub-classification is undefined.
  118. #名詞-特殊
  119. #
  120. # noun-special-aux: The そうだ ("souda") stem form that is used for reporting news, is
  121. # treated as 助動詞 ("auxiliary verb") in school grammars, and attach to the base
  122. # form of inflectional words.
  123. # e.g. そう
  124. #名詞-特殊-助動詞語幹
  125. #
  126. # noun-suffix: noun suffixes where the sub-classification is undefined.
  127. #名詞-接尾
  128. #
  129. # noun-suffix-misc: Of the nouns or stem forms of other parts of speech that connect
  130. # to ガル or タイ and can combine into compound nouns, words that cannot be classified into
  131. # any of the other categories below. In general, this category is more inclusive than
  132. # 接尾語 ("suffix") and is usually the last element in a compound noun.
  133. # e.g. おき, かた, 方, 甲斐 (がい), がかり, ぎみ, 気味, ぐるみ, (~した) さ, 次第, 済 (ず) み,
  134. # よう, (でき)っこ, 感, 観, 性, 学, 類, 面, 用
  135. #名詞-接尾-一般
  136. #
  137. # noun-suffix-person: Suffixes that form nouns and attach to person names more often
  138. # than other nouns.
  139. # e.g. 君, 様, 著
  140. #名詞-接尾-人名
  141. #
  142. # noun-suffix-place: Suffixes that form nouns and attach to place names more often
  143. # than other nouns.
  144. # e.g. 町, 市, 県
  145. #名詞-接尾-地域
  146. #
  147. # noun-suffix-verbal: Of the suffixes that attach to nouns and form nouns, those that
  148. # can appear before スル ("suru").
  149. # e.g. 化, 視, 分け, 入り, 落ち, 買い
  150. #名詞-接尾-サ変接続
  151. #
  152. # noun-suffix-aux: The stem form of そうだ (様態) that is used to indicate conditions,
  153. # is treated as 助動詞 ("auxiliary verb") in school grammars, and attach to the
  154. # conjunctive form of inflectional words.
  155. # e.g. そう
  156. #名詞-接尾-助動詞語幹
  157. #
  158. # noun-suffix-adjective-base: Suffixes that attach to other nouns or the conjunctive
  159. # form of inflectional words and appear before the copula だ ("da").
  160. # e.g. 的, げ, がち
  161. #名詞-接尾-形容動詞語幹
  162. #
  163. # noun-suffix-adverbial: Suffixes that attach to other nouns and can behave as adverbs.
  164. # e.g. 後 (ご), 以後, 以降, 以前, 前後, 中, 末, 上, 時 (じ)
  165. #名詞-接尾-副詞可能
  166. #
  167. # noun-suffix-classifier: Suffixes that attach to numbers and form nouns. This category
  168. # is more inclusive than 助数詞 ("classifier") and includes common nouns that attach
  169. # to numbers.
  170. # e.g. 個, つ, 本, 冊, パーセント, cm, kg, カ月, か国, 区画, 時間, 時半
  171. #名詞-接尾-助数詞
  172. #
  173. # noun-suffix-special: Special suffixes that mainly attach to inflecting words.
  174. # e.g. (楽し) さ, (考え) 方
  175. #名詞-接尾-特殊
  176. #
  177. # noun-suffix-conjunctive: Nouns that behave like conjunctions and join two words
  178. # together.
  179. # e.g. (日本) 対 (アメリカ), 対 (アメリカ), (3) 対 (5), (女優) 兼 (主婦)
  180. #名詞-接続詞的
  181. #
  182. # noun-verbal_aux: Nouns that attach to the conjunctive particle て ("te") and are
  183. # semantically verb-like.
  184. # e.g. ごらん, ご覧, 御覧, 頂戴
  185. #名詞-動詞非自立的
  186. #
  187. # noun-quotation: text that cannot be segmented into words, proverbs, Chinese poetry,
  188. # dialects, English, etc. Currently, the only entry for 名詞 引用文字列 ("noun quotation")
  189. # is いわく ("iwaku").
  190. #名詞-引用文字列
  191. #
  192. # noun-nai_adjective: Words that appear before the auxiliary verb ない ("nai") and
  193. # behave like an adjective.
  194. # e.g. 申し訳, 仕方, とんでも, 違い
  195. #名詞-ナイ形容詞語幹
  196. #
  197. #####
  198. # prefix: unclassified prefixes
  199. #接頭詞
  200. #
  201. # prefix-nominal: Prefixes that attach to nouns (including adjective stem forms)
  202. # excluding numerical expressions.
  203. # e.g. お (水), 某 (氏), 同 (社), 故 (~氏), 高 (品質), お (見事), ご (立派)
  204. #接頭詞-名詞接続
  205. #
  206. # prefix-verbal: Prefixes that attach to the imperative form of a verb or a verb
  207. # in conjunctive form followed by なる/なさる/くださる.
  208. # e.g. お (読みなさい), お (座り)
  209. #接頭詞-動詞接続
  210. #
  211. # prefix-adjectival: Prefixes that attach to adjectives.
  212. # e.g. お (寒いですねえ), バカ (でかい)
  213. #接頭詞-形容詞接続
  214. #
  215. # prefix-numerical: Prefixes that attach to numerical expressions.
  216. # e.g. 約, およそ, 毎時
  217. #接頭詞-数接続
  218. #
  219. #####
  220. # verb: unclassified verbs
  221. #動詞
  222. #
  223. # verb-main:
  224. #動詞-自立
  225. #
  226. # verb-auxiliary:
  227. #動詞-非自立
  228. #
  229. # verb-suffix:
  230. #動詞-接尾
  231. #
  232. #####
  233. # adjective: unclassified adjectives
  234. #形容詞
  235. #
  236. # adjective-main:
  237. #形容詞-自立
  238. #
  239. # adjective-auxiliary:
  240. #形容詞-非自立
  241. #
  242. # adjective-suffix:
  243. #形容詞-接尾
  244. #
  245. #####
  246. # adverb: unclassified adverbs
  247. #副詞
  248. #
  249. # adverb-misc: Words that can be segmented into one unit and where adnominal
  250. # modification is not possible.
  251. # e.g. あいかわらず, 多分
  252. #副詞-一般
  253. #
  254. # adverb-particle_conjunction: Adverbs that can be followed by の, は, に,
  255. # な, する, だ, etc.
  256. # e.g. こんなに, そんなに, あんなに, なにか, なんでも
  257. #副詞-助詞類接続
  258. #
  259. #####
  260. # adnominal: Words that only have noun-modifying forms.
  261. # e.g. この, その, あの, どの, いわゆる, なんらかの, 何らかの, いろんな, こういう, そういう, ああいう,
  262. # どういう, こんな, そんな, あんな, どんな, 大きな, 小さな, おかしな, ほんの, たいした,
  263. # 「(, も) さる (ことながら)」, 微々たる, 堂々たる, 単なる, いかなる, 我が」「同じ, 亡き
  264. #連体詞
  265. #
  266. #####
  267. # conjunction: Conjunctions that can occur independently.
  268. # e.g. が, けれども, そして, じゃあ, それどころか
  269. 接続詞
  270. #
  271. #####
  272. # particle: unclassified particles.
  273. 助詞
  274. #
  275. # particle-case: case particles where the subclassification is undefined.
  276. 助詞-格助詞
  277. #
  278. # particle-case-misc: Case particles.
  279. # e.g. から, が, で, と, に, へ, より, を, の, にて
  280. 助詞-格助詞-一般
  281. #
  282. # particle-case-quote: the "to" that appears after nouns, a person’s speech,
  283. # quotation marks, expressions of decisions from a meeting, reasons, judgements,
  284. # conjectures, etc.
  285. # e.g. ( だ) と (述べた.), ( である) と (して執行猶予...)
  286. 助詞-格助詞-引用
  287. #
  288. # particle-case-compound: Compounds of particles and verbs that mainly behave
  289. # like case particles.
  290. # e.g. という, といった, とかいう, として, とともに, と共に, でもって, にあたって, に当たって, に当って,
  291. # にあたり, に当たり, に当り, に当たる, にあたる, において, に於いて,に於て, における, に於ける,
  292. # にかけ, にかけて, にかんし, に関し, にかんして, に関して, にかんする, に関する, に際し,
  293. # に際して, にしたがい, に従い, に従う, にしたがって, に従って, にたいし, に対し, にたいして,
  294. # に対して, にたいする, に対する, について, につき, につけ, につけて, につれ, につれて, にとって,
  295. # にとり, にまつわる, によって, に依って, に因って, により, に依り, に因り, による, に依る, に因る,
  296. # にわたって, にわたる, をもって, を以って, を通じ, を通じて, を通して, をめぐって, をめぐり, をめぐる,
  297. # って-口語/, ちゅう-関西弁「という」/, (何) ていう (人)-口語/, っていう-口語/, といふ, とかいふ
  298. 助詞-格助詞-連語
  299. #
  300. # particle-conjunctive:
  301. # e.g. から, からには, が, けれど, けれども, けど, し, つつ, て, で, と, ところが, どころか, とも, ども,
  302. # ながら, なり, ので, のに, ば, ものの, や ( した), やいなや, (ころん) じゃ(いけない)-口語/,
  303. # (行っ) ちゃ(いけない)-口語/, (言っ) たって (しかたがない)-口語/, (それがなく)ったって (平気)-口語/
  304. 助詞-接続助詞
  305. #
  306. # particle-dependency:
  307. # e.g. こそ, さえ, しか, すら, は, も, ぞ
  308. 助詞-係助詞
  309. #
  310. # particle-adverbial:
  311. # e.g. がてら, かも, くらい, 位, ぐらい, しも, (学校) じゃ(これが流行っている)-口語/,
  312. # (それ)じゃあ (よくない)-口語/, ずつ, (私) なぞ, など, (私) なり (に), (先生) なんか (大嫌い)-口語/,
  313. # (私) なんぞ, (先生) なんて (大嫌い)-口語/, のみ, だけ, (私) だって-口語/, だに,
  314. # (彼)ったら-口語/, (お茶) でも (いかが), 等 (とう), (今後) とも, ばかり, ばっか-口語/, ばっかり-口語/,
  315. # ほど, 程, まで, 迄, (誰) も (が)([助詞-格助詞] および [助詞-係助詞] の前に位置する「も」)
  316. 助詞-副助詞
  317. #
  318. # particle-interjective: particles with interjective grammatical roles.
  319. # e.g. (松島) や
  320. 助詞-間投助詞
  321. #
  322. # particle-coordinate:
  323. # e.g. と, たり, だの, だり, とか, なり, や, やら
  324. 助詞-並立助詞
  325. #
  326. # particle-final:
  327. # e.g. かい, かしら, さ, ぜ, (だ)っけ-口語/, (とまってる) で-方言/, な, ナ, なあ-口語/, ぞ, ね, ネ,
  328. # ねぇ-口語/, ねえ-口語/, ねん-方言/, の, のう-口語/, や, よ, ヨ, よぉ-口語/, わ, わい-口語/
  329. 助詞-終助詞
  330. #
  331. # particle-adverbial/conjunctive/final: The particle "ka" when unknown whether it is
  332. # adverbial, conjunctive, or sentence final. For example:
  333. # (a) 「A か B か」. Ex:「(国内で運用する) か,(海外で運用する) か (.)」
  334. # (b) Inside an adverb phrase. Ex:「(幸いという) か (, 死者はいなかった.)」
  335. # 「(祈りが届いたせい) か (, 試験に合格した.)」
  336. # (c) 「かのように」. Ex:「(何もなかった) か (のように振る舞った.)」
  337. # e.g. か
  338. 助詞-副助詞/並立助詞/終助詞
  339. #
  340. # particle-adnominalizer: The "no" that attaches to nouns and modifies
  341. # non-inflectional words.
  342. 助詞-連体化
  343. #
  344. # particle-adnominalizer: The "ni" and "to" that appear following nouns and adverbs
  345. # that are giongo, giseigo, or gitaigo.
  346. # e.g. に, と
  347. 助詞-副詞化
  348. #
  349. # particle-special: A particle that does not fit into one of the above classifications.
  350. # This includes particles that are used in Tanka, Haiku, and other poetry.
  351. # e.g. かな, けむ, ( しただろう) に, (あんた) にゃ(わからん), (俺) ん (家)
  352. 助詞-特殊
  353. #
  354. #####
  355. # auxiliary-verb:
  356. 助動詞
  357. #
  358. #####
  359. # interjection: Greetings and other exclamations.
  360. # e.g. おはよう, おはようございます, こんにちは, こんばんは, ありがとう, どうもありがとう, ありがとうございます,
  361. # いただきます, ごちそうさま, さよなら, さようなら, はい, いいえ, ごめん, ごめんなさい
  362. #感動詞
  363. #
  364. #####
  365. # symbol: unclassified Symbols.
  366. 記号
  367. #
  368. # symbol-misc: A general symbol not in one of the categories below.
  369. # e.g. [○◎@$〒→+]
  370. 記号-一般
  371. #
  372. # symbol-comma: Commas
  373. # e.g. [,、]
  374. 記号-読点
  375. #
  376. # symbol-period: Periods and full stops.
  377. # e.g. [..。]
  378. 記号-句点
  379. #
  380. # symbol-space: Full-width whitespace.
  381. 記号-空白
  382. #
  383. # symbol-open_bracket:
  384. # e.g. [({‘“『【]
  385. 記号-括弧開
  386. #
  387. # symbol-close_bracket:
  388. # e.g. [)}’”』」】]
  389. 記号-括弧閉
  390. #
  391. # symbol-alphabetic:
  392. #記号-アルファベット
  393. #
  394. #####
  395. # other: unclassified other
  396. #その他
  397. #
  398. # other-interjection: Words that are hard to classify as noun-suffixes or
  399. # sentence-final particles.
  400. # e.g. (だ)ァ
  401. その他-間投
  402. #
  403. #####
  404. # filler: Aizuchi that occurs during a conversation or sounds inserted as filler.
  405. # e.g. あの, うんと, えと
  406. フィラー
  407. #
  408. #####
  409. # non-verbal: non-verbal sound.
  410. 非言語音
  411. #
  412. #####
  413. # fragment:
  414. #語断片
  415. #
  416. #####
  417. # unknown: unknown part of speech.
  418. #未知語
  419. #
  420. ##### End of file