diff --git a/reject.txt b/reject.txt index 92f11967d264ea80f52c97b34c286ef1c64c277a..46b634a7bec8d5691240a1d06998b2251a87bbf2 100644 --- a/reject.txt +++ b/reject.txt @@ -1,102 +1,180 @@ -[0-9/\.\-]+ +### only symbols +[ -@]+ + + +### countries +Argentina +Bulgaria +China +Japan +Mali +Namibia +niger +Panama +Tanzania +Togo +Tonga +turkey + + +### Common English words +A +AD +AH +Album +all +ALL +AM +AND +AT +BAG +bear +Camera +Cancer +Car +cat +collection +Data +fish +flag +Gas +Hero +Hi +HI +I +Idea +IE +Lap +Major +man +ME +MR +MS +name +none +OR +other +permit +PM +red +root +Sea +Ship +spot +TeSt +This +unknown +white + + +### Excluded nodes + +# root ncbi:1 -Be ncbi:1587 -Bd ncbi:1613 -unclassified bacterium ncbi:2338 -unidentified bacteria ncbi:2338 -unidentified bacterium ncbi:2338 -unknown bacteria ncbi:2338 + +# transposons ncbi:2387 + +# insertion sequences ncbi:2673 -unidentified proteobacterium ncbi:2722 -unknown proteobacterium ncbi:2722 -rape ncbi:3708 -Glycine ncbi:3846 -rays ncbi:7858 -A hybrid ncbi:8307 -monitors ncbi:8555 -Ara ncbi:9225 -euro ncbi:9319 -man ncbi:9606 -bear ncbi:9632 -bears ncbi:9632 -cat ncbi:9685 -pig ncbi:9823 -Axis ncbi:9855 -Vira ncbi:10239 -unidentified poxvirus ncbi:10283 -unidentified entomopoxvirus ncbi:10291 -ASFV ncbi:10497 -degu ncbi:10160 -LGT ncbi:11085 -LI ncbi:11086 -PVA ncbi:12215 -GA-1 ncbi:12345 -other sequences ncbi:28384 -29278 -Spea ncbi:30316 -A glycine ncbi:307491 + +# other sequences +ncbi:28384 + +# expression vectors +ncbi:29278 + +# synthetic construct ncbi:32630 + +# unidentified ncbi:32644 -flag ncbi:34205 -plasmids ncbi:36549 -hybrid ncbi:37965 -bacteriophage ncbi:38018 -bacteriophages ncbi:38018 -unidentified bacteriophage ncbi:38018 -unidentified phage ncbi:38018 -mum ncbi:41568 -Arca ncbi:44596 + +# plasmids +ncbi:36549 + +# hybrid +ncbi:37965 + +# cloning vector ncbi:45196 -ncbi:45197 -4ncbi:5328 -Thymus ncbi:49990 -ncbi:52958 -Bacillus ncbi:55087 -ncbi:187 ncbi:55511 -name ncbi:55581 -spot ncbi:59837 -Laser ncbi:62990 -Idea ncbi:76236 -Codon ncbi:79338 -expression vector ncbi:81076 -unidentified expression vector ncbi:81076 -Dina ncbi:83994 -gag ncbi:103820 -Later ncbi:123504 -Ada ncbi:125078 -Side ncbi:145724 -Aa ncbi:152839 -tipa ncbi:162890 -This ncbi:169495 -aka ncbi:172644 -permit ncbi:173331 -Car ncbi:201850 -Mene ncbi:206144 -Pero ncbi:214303 -3A ncbi:215167 -Luria ncbi:218032 -Iso ncbi:238707 -Cis ncbi:245896 -ray ncbi:255564 -Pera ncbi:256812 -Mops ncbi:258862 -Bias ncbi:272805 -Sige ncbi:328602 -Span ncbi:333408 -California ncbi:337343 -teta ncbi:338092 -Circe ncbi:345438 -Tasa ncbi:381831 -Nusa ncbi:468772 -A bacterium ncbi:494443 ---> ncbi:545367 + +# shuttle vector +shuttle vector + +# expression vector +ncbi:81076 + +# human gut metagenome +ncbi:408170 + + +### Excluded synonyms +unidentified proteobacterium +unknown proteobacterium +rape +Glycine +ray +rays +BD +monitors +Ara +euro +bears +pig +Axis +Vira +unidentified poxvirus +unidentified entomopoxvirus +ASFV +degu +LGT +LI +PVA +GA-1 +GA 1 +Spea +bacteriophage +bacteriophages +unidentified bacteriophage +unidentified phage +mum +Arca +Thymus +phototrophic bacterium +ncbi:55087 Bacillus +Laser +Codon +Dina +gag +Ada +Aa +tipa +aka +Mene +Pero +3A +3a +Luria +Iso +Cis +Pera +Mops +Bias +Sige +California +teta +Circe +Nusa [A-Z]\. alpha [A-Z]\. beta [A-Z]\. gamma [A-Z]\. delta [A-Z]\. epsilon [A-Z]\. group +[A-Z] complex +A hybrid +A glycine A group A major A minor @@ -109,30 +187,54 @@ A minimum S medium A mouse A flagellum -S complex -Asp Beta Helix rat Tor -Bio ncbi:463801 -Chen ncbi:8842 -Color ncbi:8869 -Dialysis ncbi:124307 -Ideas ncbi:76236 -Indicator ncbi:189528 -Phyla ncbi:86858 -163164 -374463 +Chen +Dialysis +Ideas +Indicator +Phyla tetra -408170 -Delta ncbi:998453 -is ncbi:159382 -Are ncbi:695398 -Electron ncbi:1118549 +Tetra +Delta +Electron environmental samples -E ncbi:178505 -AND ncbi:1481724 -clinical samples ncbi:88229 -clinical samples ncbi:191496 -clinical samples ncbi:226901 +clinical samples + + +### Obsolete +# Be ncbi:1587 +# Bd ncbi:1613 +# unclassified bacterium ncbi:2338 +# unidentified bacteria ncbi:2338 +# unidentified bacterium ncbi:2338 +# unknown bacteria ncbi:2338 +# flag ncbi:34205 +# ncbi:5328 +# 187 ncbi:55511 +# name ncbi:55581 +# spot ncbi:59837 +# Laser ncbi:62990 +# Idea ncbi:76236 +# Later ncbi:123504 +# Side ncbi:145724 +# This ncbi:169495 +# permit ncbi:173331 +# Car ncbi:201850 +# Span ncbi:333408 +# Tasa ncbi:381831 +# Nusa ncbi:468772 +# A bacterium ncbi:494443 +# --> ncbi:545367 +# A group +# Asp +# Bio ncbi:463801 +# Color ncbi:8869 +# 163164 +# 374463 +# is ncbi:159382 +# Are ncbi:695398 +# E ncbi:178505 +# AND ncbi:1481724