Skip to content
Snippets Groups Projects
Commit 81a9aa77 authored by Robert Bossy's avatar Robert Bossy
Browse files

rewrite snakefile, microorganisms selection

parent 17a79ce0
No related branches found
No related tags found
No related merge requests found
/ncbi:1/ncbi:131567/ncbi:2759/ncbi:33090/ncbi:3041/ncbi:2692248/ncbi:75966/ncbi:35460/ncbi:35461/ncbi:3110
/ncbi:1/ncbi:131567/ncbi:2759/ncbi:2611341/ncbi:207245/ncbi:193075
/ncbi:1/ncbi:131567/ncbi:2759/ncbi:2698737/ncbi:543769
/ncbi:1/ncbi:131567/ncbi:2759/ncbi:2698737/ncbi:33634
/ncbi:1/ncbi:10239
/ncbi:1/ncbi:131567/ncbi:2157/ncbi:1783275/ncbi:28889
/ncbi:1/ncbi:131567/ncbi:2157/ncbi:28890
/ncbi:1/ncbi:131567/ncbi:2157/ncbi:1783275/ncbi:51967
/ncbi:1/ncbi:131567/ncbi:2157/ncbi:1783276/ncbi:192989
/ncbi:1/ncbi:131567/ncbi:2759/ncbi:33090/ncbi:3041/ncbi:2692248/ncbi:3166/ncbi:2812636/ncbi:3042/ncbi:3065/ncbi:3066
ncbi:1
Be ncbi:1587
Bd ncbi:1613
unclassified bacterium ncbi:2338
unidentified bacteria ncbi:2338
unidentified bacterium ncbi:2338
unknown bacteria ncbi:2338
ncbi:2387
ncbi:2673
unidentified proteobacterium ncbi:2722
unknown proteobacterium ncbi:2722
rape ncbi:3708
Glycine ncbi:3846
rays ncbi:7858
A hybrid ncbi:8307
monitors ncbi:8555
Ara ncbi:9225
euro ncbi:9319
man ncbi:9606
bear ncbi:9632
bears ncbi:9632
cat ncbi:9685
pig ncbi:9823
Axis ncbi:9855
Vira ncbi:10239
unidentified poxvirus ncbi:10283
unidentified entomopoxvirus ncbi:10291
ASFV ncbi:10497
degu ncbi:10160
LGT ncbi:11085
LI ncbi:11086
PVA ncbi:12215
GA-1 ncbi:12345
other sequences ncbi:28384
29278
Spea ncbi:30316
A glycine ncbi:307491
ncbi:32630
ncbi:32644
flag ncbi:34205
plasmids ncbi:36549
hybrid ncbi:37965
bacteriophage ncbi:38018
bacteriophages ncbi:38018
unidentified bacteriophage ncbi:38018
unidentified phage ncbi:38018
mum ncbi:41568
Arca ncbi:44596
ncbi:45196
ncbi:45197
4ncbi:5328
Thymus ncbi:49990
ncbi:52958
Bacillus ncbi:55087
ncbi:187 ncbi:55511
name ncbi:55581
spot ncbi:59837
Laser ncbi:62990
Idea ncbi:76236
Codon ncbi:79338
expression vector ncbi:81076
unidentified expression vector ncbi:81076
Dina ncbi:83994
gag ncbi:103820
Later ncbi:123504
Ada ncbi:125078
Side ncbi:145724
Aa ncbi:152839
tipa ncbi:162890
This ncbi:169495
aka ncbi:172644
permit ncbi:173331
Car ncbi:201850
Mene ncbi:206144
Pero ncbi:214303
3A ncbi:215167
Luria ncbi:218032
Iso ncbi:238707
Cis ncbi:245896
ray ncbi:255564
Pera ncbi:256812
Mops ncbi:258862
Bias ncbi:272805
Sige ncbi:328602
Span ncbi:333408
California ncbi:337343
teta ncbi:338092
Circe ncbi:345438
Tasa ncbi:381831
Nusa ncbi:468772
A bacterium ncbi:494443
--> ncbi:545367
[A-Z]\. alpha
[A-Z]\. beta
[A-Z]\. gamma
[A-Z]\. delta
[A-Z]\. epsilon
[A-Z]\. group
A group
A major
A minor
A central
A minor
A delta
A means
A maximum
A minimum
S medium
A mouse
A flagellum
S complex
Asp
Beta
Helix
rat
Tor
Bio ncbi:463801
Chen ncbi:8842
Color ncbi:8869
Dialysis ncbi:124307
Ideas ncbi:76236
Indicator ncbi:189528
Phyla ncbi:86858
163164
374463
tetra
408170
Delta ncbi:998453
is ncbi:159382
Are ncbi:695398
Electron ncbi:1118549
environmental samples
E ncbi:178505
AND ncbi:1481724
clinical samples ncbi:88229
clinical samples ncbi:191496
clinical samples ncbi:226901
configfile: 'config.yaml'
rule rewrite:
rule microorganisms:
output:
config['OUTDIR'] + '/taxa+id_full_with-DSMZ.txt'
config['OUTDIR'] + '/taxa+id_microorganisms.txt'
input:
full=config['OUTDIR'] + '/taxa+id_full.txt',
roots='microorganisms-roots'
shell:
'''./cut-root.py {input.roots}/* <{input.full} >{output}'''
rule full:
output:
config['OUTDIR'] + '/taxa+id_full.txt'
input:
config['OUTDIR'] + '/' + config['DSMZ_MATCH_DIR']
shell:
'''../bibliome-java-utils/test/install/bin/rewrite-taxonomy -namesFile {config[NCBI_DIR]}/names.dmp -namesFile {input}/dsmz-names.dmp -prefix ncbi: -rejectionFile reject.txt -saturationFile saturate.txt -pattern '{{NAME}}\t{{TAXID}}\t{{CANONICAL}}\t{{TAXID_PATH}}\t{{POS_TAG}}\t{{RANK}}\t{{SPECIES_TAXID}}\t{{SPECIES_NAME}}\n' {config[NCBI_DIR]}/nodes.dmp {input}/dsmz-nodes.dmp >{output}'''
'''{config[REWRITE_TAXONOMY]} -namesFile {config[NCBI_DIR]}/names.dmp -namesFile {input}/dsmz-names.dmp -prefix ncbi: -rejectionFile reject.txt -saturationFile saturate.txt -pattern '{{NAME}}\t{{TAXID}}\t{{CANONICAL}}\t{{TAXID_PATH}}\t{{POS_TAG}}\t{{RANK}}\t{{SPECIES_TAXID}}\t{{SPECIES_NAME}}\n' {config[NCBI_DIR]}/nodes.dmp {input}/dsmz-nodes.dmp >{output}'''
([A-Z])[a-z]+ ([a-z]+) genre name abbreviation {1}. {2} {1} {2} {1}.{2} {1} . {2}
([^-]*)-(.*) dash-space replacement {1} {2}
(.*) [(]?([A-Z]\w+), (\d{4})[)]? author name variation {1} {2} {1} ({2})
[A-Z][a-z]*[ao] redneck plural {0}s
([A-Z][a-z]*)us latin plural {1}i
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment