import os
import fnmatch
import pandas as pd
import numpy as np

from qiime2 import Visualization


# Put the full path to your home working directory
home_dir = "/home/ec2-user/sequencing_analysis/"

# Subdirectory in home_dir containing all of the reads (probably 'soil')
data_dir = "soil/"

# Whether or not to do pre-processing (this takes a looong time)
pre_process = True


# Full path to the directory with reads
data_dir = os.path.join(home_dir, data_dir)

# These are artifact and visualization directories located within the home directory.
artifact_dir = os.path.join(home_dir, 'qiime_artifacts/')
visualization_dir = os.path.join(home_dir, 'qiime_visualizations/')

# If these do not exist, make them
if not os.path.exists(artifact_dir):
    os.makedirs(artifact_dir)
    
if not os.path.exists(visualization_dir):
    os.makedirs(visualization_dir)


if pre_process:
    with open(os.path.join(home_dir, 'manifest.txt'), 'w') as f:
        # Add formatting rows
        f.write('sample-id\tforward-absolute-filepath\treverse-absolute-filepath\n')

        # list all files and write the forward reads into the manifest file
        list_of_files = os.listdir(data_dir)  
        forward = '*L001_R1_001.fastq.gz'

        for file in list_of_files:  
            if fnmatch.fnmatch(file, forward):
                line = str(file.split("_")[0]
                           + f'\t{data_dir}'
                           + str(file.split("L001")[0])
                           + 'L001_R1_001.fastq.gz'
                           + f'\t{data_dir}'
                           + str(file.split("L001")[0])
                           + 'L001_R2_001.fastq.gz\n')
                f.write(line)

    pd.set_option('display.max_colwidth', None)           
    pd.read_csv(os.path.join(home_dir, 'manifest.txt'), sep='\t')


if pre_process:
    !qiime tools import \
      --type 'SampleData[PairedEndSequencesWithQuality]' \
      --input-path $home_dir'manifest.txt' \
      --output-path $artifact_dir'pair-end-demux.qza' \
      --input-format PairedEndFastqManifestPhred33V2

Imported /home/ec2-user/sequencing_analysis/manifest.txt as PairedEndFastqManifestPhred33V2 to /home/ec2-user/sequencing_analysis/qiime_artifacts/pair-end-demux.qza


# Next, create a visualization of demuliplexed samples with quality
if pre_process:
    !qiime demux summarize \
      --i-data $artifact_dir'pair-end-demux.qza' \
      --o-visualization $visualization_dir'pair-end-demux.qzv'

Saved Visualization to: /home/ec2-user/sequencing_analysis/qiime_visualizations/pair-end-demux.qzv


Visualization.load(os.path.join(visualization_dir, 'pair-end-demux.qzv'))


# Use Dada2 to denoise the sample. This removes spurious reads that are more likely to be sequencing errors than novel colonies
if pre_process:
    !qiime dada2 denoise-paired \
        --i-demultiplexed-seqs $artifact_dir'pair-end-demux.qza' \
        --p-trunc-len-f 250 \
        --p-trunc-len-r 200 \
        --p-n-threads 4 \
        --o-representative-sequences $artifact_dir'rep-seqs.qza' \
        --o-table $artifact_dir'OTU_table.qza' \
        --o-denoising-stats $artifact_dir'stats-dada2.qza'

Saved FeatureTable[Frequency] to: /home/ec2-user/sequencing_analysis/qiime_artifacts/OTU_table.qza
Saved FeatureData[Sequence] to: /home/ec2-user/sequencing_analysis/qiime_artifacts/rep-seqs.qza
Saved SampleData[DADA2Stats] to: /home/ec2-user/sequencing_analysis/qiime_artifacts/stats-dada2.qza


if pre_process:
    !qiime metadata tabulate \
      --m-input-file $artifact_dir'stats-dada2.qza' \
      --o-visualization $visualization_dir'stats-dada2.qzv'

Saved Visualization to: /home/ec2-user/sequencing_analysis/qiime_visualizations/stats-dada2.qzv


metadata = os.path.join(home_dir, 'metadata.tsv')
df = pd.read_csv(metadata, sep='\t')

# Display dataframe
df


# Gives us a table with each feature and its abundance
!qiime feature-table summarize \
  --i-table $artifact_dir'OTU_table.qza' \
  --o-visualization $visualization_dir'OTU_table.qzv' \
  --m-sample-metadata-file $metadata

# Relates the features to the sequences
!qiime feature-table tabulate-seqs \
  --i-data $artifact_dir'rep-seqs.qza' \
  --o-visualization $visualization_dir'rep-seqs.qzv'

Saved Visualization to: /home/ec2-user/sequencing_analysis/qiime_visualizations/OTU_table.qzv
Saved Visualization to: /home/ec2-user/sequencing_analysis/qiime_visualizations/rep-seqs.qzv


if not os.path.exists(os.path.join(artifact_dir, "gg-13-8-99-515-806-nb-classifier.qza")):
    !wget \
      -O $artifact_dir"gg-13-8-99-515-806-nb-classifier.qza" \
      "https://data.qiime2.org/2022.2/common/gg-13-8-99-515-806-nb-classifier.qza"


!qiime feature-classifier classify-sklearn \
  --i-classifier $artifact_dir'gg-13-8-99-515-806-nb-classifier.qza' \
  --i-reads $artifact_dir'rep-seqs.qza' \
  --o-classification $artifact_dir'taxonomy.qza'

Saved FeatureData[Taxonomy] to: /home/ec2-user/sequencing_analysis/qiime_artifacts/taxonomy.qza


!qiime metadata tabulate \
  --m-input-file $artifact_dir'taxonomy.qza' \
  --o-visualization $visualization_dir'taxonomy.qzv'

!qiime taxa barplot \
  --i-table $artifact_dir'OTU_table.qza' \
  --i-taxonomy $artifact_dir'taxonomy.qza' \
  --m-metadata-file $metadata \
  --o-visualization $visualization_dir'taxa-bar-plots.qzv'

Saved Visualization to: /home/ec2-user/sequencing_analysis/qiime_visualizations/taxonomy.qzv
Saved Visualization to: /home/ec2-user/sequencing_analysis/qiime_visualizations/taxa-bar-plots.qzv


Visualization.load(f'{visualization_dir}taxa-bar-plots.qzv')


if not os.path.exists(os.path.join(artifact_dir, "sepp-refs-gg-13-8.qza")):
    !wget \
      -O $artifact_dir"sepp-refs-gg-13-8.qza" \
      "https://data.qiime2.org/2019.10/common/sepp-refs-gg-13-8.qza"


otu_table = os.path.join(artifact_dir, 'OTU_table.qza')
rep_seq = os.path.join(artifact_dir, 'rep-seqs.qza')

output_file = os.path.join(artifact_dir, 'OTU_table_filtered_trees.qza')

# Update metadata file with trees
metadata_with_trees = os.path.join(home_dir, "metadata_with_trees.tsv")
df["tree"] = df["location"].str.contains("tree").astype(int)
df.to_csv(metadata_with_trees, sep='\t', index=False)

# Generate OTU table, filtering to include only trees
!qiime feature-table filter-samples \
  --i-table $otu_table \
  --m-metadata-file $metadata_with_trees \
  --p-where "[tree]='1'" \
  --o-filtered-table $output_file

# Gives us a table with each feature and its abundance
!qiime feature-table summarize \
  --i-table $output_file \
  --o-visualization $visualization_dir'OTU_table_filtered_trees.qzv' \
  --m-sample-metadata-file $metadata_with_trees

Saved FeatureTable[Frequency] to: /home/ec2-user/sequencing_analysis/qiime_artifacts/OTU_table_filtered_trees.qza
Saved Visualization to: /home/ec2-user/sequencing_analysis/qiime_visualizations/OTU_table_filtered_trees.qzv


Visualization.load(f'{visualization_dir}OTU_table_filtered_trees.qzv')


Visualization.load(f'{visualization_dir}rep-seqs.qzv')


%load_ext watermark

%watermark -v -p pandas,jupyterlab,qiime2

Python implementation: CPython
Python version       : 3.8.13
IPython version      : 8.2.0

pandas    : 1.2.5
jupyterlab: 3.3.2
qiime2    : 2022.2.0

	sample-id	team	location	estimated-depth (cm)	pH
0	JPJL-s	Jason-Juni	flowers outside Gates-Thomas Laboratory	7.0	5.5
1	EKSK-s	Sulekha-Eli	Olive tree between Linde and Gates	20.0	4.5
2	MDSS-s	Marama-Sydney	A tree root outside of red door	6.3	5.5
3	ATMT-s	Matthew-Andrea	From the large tree outsite Venerable	7.0	5.5
4	TLSP-s	Sophie-Trinity	from the orange trees near Dabney	6.0	4.0
5	SSKV-s	Kodie-Sam	turtle pond	6.0	5.5
6	APSC-s	Alex-Sophie	roses by Kerckhoff	16.0	4.5
7	VJMJY-s	Vanessa-Jen	Big tree outside Beckman	11.0	5.0
8	SDOP-s	Sophie_D-Oliver	Plants behind Marks/Braun	10.0	5.0
9	HTSW-s	Sophia_Wu-Haruna	South side of Kerchoff, near the tree	6.0	5.0
10	PSZY-s	Pranay-Zitian	Plants behind Chen near the bridge	20.0	4.5
11	MDLCP-s	Maya-Cristian	Flower bush next to Bechtel and parking lot	15.0	5.5
12	RJ-s	Rashi	Special secret location	10.0	5.0

Analysis of sequencing data from the antibiotic resistance experiment¶

Purpose¶

Pre-Processing¶

Creating the Manifest File¶

Importing the sequences¶

Trimming and Denoising¶

Adding metadata¶

Feature Table Creation¶

Taxonomic analysis¶

Using Native Bayes classifier¶

Fragment insertion method¶

Onwards and Upwards¶

Computing Environment¶