Assemblaggio del trascrittoma De Novo basato su RNA-seq e scoperta del gene della Cistanche Deserticola Fleshy Stem-Ⅰ

Sfondi

La Cistanche deserticola è una pianta parassita completamente non fotosintetica di grande valore medicinale ed è distribuita principalmente nel deserto della Cina nordoccidentale. Il suo gambo carnoso essiccato è un tonico fondamentalemedicina tradizionale cinesecon ruoli principalmente di miglioramento della funzione sessuale maschile e di rafforzamento dell'immunità, ma sono stati condotti pochi studi meccanicistici, in parte a causa della mancanza di risorse genomiche e trascrittomiche.

Natural cistanche tubulosa

CISTANCHE NATURALI TUBULOSA MEDICINA TRADIZIONALE CINESE PHGS75% ECH 30% ACT 12%

Risultati

In questo studio, abbiamo eseguito il sequenziamento profondo del trascrittoma nel fusto carnoso di C. deserticola e sono state generate circa 80 milioni di letture utilizzando il sequenziamento coppie-end Illumina sulla piattaforma HiSeq2000. Utilizzando l'assemblatore Trinity, abbiamo ottenuto 95.787 sequenze di trascrizione con lunghezze di trascrizione comprese tra 200 bp e 15.698 bp, con una lunghezza media di 950 basi e una lunghezza N50 di 1.519 basi. Sono state identificate 63.957 trascrizioni come espresse attivamente con FPKM maggiore o uguale a 0,5, in cui 30.098 trascrizioni sono state annotate con descrizioni di geni o termini di ontologia genetica mediante analisi di somiglianza di sequenza rispetto a diversi database pubblici (Uniprot, NR e Nt presso NCBI e KEGG) . Inoltre, abbiamo identificato geni enzimatici chiave coinvolti nella biosintesi della lignina e dei glicosidi feniletanoidi (PhG), noti per essere i principali ingredienti attivi. Quattro geni della fenilalanina ammoniaca-liasi (PAL), il primo enzima chiave nella biosintesi della lignina e del PhG, sono stati identificati in base al confronto delle sequenze e all'analisi filogenetica. Sono stati inoltre proposti per la prima volta due percorsi di biosintesi dei PhG.

Conclusioni

Nel complesso, abbiamo completato un'analisi globale del trascrittoma del gambo carnoso di C. deserticola utilizzando la tecnologia RNA-seq. Dalle trascrizioni assemblate e annotate è stata identificata una raccolta di geni enzimatici correlati alla biosintesi della lignina e dei glicosidi feniletanoidi ed è stata anche prevista la famiglia genetica di PAL. I dati sulla sequenza di questo studio forniranno una risorsa preziosa per condurre future ricerche sulla biosintesi dei glicosidi feniletanoidi e studi genomici funzionali in questa importante pianta medicinale.

Introduzione

C. deserticola è un genere mondiale di piante perenni del deserto della famiglia delle Orobanchaceae ed è una specie completamente non fotosintetica e di solito cresce sottoterra come pianta oloparassita. È parassitato sulle radici dello psammofito Haloxylon ammodendron (Chenopodiaceae), che abita principalmente deserti e semideserti a causa della sua elevata tolleranza alla siccità e alla salinità. C. deserticola mostra una forte resistenza alle dure condizioni ambientali ed è distribuita principalmente nella Cina nordoccidentale, in particolare nella Mongolia interna, nel Gansu e nello Xinjiang. Negli ultimi anni è considerata una specie selvatica in via di estinzione a causa del crescente consumo da parte dell'uomo. C. deserticola, spesso chiamata ginseng del deserto, è comunemente nota come succiamele del deserto e il gambo carnoso essiccato è stato ampiamente utilizzato per molti anni come tonico tradizionalmente importante in Cina e Giappone. Fu inizialmente registrato in Shen Nong Ben Cao Jing (Dizionario della Materia Medica Cinese, 1977) circa 1800 anni fa ed era considerato una delle principali fonti diCistanche, erba medicinale cinese.

Chinese cistanche tubulosa

CISTANCHE TUBULOSA NATURALI PER MIGLIORARE LA FUNZIONE SESSUALE PHGS75% ECH 30% ACT 12%

Gli estratti di C. deserticola possiedono un'ampia gamma di funzioni medicinali, in particolare per migliorare la funzione sessuale, tonificare i reni, proteggere il fegato, attività aperitiva, potenziamento della memoria, attività immunomodulante, antiossidante, antinfiammatoria, antivirale, ecc. i principali componenti bioattivi di C. deserticola sono i glicosidi feniletanoidi (PheG, PhG). Ad oggi, più di 20 glicosidi feniletanoidi sono stati isolati dal fusto succulento di C.deserticola. Tra loro,acteoside ed echinacosidesono due componenti principali con attività farmacologiche significative e sono documentati come standard di qualità di C. deserticola nella farmacopea cinese (edizioni 2005 e 2010). Tre componenti chimici dei PhG sono acido organico, saccaride e feniletanoide, tuttavia, i dettagli riguardanti le vie biosintetiche dei feniletanoidi rimangono poco compresi in C.deserticola.

Nonostante l'importanza commerciale e medicinale di C.deserticola, i dati genomici e trascrittomici di questa specie sono molto limitati. Non ci sono EST disponibili nel database NCBI e le informazioni complete sul genoma di questa specie rimangono non disponibili ad eccezione della sequenza del genoma dei cloroplasti. I dati trascrittomici limitati ostacolano lo studio dei meccanismi biosintetici di PhG. La tecnologia RNA-seq può generare sequenze delle parti espresse del genoma target e identificare i geni [18] utilizzando le piattaforme tecnologiche NGS (come Applied Biosystems SOLiD, Illumina HiSeq e Roche 454). Sta diventando sempre più popolare nell'assemblaggio del trascrittoma de novo, poiché è un approccio economico e potente con alta risoluzione e ampia gamma dinamica, soprattutto perché ha il vantaggio di esplorare trascrizioni poco abbondanti. A causa dei vari vantaggi, RNA-seq è particolarmente attraente per organismi non modello con risorse genetiche limitate. Tuttavia, non esiste una ricerca dettagliata sul trascrittoma di C. deserticola mediante RNA-seq.

In questo studio, abbiamo sequenziato a livello globale il trascrittoma staminale per C. deserticola utilizzando la piattaforma Illumina Hiseq2000 e abbiamo ottenuto dati grezzi 7,9G. Mediante assemblaggio e annotazione, abbiamo estratto i geni coinvolti nella biosintesi di PhG e i geni responsabili dell'intera biosintesi della lignina. La nostra analisi RNA-seq ha generato il primo trascrittoma consenso di C. deserticola e ha fornito nuove informazioni per una comprensione completa del valore medicinale di C. deserticola. Inoltre, il metodo qui descritto può essere ampiamente applicato ai trascrittomi del profilo per facilitare la scoperta di geni coinvolti in specifici percorsi di biosintesi di componenti medicinali in un'altra pianta medicinale con risorse genomiche molto limitate.

Materiali e metodi

Raccolta materiale vegetale

Il gambo succulento fresco di C. deserticola nella fase di scavo è stato raccolto da una base vegetale nella città di BayanHot, nella Lega Alxa, nella Mongolia interna, nella Cina nordoccidentale. Il permesso di raccolta è stato ottenuto dal proprietario (HongKui CongRong Group) della base della pianta. Il campione del voucher è stato depositato presso la Core Genomic Facility presso l'Istituto di genomica di Pechino, Accademia cinese delle scienze. Dopo la pulizia, i tessuti dello stelo succulento sono stati tagliati in piccoli pezzi e immediatamente congelati in azoto liquido, quindi conservati a -80 gradi fino all'ulteriore lavorazione.

Estrazione dell'RNA, costruzione della libreria di cDNA e sequenziamento Illumina

L'RNA totale è stato estratto dallo stelo succulento utilizzando il reagente TRIzol (Invitrogen Inc., California, USA) secondo le istruzioni del produttore. I campioni risultanti sono stati trattati con DNasi I per rimuovere qualsiasi DNA genomico. Gli RNA estratti sono stati quantificati utilizzando un bioanalizzatore Agilent 2100 (Agilent Technologies) e ne è stata verificata l'integrità mediante elettroforesi su gel di agarosio denaturante con colorazione con bromuro di etidio. Nelle analisi successive sono stati utilizzati campioni di RNA con rapporti A260/A280 compresi tra 1,9 e 2,1, rapporti RNA 28S:18S superiori a 1,0 e numeri di integrità dell'RNA (RIN) -8.5.

Le librerie RNA-seq sono state generate utilizzando i kit di preparazione dei campioni RNA Truseq Illumina. Il poli(A)+ RNA è stato isolato dall'RNA totale utilizzando le sfere Dynal ligo(dT)25 secondo le istruzioni del produttore. Dopo la purificazione, è stato aggiunto un tampone di frammentazione per spezzare l'mRNA in brevi frammenti. Il cDNA del primo filamento è stato sintetizzato utilizzando questi brevi frammenti come modelli, insieme alla trascrittasi inversa SuperScript III e al primer esamerico casuale N6. Il cDNA del secondo filamento è stato quindi sintetizzato utilizzando tampone, dNTP, RNasiH e DNA polimerasi I. Il cDNA a doppio filamento risultante è stato sottoposto a riparazione finale utilizzando la DNA polimerasi T4, il frammento Klenow della DNA polimerasi I e la polinucleotide chinasi T4 e legato a adattatori che utilizzano la DNA ligasi T4. I frammenti legati all'adattatore sono stati purificati utilizzando un kit di estrazione PCR QiaQuick ed eluiti con tampone EB. Dopo l'analisi mediante elettroforesi su gel di agarosio, sono stati selezionati frammenti idonei come modelli per l'amplificazione PCR. Il sequenziamento della libreria di cDNA risultante è stato effettuato con un sistema Illumina HiSeq 2000.

Assemblaggio de novo dei trascritti e quantificazione dell'espressione genica

Le letture grezze generate dal sequenziamento sono state pulite rimuovendo le sequenze dell'adattatore (ATCTCGTATGCCGTC) utilizzando un metodo interno. Abbiamo quindi effettuato un rigoroso processo di filtraggio di bassa qualità. In primo luogo, le basi con un punteggio di qualità phred inferiore a 20 verrebbero tagliate dalla fine 3' della sequenza, fino a raggiungere una base con una qualità superiore (maggiore o uguale a 20). Se la lunghezza della lettura fosse inferiore a 50 bp, verrebbe scartata. In secondo luogo, le letture verranno ulteriormente filtrate in base al criterio secondo cui il 70% delle basi in una lettura hanno punteggi di alta qualità (maggiore o uguale a 20). In terzo luogo, per l'ulteriore assemblaggio sono state utilizzate solo letture accoppiate. L'assemblaggio della trascrizione de novo è stato condotto utilizzando la versione Trinity_20130216 [30] che consisteva in tre moduli software successivi: Inchworm, Chrysalis e Butterfly. I parametri dell'assembly sono stati impostati come segue:-seqType fq-JM 300G -min_contig_length 200-CPU 20-inchworm_cpu {{21} }bflyCPU20.

Per quantificare l'abbondanza delle trascrizioni, le letture coppia-end sequenziate sono state riallineate alle trascrizioni assemblate utilizzando uno script in Trinity. Le letture mappate sono state utilizzate per la quantificazione mediante il software RSEM (RNA-Seq by Expectation Maximization). L'abbondanza di geni o isoforme era rappresentata dal valore di frammento per kilobase di trascrizione per milione di frammenti mappati (FPKM), quelle trascrizioni con valore FPKM uguale o maggiore di 0.05 erano definite come espresse.

Annotazione funzionale delle trascrizioni espresse

Non esistono set di annotazioni genetiche di C. deserticola ad eccezione del genoma dei cloroplasti [1]. Abbiamo annotato le trascrizioni espresse confrontandole con i set di dati Genbank Nt, Genbank Nr e TAIR10_ pep_20101214_aggiornati separatamente utilizzando il programma BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

Annotazione di Gene Ontology e percorso KEGG Mediante allineamento della similarità di sequenza al database Uniprot (l'annotazione di Gene Ontology (GO) di tutte le trascrizioni assemblate è stata ottenuta utilizzando un file di associazione scaricato da (ftp://ftp.ebi.ac.uk/pub/ databases/GO/goa/UNIPROT/gene_association. goa_uniprot.gz). Il clustering dei termini GO dei geni espressi è stato condotto utilizzando script personalizzati e abbiamo annotato i geni al quarto livello per Categorie CC, BP e MF separatamente.

Le informazioni sul percorso KEGG sono state assegnate per tutte le sequenze proteiche previste utilizzando lo strumento online KAAS (KEGG Automatic Annotation Server) [34]. Le sequenze in formato fasta sono state inviate su richiesta del KAAS e sono stati scaricati i file risultanti di tutte le informazioni sui percorsi relativi al trascrittoma della radice di C. deserticola. 13 set di dati genetici di organismi vegetali in KEGG sono stati utilizzati per l'annotazione utilizzando il metodo BBH (miglior successo bidirezionale).

cistanche tubulosa extract

CISTANCHE NATURALI TUBULOSA CISTANCHE EXTRACT PHGS75% ECH 30% ACT 12%

Analisi RT-qPCR

Dopo la digestione con DNasi I, circa 5ug di RNA totale sono stati convertiti in cDNA del primo filamento tramite la reazione di trascrizione inversa con primer oligo(dT)15 e GoScript Reverse Transcription System (Promega). I prodotti cDNA sono stati quindi diluiti 10-volte con acqua deionizzata priva di nucleasi prima di essere utilizzati come modello nella PCR in tempo reale. CDNA specifici sono stati amplificati dal sistema GoTaq 2-Step RT-qPCR (Promega) in un volume di 20 ul. L'amplificazione PCR è stata eseguita alla temperatura di ricottura di 60 gradi con il sistema di rilevamento PCR in tempo reale 7500 (Applied Biosystems) secondo le istruzioni del produttore. Le abbondanze relative dei trascritti sono state calcolate mediante il metodo della soglia del ciclo comparativo con il gene "comp10579_c0" come standard interno, utilizzando il software 7500 Manager.

Le coppie di primer per RT-PCR sono state progettate sulla base del software online (http://primer3.ut.ee/) e sono elencate nel set di dati S1.

Risultati

Sequenziamento dell'RNA e assemblaggio del trascrittoma de novo del gambo carnoso di C. deserticola

Il gambo di C. deserticola è stato ampiamente utilizzato per molti anni come tonico tradizionalmente importante in Cina e Giappone. Per ottenere una panoramica globale dell’espressione genica nello stelo carnoso di C. deserticola, abbiamo raccolto campioni di steli di C. deserticola della stessa base vegetale rispettivamente nel 2013 e nel 2014. Sono stati estratti gli RNA totali e gli RNA poliA+ sono stati purificati per costruire librerie di RNA-seq a coppie. Utilizzando il sequenziamento Illumina HiSeq 2000 sono state ottenute 79.433.734 e 86.019.176 coppie di letture corrispondenti a quasi 8 miliardi e 8,6 miliardi di basi della sequenza

piattaforma in campioni di 2013-anno e 2014-anno (Tabella 1). Dopo aver rimosso le sequenze dell'adattatore e filtrato le letture di bassa qualità (vedere i dettagli in Metodi), 64.831.040 letture coppia-end di alta qualità nel campione di 2013-anno sono state utilizzate per l'assemblaggio del trascrittoma de novo. Utilizzando l'assemblatore di sequenze Trinity [30], sono stati generati 51.719 geni e 95.787 sequenze di trascrizione con lunghezze di trascrizione comprese tra 200 bp e 15.698 bp. La lunghezza media delle trascrizioni assemblate è di 950 basi e la lunghezza N50 è di 1.519 basi. Il numero di trascrizioni di diverse lunghezze ha rivelato che il 57,32% delle trascrizioni assemblate erano circa 500 bp o più (Fig 1A). Le letture di fine coppia di alta qualità nel campione di 2014-anno sono state mappate sul trascrittoma assemblato. Inoltre, abbiamo scoperto che il numero di trascrizioni per ciascun gene assemblato variava e che il 69% dei geni con un'isoforma esprimeva mentre il 31% dei geni esprimeva due o più trascrizioni (Fig 1B).

Quantificazione dell'espressione e annotazione funzionale delle trascrizioni assemblate

L'abbondanza di geni o trascrizioni è stata quantificata utilizzando il pacchetto RSEM, in cui le letture sequenziate sono state riallineate ai geni assemblati o alle sequenze di trascrizioni utilizzando Bowtie e quelle letture mappate sono state utilizzate per la quantificazione. È stato calcolato il valore FPKM per ciascun gene o trascritto e, infine, abbiamo identificato 63.957 e 52.857 trascritti espressi attivamente (valore FPKM maggiore o uguale a 0.5) in campioni di stelo carnoso di C. deserticola in 2{{17} }13 e 2014, rispettivamente. 44.776 trascrizioni (70,01% nel campione del 2013-anno, 84,71% nel campione del 2014-anno) sono state comunemente espresse nei due replicati e la correlazione (coefficiente di correlazione di Pearson: 0,91979) dei loro dati di espressione era mostrato in S1 Fig. I dati grezzi di sequenziamento erano stati caricati nel database NCBI SRA (numeri di accesso: SRX857402 e SRX858938). Abbiamo utilizzato i geni espressi identificati nel campione di 2013-anno per ulteriori analisi. Le informazioni sulle annotazioni funzionali per tutte le trascrizioni espresse sono state ottenute utilizzando due metodi. In primo luogo, tutte le trascrizioni espresse sono state allineate ai database di sequenze di nucleotidi (GenBank nt) e peptidiche noti (GenBank nr e Arabidopsis peptide) separatamente dall'algoritmo BLAST. Su 63.957 trascrizioni espresse,

29.220 (45,7%) sono stati annotati e hanno mostrato omologia con sequenze in uno qualsiasi dei tre database di soggetti con valore limite E 1e-20. Nel frattempo, le regioni codificanti candidate per tutte le sequenze di trascrizione espressa sono state previste utilizzando il software TransDecoder e gli ORF più lunghi per ciascuna trascrizione sono stati utilizzati per la ricerca del dominio Pfam. Di conseguenza, 21.358 trascrizioni (33,4%) sono state annotate sulla base del database Pfam. Complessivamente, 30.098 (47,1%) trascrizioni sono state abbinate in modo significativo a geni noti nei database pubblici combinando i due metodi sopra indicati. L'elenco completo delle trascrizioni espresse con annotazione della funzione è stato mostrato nei dati supplementari (set di dati S2).

Abbiamo esaminato le prime 20 trascrizioni più altamente espresse (Tabella 2) corrispondenti al 18,99% di tutte le letture di sequenziamento e abbiamo scoperto che la maggior parte di esse sono geni che rispondono a fattori abiotici

stimolo dello stress. La deidrina (DHN), una classe di proteine da stress idrofile e termostabili con un elevato numero di aminoacidi carichi che appartengono alla famiglia Late Embryogenesis Abundant (LEA) del Gruppo II, è il gene più altamente espresso. Tre diversi trascritti di Dehyrin (comp28713_c0_seq1/2/4) sono stati rilevati come altamente espressi in steli carnosi che potrebbero essere coinvolti nella protezione delle cellule dai danni causati dallo stress da siccità. È stato riscontrato che anche altri geni legati allo stress, come la proteina da shock termico, la proteina correlata ai patogeni e la metallotioneina, erano altamente espressi, il che potrebbe essere correlato al suo grave ambiente di sopravvivenza. Inoltre, alcuni geni costitutivi tra cui il gene dell'RNA ribosomiale 26S (comp22329_c2_seq1), la proteina repressa/associata alla dormienza (comp20999_c0_seq1), Anche il fattore di ribosilazione ADP (comp20499_ c0_seq1) è stato altamente trascritto.

Cistanche tubulosa extract

CISTANCHE TUBULOSA NATURALI PER MIGLIORARE L'IMMUNITÀ PHGS75% ECH 30% ACT 12%

Assemblaggio del trascrittoma De Novo basato su RNA-seq e scoperta del gene della Cistanche Deserticola Fleshy Stem-Ⅱ

Herba Cistanche (Rou Cong-Rong): un regalo eccezionale dalla medicina tradizionale cinese

Assemblaggio del trascrittoma De Novo basato su RNA-seq e scoperta del gene della Cistanche Deserticola Fleshy Stem-Ⅰ

Sfondi

Risultati

Conclusioni

Introduzione

Materiali e metodi

Raccolta materiale vegetale

Estrazione dell'RNA, costruzione della libreria di cDNA e sequenziamento Illumina

Assemblaggio de novo dei trascritti e quantificazione dell'espressione genica

Annotazione funzionale delle trascrizioni espresse

Analisi RT-qPCR

Risultati

Sequenziamento dell'RNA e assemblaggio del trascrittoma de novo del gambo carnoso di C. deserticola

Quantificazione dell'espressione e annotazione funzionale delle trascrizioni assemblate

Potrebbe piacerti anche

Invia la tua richiesta

Conoscenza

Assemblaggio del trascrittoma De Novo basato su RNA-seq e scoperta del gene della Cistanche Deserticola Fleshy Stem-Ⅰ

Sfondi

Risultati

Conclusioni

Introduzione

Materiali e metodi

Raccolta materiale vegetale

Estrazione dell'RNA, costruzione della libreria di cDNA e sequenziamento Illumina

Assemblaggio de novo dei trascritti e quantificazione dell'espressione genica

Annotazione funzionale delle trascrizioni espresse

Analisi RT-qPCR

Risultati

Sequenziamento dell'RNA e assemblaggio del trascrittoma de novo del gambo carnoso di C. deserticola

Quantificazione dell'espressione e annotazione funzionale delle trascrizioni assemblate

Potrebbe piacerti anche

Invia la tua richiesta