Wu Enhui, Qiao Liang*
Institut for Kemi, Fudan University, Shanghai 200433, Kina
Mikroorganismer er tæt beslægtet med menneskers sygdomme og sundhed. Hvordan man forstår sammensætningen af mikrobielle samfund og deres funktioner er et stort spørgsmål, der skal undersøges omgående. I de senere år er metaproteomik blevet et vigtigt teknisk middel til at studere mikroorganismers sammensætning og funktion. På grund af kompleksiteten og den høje heterogenitet af mikrobielle samfundsprøver er prøvebehandling, massespektrometridataindsamling og dataanalyse blevet de tre store udfordringer, som metaproteomics i øjeblikket står over for. I metaproteomics-analyse er det ofte nødvendigt at optimere forbehandlingen af forskellige typer prøver og anvende forskellige mikrobielle adskillelses-, berigelses-, ekstraktions- og lyseringsskemaer. I lighed med proteomet af en enkelt art omfatter massespektrometridataopsamlingstilstande i metaproteomik dataafhængig optagelsestilstand (DDA) og datauafhængig opsamlingstilstand (DIA). DIA-dataopsamlingstilstanden kan fuldstændigt indsamle peptidinformationen fra prøven og har et stort udviklingspotentiale. Men på grund af kompleksiteten af metaproteomprøver er dens DIA-dataanalyse blevet et stort problem, der hindrer den dybe dækning af metaproteomics. Med hensyn til dataanalyse er det vigtigste trin opbygningen af en proteinsekvensdatabase. Databasens størrelse og fuldstændighed har ikke kun stor betydning for antallet af identifikationer, men påvirker også analysen på arts- og funktionsniveau. På nuværende tidspunkt er guldstandarden for konstruktionen af en metaproteomdatabase en proteinsekvensdatabase baseret på metagenomet. Samtidig har den offentlige databasefiltreringsmetode baseret på iterativ søgning også vist sig at have stærk praktisk værdi. Fra perspektivet af specifikke dataanalysestrategier har peptidcentrerede DIA-dataanalysemetoder indtaget en absolut mainstream. Med udviklingen af dyb læring og kunstig intelligens vil det i høj grad fremme nøjagtigheden, dækningen og analysehastigheden af makroproteomisk dataanalyse. Med hensyn til nedstrøms bioinformatikanalyse er der i de senere år udviklet en række annoteringsværktøjer, som kan udføre artsannotering på proteinniveau, peptidniveau og genniveau for at opnå sammensætningen af mikrobielle samfund. Sammenlignet med andre omics-metoder er den funktionelle analyse af mikrobielle samfund et unikt træk ved makroproteomik. Makroproteomics er blevet en vigtig del af multi-omics-analyse af mikrobielle samfund og har stadig et stort udviklingspotentiale med hensyn til dækningsdybde, detektionsfølsomhed og dataanalyses fuldstændighed.
01 Prøveforbehandling
På nuværende tidspunkt er metaproteomics-teknologi blevet brugt i vid udstrækning i forskningen i menneskelig mikrobiom, jord, mad, hav, aktivt slam og andre områder. Sammenlignet med proteomanalysen af en enkelt art, står prøveforbehandlingen af metaproteom af komplekse prøver over for flere udfordringer. Den mikrobielle sammensætning i faktiske prøver er kompleks, det dynamiske område af overflod er stort, cellevægsstrukturen af forskellige typer mikroorganismer er meget forskellig, og prøverne indeholder ofte en stor mængde værtsproteiner og andre urenheder. Derfor er det i analysen af metaproteom ofte nødvendigt at optimere forskellige typer prøver og anvende forskellige mikrobielle adskillelses-, berigelses-, ekstraktions- og lyseringsskemaer.
Ekstraktion af mikrobielle metaproteomer fra forskellige prøver har visse ligheder såvel som nogle forskelle, men i øjeblikket mangler der en samlet forbehandlingsproces for forskellige typer metaproteomprøver.
02Massespektrometri dataopsamling
Ved shotgun-proteomanalyse adskilles peptidblandingen efter forbehandling først i den kromatografiske søjle og går derefter ind i massespektrometeret til dataopsamling efter ionisering. I lighed med enkeltarts-proteomanalyse omfatter massespektrometridataopsamlingstilstande i makroproteomanalyse DDA-tilstand og DIA-tilstand.
Med den kontinuerlige iteration og opdatering af massespektrometriinstrumenter anvendes massespektrometriinstrumenter med højere følsomhed og opløsning på metaproteom, og dækningsdybden af metaproteomanalyse forbedres også løbende. I lang tid har en række højopløselige massespektrometriinstrumenter ledet af Orbitrap været meget brugt i metaproteomer.
Tabel 1 i den originale tekst viser nogle repræsentative undersøgelser af metaproteomics fra 2011 til i dag med hensyn til prøvetype, analysestrategi, massespektrometriinstrument, indsamlingsmetode, analysesoftware og antal identifikationer.
03Massespektrometri dataanalyse
3.1 DDA dataanalysestrategi
3.1.1 Databasesøgning
3.1.2de novosekventeringsstrategi
3.2 DIA dataanalysestrategi
04Artsklassificering og funktionel annotering
Sammensætningen af mikrobielle samfund på forskellige taksonomiske niveauer er et af de centrale forskningsområder inden for mikrobiomforskning. I de senere år er der udviklet en række annoteringsværktøjer til at annotere arter på proteinniveau, peptidniveau og genniveau for at opnå sammensætningen af mikrobielle samfund.
Essensen af funktionel annotering er at sammenligne målproteinsekvensen med den funktionelle proteinsekvensdatabase. Ved at bruge genfunktionsdatabaser såsom GO, COG, KEGG, eggNOG osv., kan forskellige funktionelle annotationsanalyser udføres på proteiner identificeret af makroproteomer. Annoteringsværktøjer omfatter Blast2GO, DAVID, KOBAS osv.
05Oversigt og Outlook
Mikroorganismer spiller en vigtig rolle i menneskers sundhed og sygdom. I de senere år er metaproteomik blevet et vigtigt teknisk middel til at studere mikrobielle samfunds funktion. Den analytiske proces for metaproteomics ligner den for enkelt-arts proteomics, men på grund af kompleksiteten af forskningsobjektet for metaproteomics, skal specifikke forskningsstrategier vedtages i hvert analysetrin, fra prøveforbehandling, dataindsamling til dataanalyse. På nuværende tidspunkt, takket være forbedringen af forbehandlingsmetoder, den kontinuerlige innovation af massespektrometriteknologi og den hurtige udvikling af bioinformatik, har metaproteomics gjort store fremskridt med hensyn til identifikationsdybde og anvendelsesområde.
I processen med forbehandling af makroproteomprøver skal prøvens art overvejes først. Hvordan man adskiller mikroorganismer fra miljøceller og -proteiner er en af de vigtigste udfordringer for makroproteomer, og balancen mellem separationseffektivitet og mikrobielt tab er et presserende problem, der skal løses. For det andet skal proteinekstraktion af mikroorganismer tage højde for forskellene forårsaget af den strukturelle heterogenitet af forskellige bakterier. Makroproteomprøver i sporområdet kræver også specifikke forbehandlingsmetoder.
Med hensyn til massespektrometriinstrumenter har almindelige massespektrometriinstrumenter gennemgået en overgang fra massespektrometre baseret på Orbitrap-masseanalysatorer såsom LTQ-Orbitrap og Q Exactive til massespektrometre baseret på ionmobilitetskoblede time-of-flight masseanalysatorer såsom timsTOF Pro . TimsTOF-serien af instrumenter med information om ionmobilitetsdimension har høj detektionsnøjagtighed, lav detektionsgrænse og god repeterbarhed. De er efterhånden blevet vigtige instrumenter inden for en række forskningsfelter, der kræver massespektrometridetektion, såsom proteomet, metaproteomet og metabolomet af en enkelt art. Det er værd at bemærke, at det dynamiske område af massespektrometriinstrumenter i lang tid har begrænset proteindækningsdybden af metaproteomforskning. I fremtiden kan massespektrometriinstrumenter med et større dynamisk område forbedre følsomheden og nøjagtigheden af proteinidentifikation i metaproteomer.
Til massespektrometridataopsamling, selvom DIA-dataopsamlingstilstanden er blevet bredt anvendt i proteomet af en enkelt art, bruger de fleste aktuelle makroproteomanalyser stadig DDA-dataopsamlingstilstanden. DIA-dataopsamlingstilstanden kan fuldt ud opnå fragmentioninformationen fra prøven, og sammenlignet med DDA-dataopsamlingstilstanden har den potentialet til fuldt ud at opnå peptidinformationen fra makroproteomprøven. Men på grund af den høje kompleksitet af DIA-data står analysen af DIA-makroproteomdata stadig over for store vanskeligheder. Udviklingen af kunstig intelligens og dyb læring forventes at forbedre nøjagtigheden og fuldstændigheden af DIA-dataanalyse.
I dataanalysen af metaproteomics er et af nøgletrinene konstruktionen af en proteinsekvensdatabase. Til populære forskningsområder som tarmflora kan der anvendes tarmmikrobielle databaser som IGC og HMP, og der er opnået gode identifikationsresultater. For de fleste andre metaproteomiske analyser er den mest effektive databasekonstruktionsstrategi stadig at etablere en prøvespecifik proteinsekvensdatabase baseret på metagenomiske sekventeringsdata. For mikrobielle samfundsprøver med høj kompleksitet og stort dynamisk område er det nødvendigt at øge sekventeringsdybden for at øge identifikationen af arter med lav overflod og derved forbedre dækningen af proteinsekvensdatabasen. Når sekventeringsdata mangler, kan en iterativ søgemetode bruges til at optimere den offentlige database. Iterativ søgning kan dog påvirke FDR-kvalitetskontrol, så søgeresultaterne skal kontrolleres omhyggeligt. Derudover er anvendeligheden af traditionelle FDR kvalitetskontrolmodeller i metaproteomics analyse stadig værd at udforske. Med hensyn til søgestrategi kan den hybride spektrale biblioteksstrategi forbedre dækningsdybden af DIA-metaproteomik. I de seneste år har det forudsagte spektrale bibliotek, der er genereret baseret på dyb læring, vist overlegen ydeevne i DIA-proteomik. Metaproteomdatabaser indeholder dog ofte millioner af proteinposter, hvilket resulterer i en stor skala af forudsagte spektralbiblioteker, bruger mange computerressourcer og resulterer i et stort søgerum. Derudover varierer ligheden mellem proteinsekvenser i metaproteomer meget, hvilket gør det vanskeligt at sikre nøjagtigheden af spektralbibliotekets forudsigelsesmodel, så forudsagte spektralbiblioteker har ikke været meget brugt i metaproteomik. Derudover skal der udvikles nye proteininferens- og klassificeringsannotationsstrategier, så de kan anvendes til metaproteomisk analyse af meget sekvens-lignende proteiner.
Som en spirende mikrobiomforskningsteknologi har metaproteomikteknologi opnået betydelige forskningsresultater og har også et enormt udviklingspotentiale.
Indlægstid: 30. august 2024