Protein

View in Explore

Genbank accession

QBX20833.1 [GenBank]

Protein name

tail fibers protein

RBP type

Evidence GenBank

Probability 1,00

Evidence RBPdetect

Probability 0,87

Evidence RBPdetect2

Probability 0,70

Protein sequence

MSFVDYCNLFGILKNGAITIGTNETTDQKRTIEWTGQDTNLKRLLSIANNFDAEIEFVTHLKNDSSLKSFVMNVYKKNDATNQGVGRRRDDIILQYGKNIESVRRKINKTGIYNAIRPSGKITTTTTTTTAKQGSVQTGSVLWSGGNLTYAGHVMQSSVVNTILSLCSKYKLLPSGVFSQLYLESFWGDTPVGRADNNWGGITWTGATTRPSGINVSQGQSRAEGGYYNHYASVDDYLKDYAYLLAEQGIYAVKGKLTIDEYTRGLFRVGGATYDYAAAGYDHYAPLMRDIRAGINRNNNGAMDNVDNQFKNGGSTSQNTTQIAAKTKAVLAEANGLKGQRVGSGQCYALAAWYAMKLDGPGLNGGVTSFRGLIGAGAAAAQIGTDYNWGQFGWKVVQPNKVADLITGSIVNIRANAGSPVFTGAWGHTVVVKSLSGDTLTVLEQNYNNVQTVQEHTYSASAYLSVVQTVCYPPEIVKGRRVEGTAQAEQPQPETTTTSEEKEVLINPSLYREWKNESGQVEFYVKNSMLYAPLSKSLYPSAFTGIETDDNWIRKDLDVDTESEEKLISVALADLRKHCYPAVTYEVSGFIGDLDIGDTIKINDPEYTPSLILEARVSEQHISFTEPNQNKTVFDNYRALESKVSQGLIDRMNELAEAAKPYDLRLMTDNGNVFLNGEGRTILTAELWKGNKKFDASYQFKRDGQLVGAGLQLAVDAKDVPADKPLIITVEAYLNNELIASKQITFTNSLGEQGPAGRGIVSTEDYYLASPNRTGVTSATSGWTKTPQEITETNKYHWYYHVDVYSDGTRKETTPAIIGVYGDKGSDGKQGKRGEIGPSGPPGALDEKQLQDINNKIDGKADQNLTIEQINKLAELQSIANAELQAKASIDALASLQKQVQSAIAAMNASQKLSEQDLITASQRAIKATNDILDLKEQWNFIDNYMSASEEGLIIGSKDGTSSVRVAKDRIAFYSAGAEVASITGGMLKIDNGMFVATLQVGHFREEMYKVDGVDKHINVTRYYETIVG

Physico‐chemical properties

protein length:	1029 AA
molecular weight:	112553,49870 Da
isoelectric point:	5,58911
aromaticity:	0,08649
hydropathy:	-0,40758

Domains

Domains [InterPro]

DC_0558
ATT
1–278

DC_0558 G3DSA:3.90.1720.60 Coil

IPR002901
ENZ
147–282

IPR002901 IPR007921

IPR002901
ENZ
164–275

IPR002901 IPR007921

G3DSA:1.10.530.10
RBD
166–270

G3DSA:1.10.530.10 DC_0921

G3DSA:2.10.70.40
Unmapped
189–232

G3DSA:2.10.70.40

QBX20833.1

1 1029

Architecture

ATT

STR

ATT 1-278 | STR 279-1029

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0558	ATT	DC_0558	1	278	Novel HMM	DC_0558	N-terminal	Low	Positional only	70 proteins / 70 hits
IPR002901	ENZ	DC_0048	147	282	InterPro cluster	Mannosyl-glycoprotein endo-beta-N-acetylglucosamidase-like domain	Central	High	Text match	76 proteins / 112 hits
IPR002901	ENZ	DC_0048	164	275	InterPro cluster	Mannosyl-glycoprotein endo-beta-N-acetylglucosamidase-like domain	Central	High	Text match	76 proteins / 112 hits
G3DSA:1.10.530.10	RBD	G3DSA:1.10.530.10	166	270	Merged direct domain	G3DSA:1.10.530.10	C-terminal	Low	Positional only	95 proteins / 95 hits
G3DSA:2.10.70.40	Unmapped	-	189	232	Gene3D	peptidoglycan hydrolase	-	-	-	-
G3DSA:3.90.1720.60	STR	G3DSA:3.90.1720.60	279	472	Merged direct domain	G3DSA:3.90.1720.60	Central	Low	Positional only	18 proteins / 18 hits
IPR007921	ENZ	DC_0404	322	474	InterPro cluster	CHAP domain	C-terminal	High	Text match	2 proteins / 2 hits
IPR007921	ENZ	DC_0404	342	446	InterPro cluster	CHAP domain	C-terminal	High	Text match	2 proteins / 2 hits
DC_0921	STR	DC_0921	386	1029	Novel HMM	DC_0921	Central	Low	Positional only	77 proteins / 77 hits
Coil	Unmapped	-	879	899	Coils	Coil	-	-	-	-

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Streptococcus phage Javan533 [NCBI]	2548246	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Streptococcus pyogenes SSI-1 [NCBI]	193567	Bacillota > Bacilli > Lactobacillales > Streptococcaceae > Streptococcus > Streptococcus pyogenes

Coding sequence (CDS)

Genbank protein accession

QBX20833.1 [NCBI]

Genbank nucleotide accession

MK448798.1 [NCBI]

CDS location

range 27517 -> 30606
strand +

CDS

ATGTCTTTTGTCGATTATTGTAATTTGTTTGGCATCCTTAAAAACGGTGCTATTACCATTGGCACTAATGAGACAACCGACCAAAAACGCACAATCGAATGGACTGGTCAAGATACCAATCTTAAACGCTTGTTATCTATCGCCAATAATTTTGATGCGGAAATAGAATTTGTAACGCATCTTAAAAACGATTCTAGTCTTAAATCGTTTGTCATGAATGTCTACAAGAAGAACGACGCTACTAATCAGGGCGTTGGTCGTAGACGAGATGATATTATTTTGCAATATGGCAAAAATATCGAGAGTGTCAGACGTAAGATTAATAAAACAGGCATTTACAATGCTATAAGACCAAGCGGTAAAATAACAACGACTACAACCACAACGACTGCTAAACAAGGCTCTGTGCAAACAGGGTCTGTTTTGTGGTCTGGCGGTAACTTGACTTATGCAGGTCATGTAATGCAATCATCTGTTGTTAACACTATTTTAAGCCTATGTAGCAAATACAAACTTTTACCATCTGGTGTTTTTAGCCAGCTATACCTTGAATCGTTTTGGGGAGATACCCCAGTCGGAAGAGCCGATAATAACTGGGGTGGTATCACTTGGACTGGCGCAACAACTAGGCCAAGCGGAATAAATGTCTCCCAAGGGCAGTCTCGTGCTGAAGGTGGTTATTATAACCATTACGCCAGTGTTGATGACTACTTGAAAGATTACGCTTACCTCTTGGCCGAGCAAGGCATTTATGCCGTAAAAGGTAAGCTAACCATTGATGAGTACACAAGAGGTCTGTTTAGGGTCGGTGGCGCAACATATGATTATGCTGCAGCTGGATATGATCATTATGCACCTTTGATGCGAGACATCAGAGCAGGTATTAACCGTAATAATAACGGCGCTATGGATAACGTCGATAACCAATTTAAAAATGGTGGCTCGACTAGTCAAAACACTACTCAGATAGCTGCTAAAACAAAAGCGGTACTTGCGGAAGCAAATGGACTGAAAGGTCAACGAGTAGGCTCTGGTCAGTGCTATGCGTTAGCTGCTTGGTACGCCATGAAATTAGATGGTCCAGGTCTGAACGGTGGTGTAACTAGTTTTAGAGGGCTTATTGGTGCTGGTGCTGCCGCTGCTCAGATTGGTACGGATTACAACTGGGGTCAGTTTGGCTGGAAAGTTGTACAACCGAATAAAGTCGCAGACTTAATCACAGGCTCGATTGTTAACATCAGAGCAAACGCTGGCAGTCCTGTTTTTACAGGCGCTTGGGGGCATACTGTTGTTGTTAAATCTCTATCTGGAGATACACTCACAGTATTAGAGCAAAATTATAACAACGTGCAAACAGTCCAAGAGCATACATATAGCGCTAGCGCTTATTTATCAGTTGTACAGACAGTCTGTTACCCGCCAGAAATCGTTAAAGGGAGACGTGTCGAAGGCACTGCACAAGCAGAACAGCCACAACCAGAAACAACCACGACATCTGAAGAAAAAGAGGTTTTAATTAACCCATCGCTTTACCGTGAGTGGAAAAACGAATCAGGACAAGTCGAATTTTACGTTAAAAACAGCATGCTCTATGCACCTTTGTCTAAATCGCTTTATCCATCAGCGTTTACAGGAATTGAAACTGACGATAATTGGATACGAAAAGACTTAGATGTTGATACAGAAAGTGAAGAAAAGCTTATCTCTGTTGCTCTCGCAGATCTGAGAAAACATTGTTATCCAGCGGTGACCTATGAAGTATCTGGTTTTATTGGTGATTTAGATATTGGTGACACTATCAAAATCAATGATCCAGAATACACGCCAAGCCTAATTTTAGAAGCAAGGGTTAGCGAGCAACACATCTCGTTTACAGAGCCTAATCAAAATAAGACCGTCTTTGATAATTACAGAGCTTTAGAGAGCAAAGTCTCACAAGGTTTAATTGACCGCATGAACGAACTAGCAGAAGCTGCTAAACCTTACGACTTGCGGTTAATGACAGATAACGGAAATGTGTTTTTAAACGGCGAAGGTCGTACGATTTTAACCGCTGAACTTTGGAAAGGTAACAAAAAGTTTGATGCAAGCTATCAATTTAAACGTGATGGTCAATTAGTCGGCGCTGGATTGCAGTTGGCAGTTGACGCTAAGGATGTACCAGCTGATAAACCTCTAATCATTACTGTTGAGGCTTATTTAAATAATGAGCTGATTGCAAGTAAACAGATTACGTTTACTAACTCGCTTGGAGAACAAGGACCAGCTGGACGTGGGATTGTCTCTACAGAGGACTATTACTTAGCGTCACCAAATCGTACAGGTGTCACATCTGCAACATCTGGTTGGACTAAGACGCCTCAGGAAATTACTGAGACTAATAAATATCATTGGTATTATCACGTTGATGTTTATTCAGATGGCACTCGAAAAGAGACTACACCGGCTATTATTGGTGTTTACGGCGATAAAGGTTCAGATGGCAAGCAAGGGAAACGTGGGGAGATAGGACCATCAGGACCTCCTGGCGCTTTAGATGAAAAGCAACTACAAGACATCAATAATAAAATTGATGGCAAAGCAGACCAGAATTTGACCATCGAGCAAATCAATAAATTAGCCGAGTTACAATCTATTGCCAATGCTGAGTTACAAGCAAAGGCTAGCATCGACGCTTTAGCTAGCTTACAAAAGCAAGTACAGTCTGCAATAGCGGCAATGAATGCTAGCCAAAAGTTATCAGAGCAAGACCTTATTACAGCTAGTCAACGGGCTATCAAAGCAACCAACGACATCTTAGACTTAAAAGAGCAATGGAATTTTATTGACAATTATATGTCAGCGTCTGAAGAGGGACTTATTATCGGCTCTAAAGACGGTACAAGTTCCGTGCGTGTTGCCAAAGACCGTATTGCCTTTTACTCAGCTGGCGCAGAAGTCGCTTCGATTACTGGTGGTATGCTCAAAATTGATAATGGTATGTTTGTGGCTACTTTGCAAGTTGGACATTTTCGCGAGGAGATGTACAAAGTTGATGGGGTAGATAAACACATAAATGTTACAAGATATTACGAAACGATTGTGGGGTGA

Genome Context

Tertiary structure

PDB ID

1b2c3f57f6941b7dfb7c836c1e3bbe482c0d9419fef214ef68fcab955f6cf451

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,7769

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence