Protein

View in Explore

Genbank accession

WVP99841.1 [GenBank]

Protein name

tail spike protein

RBP type

Evidence Phold

Probability 1,00

TSP

Evidence DepoScope

Probability 1,00

TSP

Evidence RBPdetect

Probability 0,88

TSP

Evidence RBPdetect2

Probability 0,88

Protein sequence

MNAHTPFDANQDWTNPYCHNSSNDQMVDALLGNAYHVVRTVYCNLGNLKLLYDFLNQYGMVIGVNSEEELKALSTQVKYSRIYGFSRAGDRQVTDYLYVEGDRTGIIPDDSEATGSWITVATSGSNGGGTSSSEGAYIPWVYSNGSATGGETTINVPDGTVGVPFIIVNGDMQYVGRGFEFNVDSLSVTLAQPLEEGDEVVFLLTGVPAVPDNPNINDWIQINWLYNNGAAVGGEQVIAIPYTFQSIPAVYKNGLRLYKGLTTESYTADPDNQRIFLTEPLTTNDRLIVQIGGEARVLEATDRTLQEVARAANVKDSEVILSTNTVQSLNNKKVIYNPDNQQIYVIPELPTNVYISSVVGNILTYTPGNIQVELLTKKETDQNTLWRNQGDVRGWGVKGDAVHDDTVALTNVLNDTPVGQKINGNGKTYKVTSLPDISRFVNTRFVYERIPGQPLYYASEEFVQGELFKITDTPYYNAWPQDKAFVYDDVIYCPFMASDRHGVSRLHVSWVRSGDDGQTWTTPEWLTDLHPDYPTVNYHCMSMGVMRNRLFAMIETRTLASNALVTCEIWDRPMSRNYHPTGGITKAANQPVAVITIPDHGLFAGDFVNFSNSGVTGVSGNMTVTSVIDRNTFTVTTPNQQESDQNNSTKVWHMGTSFHQSPWRKTNLGLIPMVTEVHSFTAINNDSFMMGYHQGDAAPREVGMLYFPDAFNNPGHYIKRRIPAEYEPDAAEPCVKYFDGVLYVVTRGTRSDRLGSSLHRSNDLGISWQSLRFPNNVHHSTLPFAKVGNELILFGTERADNEWEANAPDQRYFSSYPRTFYTRVNLDTWNLDNTQWVNITDQIYQGGIVNSGVGVGSVVVKDSYIYYMFGGEDHLNPWTYGDNSSKDPFKSDGHPSDLYCYKMKIGSDNRVSRDFRYGAVPDRAVPVFFDTNGIRTVPAPMEFTGDLGLGHVTLRASTSSNIRSEVLMEGEYGFIGKSVPTNNPAGQRIIFCGGDGTSSSTGAQITLYGASNTASRRIVYNGNEHLFQGADVKPYNDNVIALGGPSNRFTTAYLGSNPIVTSNGEKKTEPVVFDDAFLDAWGDVHYIMYQWLDAVQLKGNDARIHFGVIAQQIRDVFIAHGLMDENSTNCRYAVLCYDKYPRMTDTVFSHNEIVEHTDEEGNVTTTEEPVYTEVVIHEEGEEWGVRPDGIFFAEAAYQRRKLERIEARLSALEQK

Physico‐chemical properties

protein length:	1215 AA
molecular weight:	135380,94190 Da
isoelectric point:	4,96195
aromaticity:	0,10782
hydropathy:	-0,39070

Domains

Domains [InterPro]

DC_0041
STR
9–221

DC_0041 G3DSA:3.30.2020.50 G3DSA:3.30.750.60 IPR024428 IPR024430 IPR030392

IPR036278
STR
396–911

IPR036278 SSF69349 cd10144

IPR024429
ENZ
398–463

IPR024429 IPR001724 IPR001724 IPR024427 IPR001724 IPR001724 IPR001724 IPR044914 IPR030392 G3DSA:3.30.2460.10 G3DSA:1.20.5.100

G3DSA:2.120.10.10
STR
465–905

G3DSA:2.120.10.10 IPR001724 IPR001724 G3DSA:1.20.5.1240 Coil

IPR023366
STR
575–661

IPR023366

IPR001724
Unmapped
649–672

IPR001724

WVP99841.1

1 1215

Architecture

STR

ATT

STR

CHP

RBD

CHP

RBD

STR 9-221 | ATT 296-380 | ATT 392-463 | STR 464-1061 | CHP 1062-1074 | RBD 1075-1126 | CHP 1127-1185 | RBD 1186-1215

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0041	STR	DC_0041	9	221	Novel HMM	DC_0041	Central	Low	Positional only	179 proteins / 179 hits
G3DSA:3.30.2020.50	ATT	G3DSA:3.30.2020.50	296	380	Merged direct domain	G3DSA:3.30.2020.50	N-terminal	Low	Positional only	289 proteins / 289 hits
G3DSA:3.30.750.60	ATT	G3DSA:3.30.750.60	392	463	Merged direct domain	G3DSA:3.30.750.60	N-terminal	Low	Positional only	2 proteins / 2 hits
IPR036278	STR	IPR036278	396	911	Merged direct domain	Sialidase superfamily	Central	Low	Positional only	56 proteins / 56 hits
IPR024429	ENZ	DC_0802	398	463	InterPro cluster	Endosialidase, N-terminal extension domain	N-terminal	High	Text match	84 proteins / 84 hits
IPR024428	ENZ	DC_0114	464	905	InterPro cluster	Endosialidase, beta-propeller domain	Central	High	Text match	92 proteins / 92 hits
IPR001724	Unmapped	-	465	489	InterPro	Glycosyl hydrolase 58	-	-	-	-
G3DSA:2.120.10.10	STR	G3DSA:2.120.10.10	465	905	Merged direct domain	G3DSA:2.120.10.10	Central	Low	Positional only	42 proteins / 42 hits
IPR001724	Unmapped	-	530	558	InterPro	Glycosyl hydrolase 58	-	-	-	-
IPR024427	ENZ	DC_0382	575	657	InterPro cluster	Endosialidase, beta-barrel domain	Central	High	Text match	86 proteins / 86 hits
IPR023366	STR	IPR023366	575	661	Merged direct domain	ATP synthase subunit alpha, N-terminal domain-like superfamily	Central	Low	Positional only	44 proteins / 44 hits
IPR001724	Unmapped	-	649	672	InterPro	Glycosyl hydrolase 58	-	-	-	-
IPR001724	Unmapped	-	719	745	InterPro	Glycosyl hydrolase 58	-	-	-	-
IPR001724	Unmapped	-	797	823	InterPro	Glycosyl hydrolase 58	-	-	-	-
IPR001724	Unmapped	-	853	877	InterPro	Glycosyl hydrolase 58	-	-	-	-
IPR024430	ENZ	DC_0521	908	1061	InterPro cluster	Endosialidase, C-terminal domain	C-terminal	High	Text match	95 proteins / 95 hits
IPR044914	RBD	IPR044914	908	1061	Merged direct domain	Endosialidase, C-terminal domain superfamily	C-terminal	Low	Positional only	39 proteins / 39 hits
SSF69349	STR	SSF69349	912	1061	Merged direct domain	SSF69349	Central	Low	Positional only	153 proteins / 153 hits
IPR001724	Unmapped	-	954	980	InterPro	Glycosyl hydrolase 58	-	-	-	-
IPR001724	Unmapped	-	986	1013	InterPro	Glycosyl hydrolase 58	-	-	-	-
IPR030392	CHP	DC_0088	1062	1215	InterPro cluster	Intramolecular chaperone auto-processing domain	C-terminal	High	Text match	3502 proteins / 3959 hits
cd10144	CHP	DC_0088	1062	1201	InterPro cluster	cd10144	C-terminal	High	Text match	3502 proteins / 3959 hits
IPR030392	CHP	DC_0088	1066	1122	InterPro cluster	Intramolecular chaperone auto-processing domain	C-terminal	High	Text match	3502 proteins / 3959 hits
G3DSA:1.20.5.1240	RBD	G3DSA:1.20.5.1240	1075	1126	Merged direct domain	G3DSA:1.20.5.1240	C-terminal	Low	Positional only	1 proteins / 1 hits
G3DSA:3.30.2460.10	Unmapped	-	1127	1185	Gene3D	None	-	-	-	-
G3DSA:1.20.5.100	RBD	G3DSA:1.20.5.100	1186	1215	Merged direct domain	G3DSA:1.20.5.100	C-terminal	Low	Positional only	8 proteins / 8 hits
Coil	Unmapped	-	1195	1215	Coils	Coil	-	-	-	-

Tail Spike Domain Segmentation

This protein has been segmented into three structural domains: N-terminal, central domain, and C-terminal.

Domain Layout

N-terminal

Central

C-terminal

WVP99841.1

1 1215

Domain	Start	End	Length (AA)	Confidence
N-terminal	1	406	406	0,9964
Central domain	407	728	323	0,8913
C-terminal	729	1215	486	0,5737

Legend: N-terminal Central domain C-terminal

3D Structure with Domain Coloring

The structure is colored according to the domain segmentation: N-terminal (blue), Central (green), C-terminal (pink).

Domain Coloring

N-terminal
1-406

Central
407-728

C-terminal
729-1215

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Escherichia phage UE-S5a [NCBI]	3117418	No lineage information
Host	Escherichia coli [NCBI]	562	cellular organisms > Bacteria > Pseudomonadati > Pseudomonadota > Gammaproteobacteria > Enterobacterales

Coding sequence (CDS)

Genbank protein accession

WVP99841.1 [NCBI]

Genbank nucleotide accession

PP175015.1 [NCBI]

CDS location

range 6049 -> 9696
strand +

CDS

ATGAACGCACATACCCCCTTTGATGCAAATCAGGATTGGACCAATCCATATTGTCATAACAGTTCCAATGACCAAATGGTGGATGCACTGCTTGGTAATGCTTACCATGTGGTTCGTACTGTGTACTGCAACCTGGGTAATCTTAAACTCCTGTATGATTTCCTGAACCAGTATGGGATGGTCATCGGTGTAAACTCTGAAGAGGAATTGAAGGCATTATCCACGCAGGTTAAATATTCCCGTATCTACGGTTTCTCCCGTGCAGGTGACCGGCAGGTAACTGATTACTTGTACGTAGAAGGTGATCGTACTGGCATCATCCCAGATGACTCAGAAGCAACTGGTTCGTGGATTACTGTTGCTACTTCTGGTTCCAATGGTGGTGGTACTTCTTCCAGTGAAGGTGCTTATATTCCTTGGGTATACAGCAATGGTTCTGCTACTGGTGGGGAAACCACAATCAACGTACCAGATGGTACGGTGGGTGTACCTTTCATTATTGTTAATGGCGACATGCAGTATGTAGGTCGTGGATTTGAGTTCAACGTAGACAGCCTGTCCGTAACTCTGGCTCAACCTTTAGAGGAAGGAGATGAAGTAGTATTCCTTCTGACTGGTGTTCCTGCTGTACCGGATAATCCTAACATTAATGACTGGATTCAGATCAATTGGTTGTACAACAATGGTGCTGCTGTAGGGGGTGAGCAGGTTATTGCTATTCCGTATACCTTCCAGTCTATTCCGGCTGTGTATAAGAATGGTCTTCGTTTGTATAAAGGATTAACTACTGAGTCTTATACTGCTGACCCAGATAACCAACGTATTTTTCTTACCGAACCACTGACAACCAATGATCGTTTGATAGTACAGATTGGTGGTGAAGCACGAGTATTGGAAGCAACAGATCGTACTCTACAGGAAGTGGCTCGTGCGGCTAATGTAAAAGATTCTGAGGTTATTCTCAGTACTAATACAGTACAATCCTTAAATAACAAAAAAGTTATTTATAATCCCGATAATCAGCAGATTTACGTTATTCCAGAATTACCAACTAATGTGTATATATCCAGCGTAGTTGGTAATATCCTTACATATACTCCAGGTAACATTCAGGTTGAGTTACTAACCAAAAAAGAAACTGACCAAAATACCCTATGGCGTAATCAGGGAGATGTCCGTGGTTGGGGTGTTAAAGGGGACGCTGTGCATGATGATACAGTAGCATTAACGAACGTATTAAACGACACACCAGTTGGACAAAAGATTAATGGCAATGGGAAGACATATAAGGTCACATCCTTGCCTGATATTAGTCGATTCGTCAACACTCGTTTTGTTTATGAGCGTATTCCTGGTCAGCCGCTTTATTATGCCTCTGAAGAATTTGTTCAGGGCGAGCTTTTCAAAATAACGGACACCCCTTATTACAATGCGTGGCCACAGGATAAAGCGTTCGTTTACGATGATGTTATTTACTGCCCGTTCATGGCTAGTGATAGACATGGGGTCAGCAGGCTGCATGTATCCTGGGTTCGTTCAGGGGATGACGGACAGACCTGGACAACGCCGGAATGGTTAACCGACCTACATCCTGATTACCCGACAGTTAACTACCACTGTATGAGTATGGGGGTGATGCGTAATCGTCTCTTTGCGATGATTGAGACACGTACTTTAGCATCTAACGCACTGGTGACCTGTGAGATATGGGACCGTCCTATGTCCCGTAATTACCATCCGACAGGTGGTATCACAAAAGCCGCTAATCAGCCTGTGGCTGTAATTACTATTCCTGACCATGGATTGTTTGCCGGAGATTTTGTTAACTTCTCGAACTCTGGGGTGACTGGTGTTTCGGGGAATATGACTGTAACTTCAGTTATTGACCGCAACACATTTACTGTCACCACGCCAAATCAACAGGAATCTGACCAAAATAACTCTACCAAAGTCTGGCATATGGGGACATCGTTCCACCAGTCACCTTGGCGTAAAACCAACCTTGGACTGATTCCCATGGTTACCGAGGTTCACAGTTTTACCGCCATCAATAATGATTCATTTATGATGGGATATCACCAGGGTGATGCTGCTCCACGTGAAGTTGGTATGCTGTATTTCCCGGATGCATTTAACAATCCTGGGCATTATATAAAACGACGTATCCCTGCTGAATATGAGCCAGATGCGGCAGAACCCTGTGTTAAATATTTTGACGGTGTTCTTTATGTTGTAACCCGTGGAACTCGGTCGGATCGTCTGGGTAGTTCACTACATCGTAGTAACGATTTGGGTATATCCTGGCAATCATTGAGGTTCCCGAATAATGTCCACCACTCCACCCTGCCATTCGCTAAGGTAGGAAACGAACTCATTCTTTTTGGAACAGAACGTGCGGACAACGAGTGGGAAGCAAACGCACCCGACCAGCGATATTTCAGTTCTTACCCGCGAACGTTTTACACACGAGTGAACTTAGACACCTGGAATCTGGATAATACTCAGTGGGTGAATATCACTGACCAGATATATCAGGGTGGCATTGTCAACTCTGGCGTTGGTGTTGGCTCAGTGGTTGTTAAGGATAGTTATATCTATTACATGTTCGGTGGGGAAGACCATCTGAACCCCTGGACATATGGAGATAACTCATCGAAAGACCCATTCAAATCAGATGGTCATCCATCAGATTTGTATTGCTACAAAATGAAGATTGGTTCAGACAATCGTGTTTCCAGGGATTTCAGATATGGTGCTGTACCTGACAGAGCTGTCCCCGTGTTTTTTGATACAAATGGGATTCGCACTGTTCCTGCTCCAATGGAATTTACAGGAGATTTGGGTTTAGGTCATGTGACCCTTAGAGCCAGCACCAGTAGTAACATTCGCTCTGAAGTTTTAATGGAAGGTGAGTATGGGTTTATCGGGAAATCTGTACCGACTAATAACCCAGCAGGGCAGCGCATCATATTTTGCGGGGGAGACGGAACCAGTTCTTCTACTGGTGCACAGATTACGCTTTACGGTGCGAGCAACACAGCTTCTCGCAGGATAGTTTACAACGGAAATGAACATCTGTTTCAGGGTGCTGATGTTAAGCCTTATAACGATAACGTCATTGCGCTTGGTGGACCAAGTAACCGTTTCACCACTGCATACCTCGGAAGTAACCCTATTGTTACTTCTAACGGGGAGAAGAAAACAGAGCCGGTAGTTTTTGATGATGCTTTCCTGGATGCCTGGGGTGACGTTCACTACATCATGTACCAGTGGTTAGATGCTGTTCAACTGAAAGGCAATGATGCTCGTATTCACTTCGGGGTTATTGCTCAACAAATTCGTGATGTATTCATTGCACATGGTCTGATGGATGAAAACAGTACGAATTGTCGTTATGCTGTTCTGTGCTATGACAAGTATCCACGGATGACCGATACGGTATTTTCACACAATGAAATCGTTGAACACACTGACGAGGAGGGTAATGTCACTACTACGGAAGAACCTGTATACACCGAGGTGGTTATTCATGAAGAGGGTGAGGAGTGGGGTGTTCGGCCTGACGGAATTTTCTTTGCTGAAGCCGCTTATCAGAGAAGAAAACTGGAAAGAATCGAAGCCAGACTTTCTGCTCTTGAACAGAAGTAA

Genome Context

Tertiary structure

PDB ID

cb0ff187346eaa6935202f0962fe875b95919f72118a810f403ce5b1508b6a62

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,6116

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Tail Spike Domain Segmentation

Tail Spike Domain Segmentation

3D Structure with Domain Coloring

Domain Coloring

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence