Protein

View in Explore

Genbank accession

CBW38039.1 [GenBank]

Protein name

maturation/adhesion protein

RBP type

Evidence GenBank

Probability 1,00

TSP

Evidence RBPdetect

Probability 0,91

Protein sequence

MTRNVEELFGGVVTAPHQIPFTYKSSVGGETFISLPFYPVTGVVTINGGMQVPLDNFEIDGNTLNLGRALSKDDVVYCLFDKILSPEDTSKGIRIYKFQAVGGETEFTPDFTSYGVQSLYIGGEYKTPDIEYSYNSTTGKVSLQTALTAGVWVVAEMSVKQPNISPAFDRSIQEIARSANVKDSEVIVSTDTISLLDDKKVVYDSAAQIIYGLPIIPDGSVISSVSDGKLTYNPGDVQVDLIPVPTSAGALEIKLASEIGANGVGVGDTTVGEILKQDIFVIGITGQSNAAGSNNGGPNPASDKVVVWNGSNNTWGSSDYTQPPFSMSTPTGNNGNNNVALAFAHRLVDEHKAKKVYIIYDAVGGRSITDWMGDGVNSVRYASFKTKVESALTTPELVAAGKTKLDFLIWFQGEEDALTDNVTTYRDKFRTLDLQFRAESWMTSVTPMFVMGMSGLHTRYQVWQAQLNYCENYNRNCIYVNSAGLKTQYDIDQTGDYTHFLGQSLWEHGYDRIWNALNSKGSTHRSHLTPFYARGAGPWKGESDAIALFSSLISIDSATNNFPLNGPAAQGSISWGLNCSADGNYTMAGGHTVATDNTCNYSIGWGREITFGPGCAYSASFGYRHTLNQWGQFAAGVGHNLSSSYECALGRYSLYTTEQANKVIFQFGIGLTKRRKNAVTIREDGAIEMSVKSAHDPAQNGEMVIYAESNTSLRIKVRGTDGVVRSAVLPLS

Physico‐chemical properties

protein length:	732 AA
molecular weight:	79342,69470 Da
isoelectric point:	5,24149
aromaticity:	0,10109
hydropathy:	-0,21694

Domains

Domains [InterPro]

DC_0116
ATT
1–92

DC_0116 G3DSA:3.30.2020.50 SSF52266 IPR011049

G3DSA:3.30.2020.50
ATT
160–245

G3DSA:3.30.2020.50 IPR005181 DC_0394

IPR052940
Unmapped
277–490

IPR052940

IPR036514
STR
279–529

IPR036514

SSF52266
STR
284–531

SSF52266

CBW38039.1

1 732

Architecture

ATT

STR

RBD

STR

RBD

ATT 1-92 | ATT 156-245 | STR 275-531 | RBD 532-568 | STR 569-661 | RBD 662-732

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0116	ATT	DC_0116	1	92	Novel HMM	DC_0116	N-terminal	Low	Positional only	93 proteins / 93 hits
G3DSA:3.30.2020.50	ATT	G3DSA:3.30.2020.50	156	245	Merged direct domain	G3DSA:3.30.2020.50	N-terminal	Low	Positional only	289 proteins / 289 hits
G3DSA:3.30.2020.50	ATT	G3DSA:3.30.2020.50	160	245	Merged direct domain	G3DSA:3.30.2020.50	N-terminal	Low	Positional only	289 proteins / 289 hits
SSF52266	STR	SSF52266	275	531	Merged direct domain	SSF52266	Central	Low	Positional only	227 proteins / 227 hits
IPR005181	ENZ	DC_0247	277	491	InterPro cluster	Sialate O-acetylesterase domain	Central	High	Text match	78 proteins / 79 hits
IPR052940	Unmapped	-	277	490	InterPro	Carbohydrate Esterase 6	-	-	-	-
IPR036514	STR	IPR036514	279	529	Merged direct domain	SGNH hydrolase superfamily	Central	Low	Positional only	180 proteins / 180 hits
SSF52266	STR	SSF52266	284	531	Merged direct domain	SSF52266	Central	Low	Positional only	227 proteins / 227 hits
DC_0394	RBD	DC_0394	515	732	Novel HMM	DC_0394	C-terminal	Low	Positional only	49 proteins / 49 hits
IPR011049	STR	IPR011049	569	661	Merged direct domain	Serralysin-like metalloprotease, C-terminal	Central	Low	Positional only	81 proteins / 81 hits

Tail Spike Domain Segmentation

This protein has been segmented into three structural domains: N-terminal, central domain, and C-terminal.

Domain Layout

N-terminal

Central

C-terminal

CBW38039.1

1 732

Domain	Start	End	Length (AA)	Confidence
N-terminal	1	404	404	0,6733
Central domain	405	635	232	0,7730
C-terminal	636	732	96	0,9552

Note: Constraints were applied during segmentation.
Fixed 38 C-terminal predictions appearing before Central domain

Legend: N-terminal Central domain C-terminal

3D Structure with Domain Coloring

The structure is colored according to the domain segmentation: N-terminal (blue), Central (green), C-terminal (pink).

Domain Coloring

N-terminal
1-404

Central
405-635

C-terminal
636-732

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Salmonella phage Vi01 [NCBI]	2991283	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Salmonella enterica subsp. enterica serovar Typhi [NCBI]	90370	Bacteria > Proteobacteria > Gammaproteobacteria > Enterobacteriales > Enterobacteriaceae > Salmonella

Coding sequence (CDS)

Genbank protein accession

CBW38039.1 [NCBI]

Genbank nucleotide accession

FQ312032.1 [NCBI]

CDS location

range 121816 -> 124014
strand -

CDS

ATGACCAGAAATGTAGAAGAATTATTCGGCGGCGTAGTCACAGCTCCCCACCAGATTCCTTTCACTTATAAATCAAGTGTCGGTGGAGAAACTTTCATTTCTCTACCTTTCTATCCTGTCACTGGTGTTGTCACAATTAACGGCGGCATGCAAGTTCCGTTAGACAACTTCGAGATAGACGGGAATACGTTAAACCTCGGGCGCGCATTGTCTAAAGATGACGTGGTTTATTGCCTGTTCGACAAAATCCTTTCACCAGAAGATACTTCTAAAGGCATTCGAATATACAAATTTCAAGCCGTGGGTGGAGAAACTGAATTCACGCCTGACTTTACTTCTTATGGTGTCCAGTCTCTTTATATCGGTGGCGAGTACAAAACTCCTGATATAGAATATTCATACAACAGTACGACTGGGAAAGTTTCCCTACAAACTGCGCTGACTGCAGGGGTGTGGGTTGTTGCGGAGATGTCTGTTAAACAACCGAATATCAGTCCGGCGTTCGATCGCAGTATCCAAGAAATTGCCCGTTCGGCTAACGTAAAAGACTCTGAAGTCATTGTCAGCACTGATACCATATCTTTACTCGACGACAAGAAAGTTGTTTATGATTCAGCGGCGCAGATTATTTATGGTTTACCAATTATTCCTGATGGTTCAGTGATTTCTTCTGTATCTGATGGAAAATTGACTTATAATCCAGGTGATGTGCAGGTTGATTTGATACCTGTTCCGACATCTGCCGGTGCATTGGAAATTAAATTGGCCTCCGAGATTGGGGCGAATGGGGTGGGTGTCGGCGACACTACCGTCGGTGAGATTTTAAAACAAGATATCTTCGTTATTGGTATCACTGGACAGTCGAATGCTGCTGGTAGCAACAACGGTGGACCCAATCCCGCCAGCGATAAAGTTGTTGTATGGAATGGTTCTAACAATACTTGGGGCAGCAGCGACTATACACAACCCCCGTTCTCTATGAGTACTCCAACTGGCAACAACGGAAATAACAACGTTGCTCTGGCTTTTGCCCATCGCCTCGTTGATGAGCATAAGGCTAAGAAAGTTTATATTATCTATGATGCTGTAGGTGGCCGATCAATCACGGATTGGATGGGTGATGGTGTCAACTCTGTTCGATATGCATCGTTCAAAACCAAAGTAGAATCTGCTCTTACCACACCTGAGTTAGTTGCGGCAGGTAAAACTAAACTTGATTTTCTTATCTGGTTTCAGGGTGAGGAAGATGCGCTCACCGATAATGTAACAACTTACCGTGATAAATTCCGTACATTAGACTTACAATTCCGCGCAGAATCTTGGATGACTTCTGTAACACCAATGTTTGTTATGGGTATGTCTGGTTTACACACTCGTTATCAGGTATGGCAAGCCCAACTGAACTACTGTGAAAACTACAATCGTAATTGTATCTACGTCAACTCTGCTGGCCTCAAGACACAATACGATATTGACCAGACTGGTGATTACACGCATTTCCTCGGTCAGTCCCTTTGGGAACACGGTTATGATCGTATTTGGAATGCCCTTAATAGCAAGGGTTCTACACATCGGAGCCACTTGACACCATTCTATGCTCGTGGTGCTGGTCCGTGGAAAGGTGAGTCGGATGCCATTGCCCTGTTCAGTTCTCTGATTAGCATTGATTCCGCCACCAACAACTTCCCATTAAACGGTCCAGCAGCGCAAGGATCGATTTCCTGGGGGTTAAACTGTTCGGCGGATGGAAACTACACAATGGCTGGAGGACATACGGTAGCGACGGATAACACATGCAACTACAGCATTGGTTGGGGGCGTGAAATCACATTTGGCCCTGGGTGCGCATACAGTGCATCATTTGGTTATCGCCATACATTAAATCAGTGGGGACAGTTTGCAGCAGGTGTCGGGCATAATCTTTCATCCAGTTATGAATGTGCTTTGGGGCGTTATTCCCTCTATACTACCGAGCAAGCCAACAAAGTCATTTTCCAGTTTGGTATTGGCTTGACTAAACGTCGGAAGAACGCTGTTACTATTCGTGAAGACGGTGCGATTGAGATGTCTGTTAAGTCAGCGCATGATCCGGCTCAGAATGGTGAGATGGTTATTTATGCAGAGTCCAATACATCGTTGCGCATTAAAGTGCGAGGCACTGACGGTGTAGTACGCTCTGCTGTCTTGCCTTTATCTTAA

Genome Context

Tertiary structure

PDB ID

b232fd45aac32a860cd9043de31470a713280c5ea2e11757bcce9e03e35fe2cb

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,6929

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Tail Spike Domain Segmentation

Tail Spike Domain Segmentation

3D Structure with Domain Coloring

Domain Coloring

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence