Protein

View in Explore

Genbank accession

XOD32014.1 [GenBank]

Protein name

hypothetical protein

RBP type

TSP

Evidence DepoScope

Probability 0,98

TSP

Evidence RBPdetect

Probability 0,84

Evidence RBPdetect2

Probability 0,95

Protein sequence

MATLKQIQFKRSKTAGARPAASVLAEGELAINLKDRVLFTKDDQGNIIDLGFAKGGSIDGNVIHKGNYNQTGDYTLNGTFTQTGNFNLTGIARVTRDIIAAGQIMTEGGELITKSSGTAHVRFHDSISRERGIIYAPANDGLTTQVLNIRVQDYAAGSESTYAFSGSGLFTSPEVSAWKSMSTPQILTNKVITNNKSTGDYDIYSMADNVPLSESTTAINHLRVMRNAVGSGIFHEVKDNDGITWYSGDGLDAYLWSFTWSGGIKSSHSISIGLTPGNKDYSILGPSSIALGDNDTGFKWHQDGYYFSVNNGTKTFLFSPSETTSLRKFVAGYSTNGTDLTTPPTENYALATVVTYHDNNAFGDGQTLLGYYQGGRYHHYFRGRGTTNINTAGGLLVTPGNIDVIGGSVNIDGRNNASTLMLKGNTTGSSSVDNMTISVWGNTFTNPSEGTRKNVMEISDATSWMSYIQRLTTGEVEMNVNGSFESSGVTAGNRGVHTTGEISSGAVNALRIWNADYGAIFRRSEGSLHIIPTAYGEGKHGDIGPLRPFSMALDTGKVTIPDLDLNYASFAANGYIKFVGHGAGAGGYDIQYAQAAPIFQEIDDDAISKYYPIVKQKFLNSKAVWSLGTEINSGTFVLHHLKEDGSQGHTSRFNADGTVNFPDNVQVGGGEATIARNGNIFSDIWKSFTSAGDTTNIRDAIATRVAKEGDTMTGRLTLSAGNDALVLTAGTGASSHIRSDVGGTNNWFIGKGGADNGLSFYSYITQGGVNITNTGEIALSPQGQGAFHFNRDRLYINASQWTAHQAGDWGNQWRQEAPVFVDFGNVGNDSYYPIIKGKSGITNEGYISGVDFGMRRIPNNWAQGIIRVGNQENGHDPQAIFEFHHNGTFYALSMVKSNRISAGGGDPVWTGACVVIGDNDTGLVHGGDGRINMVANGIHIANWGAGYQSHPGLWDSNGAFWTEVGKAIISHGHLVQANDSYSTYVRDVYVRSDIRVKKDLVKFENASQKLSKINGYTYMQKRGMDEEGNQKWEPNAGLIAQEVQAILPELVEGDLDGEALLRLNYNGVIGLNTAAINEHTVEIAELKSEIEELKALIKSLLK

Physico‐chemical properties

protein length:	1102 AA
molecular weight:	118672,01410 Da
isoelectric point:	5,73155
aromaticity:	0,09437
hydropathy:	-0,33485

Domains

Domains [InterPro]

DC_0538
STR
1–684

DC_0538 G3DSA:6.20.80.10 IPR030392 Coil

IPR048390
ATT
449–549

IPR048390 DC_0339

IPR030392
CHP
992–1090

IPR030392

DC_0594
RBD
999–1102

DC_0594

XOD32014.1

1 1102

Architecture

STR

ATT

STR

RBD

STR 1-448 | ATT 449-549 | STR 550-1028 | RBD 1029-1102

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0538	STR	DC_0538	1	684	Novel HMM	DC_0538	Central	Low	Positional only	380 proteins / 380 hits
IPR048390	ATT	DC_0836	449	549	InterPro cluster	Long-tail fiber proximal subunit, trimerization domain	C-terminal	Medium	Text match	656 proteins / 656 hits
DC_0339	STR	DC_0339	616	1028	Novel HMM	DC_0339	Central	Low	Positional only	187 proteins / 187 hits
G3DSA:6.20.80.10	STR	G3DSA:6.20.80.10	722	776	Merged direct domain	G3DSA:6.20.80.10	Central	Low	Positional only	37 proteins / 37 hits
IPR030392	CHP	DC_0088	992	1051	InterPro cluster	Intramolecular chaperone auto-processing domain	C-terminal	High	Text match	3502 proteins / 3959 hits
IPR030392	CHP	DC_0088	992	1090	InterPro cluster	Intramolecular chaperone auto-processing domain	C-terminal	High	Text match	3502 proteins / 3959 hits
DC_0594	RBD	DC_0594	999	1102	Novel HMM	DC_0594	C-terminal	Low	Positional only	21 proteins / 21 hits
Coil	Unmapped	-	1076	1096	Coils	Coil	-	-	-	-

Tail Spike Domain Segmentation

This protein has been segmented into three structural domains: N-terminal, central domain, and C-terminal.

Domain Layout

N-terminal

Central

C-terminal

XOD32014.1

1 1102

Domain	Start	End	Length (AA)	Confidence
N-terminal	1	56	56	0,6586
Central domain	57	255	200	0,2140
C-terminal	256	1102	846	0,7996

Note: Constraints were applied during segmentation.
Fixed 19 C-terminal predictions appearing before Central domain

Legend: N-terminal Central domain C-terminal

3D Structure with Domain Coloring

The structure is colored according to the domain segmentation: N-terminal (blue), Central (green), C-terminal (pink).

Domain Coloring

N-terminal
1-56

Central
57-255

C-terminal
256-1102

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Shigella phage sb2 [NCBI]	3387547	Viruses >
Host	Shigella flexneri [NCBI]	623	cellular organisms > Bacteria > Pseudomonadati > Pseudomonadota > Gammaproteobacteria > Enterobacterales

Coding sequence (CDS)

Genbank protein accession

XOD32014.1 [NCBI]

Genbank nucleotide accession

PQ666540 [NCBI]

CDS location

range 157416 -> 160724
strand +

CDS

ATGGCTACTTTAAAACAAATACAATTTAAAAGAAGCAAAACTGCAGGAGCACGTCCTGCCGCTTCAGTATTAGCCGAAGGTGAATTGGCTATAAACTTAAAAGACCGTGTACTTTTTACTAAAGACGATCAAGGAAATATCATTGATCTGGGTTTTGCTAAGGGTGGTAGTATTGACGGAAATGTTATTCATAAAGGAAATTACAACCAAACTGGCGATTACACTTTAAATGGCACCTTCACTCAGACAGGTAATTTTAATTTAACTGGTATTGCTCGAGTAACTCGTGATATTATTGCAGCTGGGCAGATTATGACTGAAGGTGGGGAACTTATTACAAAAAGTTCAGGTACAGCGCATGTTCGTTTTCATGATAGCATTAGCCGTGAGCGTGGAATCATTTATGCTCCGGCTAATGATGGATTAACTACACAAGTACTTAATATCAGGGTTCAAGACTACGCCGCTGGTAGCGAAAGCACTTATGCATTTTCAGGTAGTGGCCTATTTACTTCACCTGAAGTATCAGCATGGAAATCTATGTCAACTCCTCAGATTTTGACCAACAAAGTCATTACTAATAATAAATCTACAGGTGATTATGACATTTATTCGATGGCAGATAATGTTCCACTGTCTGAAAGCACTACTGCTATTAATCATCTCCGTGTCATGCGTAATGCAGTCGGTTCTGGCATTTTCCATGAAGTTAAAGATAATGATGGAATAACTTGGTACAGCGGAGATGGGCTAGACGCTTATCTTTGGTCATTTACATGGAGCGGCGGAATTAAATCGAGTCACTCAATTTCTATCGGTTTAACACCTGGCAATAAAGATTATTCAATACTAGGACCATCTAGTATTGCTTTAGGGGATAATGATACTGGATTTAAATGGCACCAGGATGGATATTATTTCAGCGTCAATAATGGAACGAAAACATTTTTATTTAGCCCTAGCGAAACAACTAGCCTAAGAAAATTTGTAGCTGGATATTCTACCAATGGAACCGATTTAACTACTCCTCCTACTGAAAACTATGCTCTCGCTACTGTTGTTACATATCATGATAATAACGCGTTTGGAGATGGTCAGACTCTTTTGGGATATTATCAAGGCGGTAGATATCATCATTATTTTCGTGGAAGAGGAACAACTAATATTAATACCGCTGGAGGATTATTAGTTACTCCTGGTAATATTGATGTTATTGGTGGTTCTGTTAATATCGATGGTAGAAATAATGCTTCTACATTGATGCTTAAAGGTAACACAACTGGTAGTAGTTCAGTTGATAATATGACAATTTCCGTGTGGGGTAATACGTTTACTAATCCTAGTGAAGGCACCCGTAAAAATGTCATGGAAATTTCTGATGCAACTAGTTGGATGAGCTATATTCAAAGACTTACTACCGGTGAAGTAGAAATGAACGTTAATGGTTCATTTGAATCATCTGGTGTTACTGCTGGAAATAGAGGAGTTCACACAACAGGTGAAATTTCATCTGGGGCCGTGAATGCGCTTCGCATTTGGAATGCAGATTATGGAGCCATTTTTAGACGTTCAGAAGGCAGTCTTCATATTATTCCAACTGCTTACGGTGAAGGTAAACACGGCGATATCGGTCCACTTCGCCCGTTTAGTATGGCTTTAGATACTGGTAAAGTCACTATTCCTGATTTAGATTTAAATTATGCTTCGTTTGCCGCTAACGGTTATATTAAATTTGTTGGTCATGGAGCGGGTGCCGGCGGTTATGACATTCAATATGCTCAAGCGGCTCCTATTTTCCAGGAAATCGATGATGATGCTATAAGCAAATATTACCCTATTGTTAAACAGAAGTTTTTAAACAGTAAAGCTGTTTGGTCTTTAGGTACTGAAATTAATTCAGGTACATTTGTTTTACATCATTTAAAAGAAGATGGTTCACAAGGCCATACATCAAGATTTAATGCTGACGGTACAGTTAATTTCCCTGATAATGTTCAGGTTGGTGGTGGTGAAGCTACTATTGCTAGAAATGGTAATATTTTTTCTGATATTTGGAAATCGTTTACTTCAGCAGGAGACACCACAAACATTCGCGATGCGATAGCTACTCGTGTTGCCAAAGAAGGCGATACGATGACTGGTAGGTTGACTTTATCTGCTGGAAATGATGCCCTTGTTTTAACTGCAGGCACGGGCGCTTCATCGCACATCCGTAGCGATGTAGGTGGTACAAATAATTGGTTTATTGGTAAAGGCGGTGCCGACAATGGTCTAAGTTTTTACAGTTACATTACACAAGGCGGTGTGAACATAACAAATACCGGTGAAATAGCGCTTTCTCCTCAAGGACAAGGAGCGTTTCATTTTAATAGAGACCGCCTTTATATAAATGCTAGTCAATGGACCGCACACCAGGCTGGCGATTGGGGCAATCAATGGCGCCAGGAAGCTCCTGTATTTGTTGATTTTGGTAATGTTGGTAATGATAGTTATTATCCGATTATCAAAGGAAAATCAGGTATTACTAATGAAGGGTATATATCTGGTGTAGATTTTGGTATGCGACGCATTCCTAATAACTGGGCACAAGGTATTATTCGTGTAGGTAATCAGGAAAACGGCCATGACCCACAAGCTATCTTCGAATTCCACCATAATGGTACGTTTTATGCCCTGAGCATGGTTAAGAGTAACAGAATATCAGCTGGTGGAGGTGACCCTGTATGGACAGGCGCATGTGTTGTTATTGGTGATAATGATACCGGATTAGTTCATGGTGGTGACGGCCGAATCAATATGGTTGCCAATGGTATACATATTGCAAACTGGGGCGCAGGCTATCAATCTCATCCGGGCCTTTGGGATTCAAATGGGGCTTTTTGGACAGAAGTTGGCAAAGCAATTATTTCTCATGGGCATCTCGTTCAGGCGAATGACAGTTATTCCACATATGTCCGTGATGTTTATGTCCGCTCTGATATTCGTGTTAAAAAGGACCTTGTTAAATTTGAAAATGCTTCTCAGAAGCTTTCTAAAATTAACGGTTACACTTATATGCAGAAACGTGGAATGGATGAAGAAGGTAATCAGAAATGGGAACCTAACGCTGGTTTAATTGCTCAAGAAGTTCAAGCTATTTTACCAGAATTAGTTGAAGGCGACCTTGATGGTGAAGCTTTACTTCGTTTGAACTATAACGGCGTAATTGGTTTAAATACAGCTGCAATCAATGAGCATACTGTAGAAATTGCAGAACTTAAATCAGAAATCGAAGAACTTAAAGCATTAATTAAATCATTGTTAAAATAA

Genome Context

Tertiary structure

PDB ID

8d8896a8777ec99a8a1a32f526e2969f57fe8d9967256242c549db478cda6fd1

ColabFold

Source ColabFold

Method ColabFold

Resolution 0,2835

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Tail Spike Domain Segmentation

Tail Spike Domain Segmentation

3D Structure with Domain Coloring

Domain Coloring

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence