Protein

View in Explore

Genbank accession

WHM52723.1 [GenBank]

Protein name

central tail fiber J

RBP type

Evidence Phold

Probability 1,00

TSP

Evidence RBPdetect

Probability 0,57

Protein sequence

MPPVIIGVAVGVAASVAGATLLTAVAIGMAAAGLYAVATMDIPKTPGTSPSNAKQTIRSPNQPFRAIVGTAMVGGPMLFAEEYSNSIDVQEEYEHCTYYHGGKHCEKRTRTVTKTNKYLHLVIPLACHPCEDVVEVYFGDDKQDNWDHEYWKINVIKGDQQSVADLPKMLTDVPSWTDKMVGKGVTFVHVALRHSAEHFPNGLPNIKCLVQGMKLDTPMFKGFTNNAAAVVYHFLRHHFRAKESEINTLSFRDAYSVCGELMYSEQPAPDPDDPSAPTPAVPIRYAIDGIYDFDESYENIMNKMLAACGGKLLYTNGQYHLHVAAYRGPAPQDQVVKLSDLNGPIQIVPDTPLGDRINTVKGQHLDPNNFYQQVDFEPVTHPDYVAEDGEELTKDLDLEYVLNPHQAYRLANIVLKENRYGLTVTVPMNLRGFKFNAGLPVRFDEKEFGYDQLEFEVASWKLTDGKGIELVLKQTAAEIFDDAVAVVTPKPPSTNIPDPKFCHPVQNLIFQPFLDDGVYDGLLLWSHPDIDNVREFEVVVTSTDGQIFKYQPGKALELYLDNMPKSDYNITVIGYNIYGAPSAPVSIQADVGSTKPITNVVFEADNFEMNIIPKVSGILPSNTTFLFYRANNVNNPSPTDVTLLGQGVTYVDVGLIPNTAYKYYVQVTNSATFSELYGPYSAKTTDNPDDIYDFIKDQIPGQYTWVVYASDAFGADISKTYNPAIHHFEGRAYNKGTETPSLNPLDYTFIRIGEFISPEDQDILDNLAQGKLPDGSADLVKPSDVLFKPGDKVTGTNIADGAISTPKLTANAVTSDKIIANAVTTAKIAAGAVTATQIAANAITASKILAGAITAEKIAANAITADKIAVTVVSPINNFSEFGDTRGWLLPPSAVLSEAISLNGKKARTLKFVNSPTAYRELKSDKFTVDHNAIYEVRFSYYSGQTSQGVKTALRLKAYNSANSEVVSDRYHFDTLAKADTTPSPDFWAGSVVNGWRHLVSYIVGASADVNSVPKAINSTYVIKLGADARTLALQSITWPNANIVDTHIYSPSIVKVGSGIIVANEIRANSLITSPVIKGGTVEGVEVIGSTVKGGKGLFGPESGAPYEGHHTRIGTDGTIDTDRLRLNHGKTGSRLEITADAVRVYEGSLLRVVLGKLS

Physico‐chemical properties

protein length:	1160 AA
molecular weight:	126317,14800 Da
isoelectric point:	5,38881
aromaticity:	0,09138
hydropathy:	-0,17259

Domains

Domains [InterPro]

DC_0187
STR
1–934

DC_0187

IPR036116
STR
645–689

IPR036116 DC_1024

WHM52723.1

1 1160

Architecture

STR

STR 1-1153 |

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0187	STR	DC_0187	1	934	Novel HMM	DC_0187	Central	Low	Positional only	466 proteins / 466 hits
IPR036116	STR	IPR036116	645	689	Merged direct domain	Fibronectin type III superfamily	Central	Low	Positional only	52 proteins / 52 hits
DC_1024	STR	DC_1024	846	1153	Novel HMM	DC_1024	Central	Low	Positional only	15 proteins / 15 hits

Tail Spike Domain Segmentation

This protein has been segmented into three structural domains: N-terminal, central domain, and C-terminal.

Domain Layout

N-terminal

Central

C-terminal

WHM52723.1

1 1160

Domain	Start	End	Length (AA)	Confidence
N-terminal	1	1084	1084	0,7255
Central domain	1085	1149	66	0,4518
C-terminal	1150	1160	10	0,9770

Note: Constraints were applied during segmentation.
Fixed 255 C-terminal predictions appearing before Central domain|C-terminal too short, adjusted boundary

Legend: N-terminal Central domain C-terminal

3D Structure with Domain Coloring

The structure is colored according to the domain segmentation: N-terminal (blue), Central (green), C-terminal (pink).

Domain Coloring

N-terminal
1-1084

Central
1085-1149

C-terminal
1150-1160

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Vibrio phage vB_VpaS_1601 [NCBI]	3038270	No lineage information
Host	Vibrio parahaemolyticus [NCBI]	670	cellular organisms > Bacteria > Pseudomonadati > Pseudomonadota > Gammaproteobacteria > Vibrionales

Coding sequence (CDS)

Genbank protein accession

WHM52723.1 [NCBI]

Genbank nucleotide accession

OQ719603.1 [NCBI]

CDS location

range 24626 -> 28108
strand +

CDS

ATGCCACCAGTGATAATAGGTGTAGCCGTAGGCGTAGCTGCTTCGGTAGCAGGTGCTACACTTCTAACCGCAGTAGCAATCGGTATGGCCGCTGCTGGGTTGTATGCTGTTGCTACTATGGACATCCCAAAAACTCCAGGCACAAGCCCATCAAACGCCAAGCAGACCATACGATCGCCTAACCAGCCATTCAGGGCAATAGTAGGCACTGCAATGGTTGGCGGACCTATGCTGTTCGCTGAAGAGTACAGCAACTCGATAGATGTTCAGGAAGAGTACGAGCACTGCACTTACTACCACGGCGGCAAGCATTGTGAGAAAAGAACTCGTACGGTAACCAAAACAAACAAGTACTTGCACCTTGTAATACCTTTAGCGTGCCACCCTTGTGAAGATGTCGTTGAGGTTTACTTTGGTGACGACAAACAAGACAACTGGGATCACGAGTATTGGAAGATAAACGTAATTAAAGGCGATCAGCAAAGTGTTGCCGACCTTCCTAAGATGCTTACCGATGTCCCGTCATGGACGGATAAAATGGTAGGCAAAGGTGTAACTTTTGTGCATGTAGCACTGCGCCATAGCGCTGAGCACTTCCCTAACGGCCTGCCTAATATAAAGTGTTTGGTGCAAGGGATGAAGCTTGACACTCCTATGTTTAAAGGCTTCACAAACAATGCCGCTGCTGTGGTATACCACTTTCTTCGTCATCACTTCAGAGCTAAAGAGAGTGAGATCAACACACTATCATTCAGAGACGCATATTCAGTTTGTGGCGAACTGATGTACTCTGAGCAGCCTGCGCCAGATCCTGATGATCCTTCTGCACCTACTCCTGCTGTCCCTATCCGCTACGCAATAGACGGCATCTACGACTTTGACGAGTCGTACGAAAACATCATGAACAAGATGCTTGCTGCATGCGGAGGTAAGTTGTTGTACACCAACGGCCAGTACCATTTGCACGTTGCAGCGTACAGAGGACCAGCACCGCAAGACCAAGTTGTAAAGCTTTCAGACCTTAACGGTCCTATACAAATAGTCCCAGATACCCCGTTAGGCGATCGAATAAATACGGTGAAAGGGCAGCATTTAGACCCTAACAACTTCTACCAACAAGTAGACTTTGAGCCTGTGACCCACCCTGATTACGTGGCAGAAGACGGAGAAGAGCTTACAAAAGACTTAGACCTTGAGTACGTCCTAAACCCACATCAGGCTTATCGCCTCGCTAACATCGTACTTAAAGAGAACAGATATGGTCTAACTGTCACAGTCCCTATGAACTTGAGAGGGTTTAAGTTCAACGCTGGTCTTCCTGTACGCTTCGACGAGAAAGAGTTTGGATATGACCAGTTAGAGTTCGAAGTTGCCTCTTGGAAGTTGACAGACGGTAAAGGTATCGAGTTGGTTCTTAAACAGACTGCGGCAGAAATATTTGATGATGCAGTGGCTGTTGTTACCCCTAAACCACCGTCAACTAACATACCTGACCCTAAATTCTGCCACCCTGTGCAAAATCTGATCTTCCAGCCGTTCTTGGACGATGGTGTCTATGATGGTCTTCTTCTTTGGTCTCATCCTGATATAGACAATGTTAGAGAATTTGAAGTTGTTGTCACGTCTACTGACGGACAAATATTCAAATACCAGCCAGGGAAAGCTTTAGAACTTTACTTGGATAACATGCCTAAGTCTGACTACAACATAACCGTAATTGGTTACAATATTTACGGAGCGCCTTCAGCTCCTGTATCTATACAAGCAGATGTTGGCTCTACTAAACCTATCACTAACGTAGTGTTCGAAGCTGACAACTTTGAGATGAACATCATCCCTAAAGTTAGCGGCATACTCCCTAGCAACACTACGTTCTTGTTTTACAGAGCTAATAACGTCAACAACCCAAGCCCTACAGACGTCACACTCTTAGGTCAAGGCGTAACTTATGTTGATGTGGGATTAATACCTAATACGGCTTACAAGTATTATGTTCAGGTGACTAATAGCGCCACGTTCTCAGAGTTGTACGGACCTTACTCCGCTAAGACTACAGACAACCCAGATGACATCTACGACTTTATTAAAGATCAGATACCTGGGCAGTATACCTGGGTTGTTTATGCCTCTGATGCATTTGGGGCAGACATAAGCAAGACTTACAATCCGGCTATCCACCACTTTGAAGGGCGTGCATACAATAAAGGTACTGAAACCCCTAGTTTAAATCCTCTTGATTACACGTTCATCCGTATTGGCGAGTTCATTTCTCCCGAAGACCAAGACATTTTAGACAATCTCGCACAGGGTAAGCTTCCTGACGGCTCCGCTGATTTGGTTAAGCCTAGCGATGTTTTGTTTAAGCCAGGAGACAAAGTCACCGGTACTAACATAGCTGACGGCGCTATCAGCACACCTAAACTAACTGCCAATGCAGTGACTTCTGACAAGATAATAGCTAACGCAGTGACTACAGCAAAGATAGCCGCTGGTGCTGTTACTGCAACACAGATAGCCGCTAACGCCATCACCGCCAGTAAGATTCTTGCCGGAGCAATCACAGCAGAGAAAATAGCTGCAAATGCTATCACAGCAGACAAGATAGCGGTAACAGTAGTCTCACCTATCAATAACTTCAGTGAGTTTGGTGATACTAGAGGATGGCTCTTACCTCCTAGCGCAGTCTTATCAGAAGCAATAAGTCTTAACGGAAAGAAAGCCAGAACCCTTAAGTTTGTAAACAGTCCGACAGCGTACAGAGAGCTTAAGTCTGATAAGTTCACAGTAGACCACAACGCTATATACGAAGTTCGGTTCTCTTACTACAGCGGTCAGACATCTCAGGGAGTTAAAACCGCCCTCAGACTGAAAGCATATAACTCTGCTAACTCTGAGGTAGTCTCAGACAGATACCACTTTGACACGCTAGCAAAAGCAGACACTACCCCGAGCCCAGACTTCTGGGCGGGCTCAGTTGTAAACGGTTGGCGCCATTTAGTCTCATATATAGTGGGAGCTTCTGCAGACGTAAACTCAGTACCTAAAGCCATTAACTCAACTTACGTCATAAAGCTAGGGGCTGACGCTAGGACACTAGCACTCCAAAGCATTACTTGGCCTAACGCTAACATAGTTGATACCCACATCTACTCTCCTTCAATCGTTAAAGTAGGCAGCGGCATTATAGTCGCTAATGAGATAAGAGCTAACTCTCTGATCACCTCCCCTGTAATTAAAGGCGGTACGGTTGAAGGCGTTGAGGTTATAGGCTCTACAGTAAAAGGTGGTAAAGGTTTGTTTGGTCCAGAAAGTGGCGCGCCGTATGAAGGTCACCATACCAGAATAGGCACTGACGGAACTATCGACACCGACAGACTTAGACTTAATCACGGAAAGACTGGCAGCAGGCTAGAGATAACTGCGGACGCTGTTCGAGTTTACGAAGGTAGTCTACTTCGTGTAGTACTTGGAAAATTATCATGA

Genome Context

Tertiary structure

PDB ID

80140f5da92bae5271b9a8e299a4c0a1cd0d6a0982cd824c41eeea94126b598b

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,7117

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Tail Spike Domain Segmentation

Tail Spike Domain Segmentation

3D Structure with Domain Coloring

Domain Coloring

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence