Protein

View in Explore

Genbank accession

NP_536377.1 [GenBank]

Protein name

tail protein

RBP type

Evidence Phold

Probability 1,00

Evidence RBPdetect2

Probability 0,95

Protein sequence

MKKLHAERGLKRIYGAKGGGGGGGSSESPDSLHSIARAKVLDVISAGPIVGLVNGLQSVYLDGTPIQNADGSLNFQNYTVDVRTGTQDQDYIPGFPAVEREAGVGVPLTSDAPWVRQIQNTQLTAVRVRFGVPALQRQDTSNGNITGYRVDYAIDLSVDGGSYTQVLAGAFDGKTTSLYERSHRIELPRAKNGWLIRVRRITPNAHTATIADAINIEAITEIIDRKLRYPMTALVGMTFDARSFSSVPVRSYHVRGMIFRVPTNYDPETRTYSGTWDGTFKAAWTNNPAWVYYGLLLDKLNGLGDRVDASMVDKWALYAIARHCDELVSDGKGGKEPRFTCNCVIQTKADAFKVVQDIASVFRGISYWGAGSVVASADMPSDPVYLYTAANVVGGSFKYVGSERKTRYTVALVSYNDPTNQYKQAVEAVQDDDGIARYGVIKTEVTAFGCTSQAQAHRLGRWLLLTSRYETGTVSFQVGLDGTLCAPGQVIAVADPKKAGRRIGGRIRAAAGETITLDKAPTIAAGDRFTAILPSGIAQARVVKAVNGDTVTLAARFDADPVPGAVWMVESNELAAQQYRVVSVQESDDNGQIVYTINATQYEPGKYAAIDDGAQIQQRPITIVPPSVQPPPSNVRLSTYSVVDQGISKTSMVIAWDAANHATSYVAEWRKDNGEWVRAPSTGGLQVEVPGIYQGKYLARVRAENALGVTSIPAYGVDTQLTGKTTPPPSVVSLTAAGIVYGIDLKWAFPGDGSAGDTQRTEIWYSRTPNRDDAIKFSDFAFPQASTSYQGLAVGQVFYFWARLVDTSGNVGPWFPAKGPGVQGQPSTDQSDYEKYFAGQIGKSALGTDLREPIDLITPPMAGDATIYAGDETLNAGVWSLQSAIAEGDMAVAKKVDTVAAQQRSSSNLLSAAVQTEAIARVEADRAQAQQITTVQAQVNDNAAAVQTVAKSYADLNGRVAASYQVKVQTTVDGHKYMASIGVGIDNENGVVESQVLVSAKRFAVIDEDGSGVIGAPFVVQGGQVFLRQALIGAGWITNAMIGSYIQSDNYIAGRQGWRWDKSGWMEINSVNGSGIRTVIDGNGVRVYDGNGVLRVRMGMW

Physico‐chemical properties

protein length:	1101 AA
molecular weight:	118275,37800 Da
isoelectric point:	6,24663
aromaticity:	0,08629
hydropathy:	-0,19010

Domains

Domains [InterPro]

DC_0014
STR
1–1101

DC_0014

IPR053171
Unmapped
11–902

IPR053171 IPR015406

IPR055385
ATT
98–225

IPR055385 IPR032876 IPR036116

IPR013783
STR
630–718

IPR013783

IPR003961
STR
631–729

IPR003961

IPR003961
STR
647–709

IPR003961

NP_536377.1

1 1101

Architecture

STR

ATT

STR

ATT

STR

STR 1-97 | ATT 98-225 | STR 226-349 | ATT 350-508 | STR 509-1101

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0014	STR	DC_0014	1	1101	Novel HMM	DC_0014	Central	Low	Positional only	830 proteins / 830 hits
IPR053171	Unmapped	-	11	902	InterPro	Viral Tip Attachment Protein	-	-	-	-
IPR055385	ATT	DC_0360	98	225	InterPro cluster	Tip attachment protein J, HDII-ins2 domain	N-terminal	High	Text match	1136 proteins / 1139 hits
IPR032876	ATT	DC_0307	350	508	InterPro cluster	Tip attachment protein J	Central	Medium	Text match	1111 proteins / 1112 hits
IPR036116	STR	IPR036116	629	716	Merged direct domain	Fibronectin type III superfamily	Central	Low	Positional only	52 proteins / 52 hits
IPR013783	STR	IPR013783	630	718	Merged direct domain	Immunoglobulin-like fold	Central	Low	Positional only	144 proteins / 144 hits
IPR003961	STR	DC_0003	631	729	InterPro cluster	Fibronectin type III	Central	High	Text match	998 proteins / 1603 hits
IPR003961	STR	DC_0003	647	709	InterPro cluster	Fibronectin type III	Central	High	Text match	998 proteins / 1603 hits
IPR015406	RBD	DC_0135	945	1083	InterPro cluster	Tip attachment protein J, central straight fiber domain	C-terminal	High	Text match	1265 proteins / 1266 hits

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Burkholderia phage phiE125 [NCBI]	2883940	Uroviricota > Caudoviricetes > Stanholtvirus >
Host	Burkholderia thailandensis [NCBI]	57975	cellular organisms > Bacteria > Pseudomonadati > Pseudomonadota > Betaproteobacteria > Burkholderiales

Coding sequence (CDS)

Genbank protein accession

NP_536377.1 [NCBI]

Genbank nucleotide accession

NC_003309 [NCBI]

CDS location

range 17143 -> 20448
strand +

CDS

TTGAAGAAGCTCCATGCAGAAAGAGGGCTGAAGCGGATCTACGGCGCGAAGGGCGGCGGCGGTGGTGGTGGCAGCAGCGAATCGCCCGACAGTCTGCATTCGATTGCGCGCGCGAAGGTGCTCGATGTGATCTCGGCGGGGCCGATCGTGGGGCTGGTGAATGGCCTGCAGTCGGTCTATCTCGACGGCACACCGATCCAGAACGCGGACGGTTCGCTGAATTTCCAGAACTACACCGTCGACGTGCGGACGGGCACGCAGGATCAGGACTACATCCCGGGCTTTCCGGCCGTCGAGCGTGAGGCCGGCGTCGGCGTGCCGCTGACGTCCGACGCGCCGTGGGTGCGCCAGATCCAGAATACGCAACTGACCGCGGTGCGTGTGCGCTTCGGCGTGCCGGCGCTACAGCGTCAGGACACGTCAAATGGCAACATCACAGGCTATCGCGTCGACTATGCGATCGACTTGTCGGTCGACGGCGGGTCGTATACGCAGGTGCTGGCCGGTGCGTTCGACGGCAAGACGACGTCGCTCTACGAGCGCTCGCATCGGATCGAGCTGCCGCGCGCGAAAAACGGCTGGCTGATCCGTGTGCGCCGTATCACGCCGAACGCGCACACGGCGACGATCGCCGACGCGATCAACATCGAAGCGATCACCGAAATCATCGATCGGAAGCTTCGCTATCCGATGACGGCGCTCGTCGGCATGACGTTCGACGCACGTTCGTTCTCGAGCGTGCCGGTGCGTTCGTATCACGTGCGAGGGATGATCTTCCGTGTTCCGACAAATTACGATCCGGAGACCCGCACGTATTCGGGCACTTGGGATGGCACGTTCAAGGCAGCATGGACGAACAATCCAGCTTGGGTCTACTACGGCCTACTGCTCGACAAGCTCAACGGATTGGGCGACCGTGTCGATGCGTCGATGGTCGACAAGTGGGCGCTGTACGCAATCGCGCGTCACTGTGACGAGCTGGTATCGGACGGGAAGGGCGGCAAGGAGCCGCGCTTTACGTGCAACTGCGTGATTCAGACAAAGGCGGATGCGTTCAAGGTCGTGCAGGATATCGCAAGTGTCTTTCGCGGGATTTCGTATTGGGGGGCCGGCTCCGTCGTCGCGTCGGCCGATATGCCGTCCGATCCGGTCTACCTGTACACGGCCGCGAACGTCGTCGGCGGTTCATTCAAGTACGTCGGCAGCGAGCGCAAGACGCGCTACACGGTCGCGCTCGTCAGCTACAACGATCCGACGAACCAGTACAAGCAGGCTGTCGAAGCCGTGCAGGACGACGACGGGATCGCGCGATACGGCGTCATCAAGACGGAGGTCACGGCGTTCGGCTGCACGTCGCAGGCGCAGGCGCACCGTCTCGGTCGGTGGCTGCTGCTGACGTCGCGGTACGAGACCGGGACGGTCTCGTTTCAGGTCGGGCTCGACGGGACGCTTTGTGCGCCGGGACAGGTGATCGCCGTTGCCGACCCTAAGAAGGCCGGCCGCCGGATCGGCGGCCGTATCCGCGCCGCAGCCGGCGAGACGATCACGCTCGACAAGGCGCCGACTATCGCCGCCGGCGATCGTTTCACGGCGATCTTGCCGTCGGGCATCGCGCAGGCGCGGGTGGTGAAGGCCGTCAACGGTGACACGGTGACGCTTGCCGCGCGCTTCGACGCTGATCCGGTGCCGGGCGCTGTGTGGATGGTCGAGAGCAACGAACTCGCCGCACAGCAGTATCGCGTGGTGAGTGTGCAGGAGAGCGACGACAACGGCCAGATCGTCTACACGATCAACGCGACACAGTATGAGCCGGGCAAGTATGCGGCGATCGACGACGGCGCGCAGATCCAGCAACGGCCGATCACGATTGTTCCGCCTTCGGTACAGCCACCGCCGTCGAACGTACGCCTGTCGACGTACTCGGTAGTCGATCAGGGCATTTCGAAAACGTCGATGGTGATCGCGTGGGATGCGGCGAACCACGCGACGAGCTACGTCGCCGAATGGCGCAAGGACAACGGCGAGTGGGTGCGGGCGCCGTCGACGGGCGGTTTGCAGGTTGAGGTGCCGGGCATCTATCAGGGCAAATACCTCGCGCGCGTGCGCGCCGAAAACGCGCTCGGCGTGACGTCGATTCCGGCGTATGGCGTCGATACGCAGCTGACCGGGAAAACCACTCCGCCGCCGTCGGTCGTGTCGCTGACCGCGGCGGGCATCGTGTACGGGATCGACCTGAAATGGGCGTTCCCGGGTGACGGCTCCGCCGGCGACACGCAGCGAACGGAGATCTGGTACAGCCGCACGCCGAATCGCGACGACGCGATCAAGTTCTCGGATTTCGCGTTCCCGCAGGCGTCGACGTCGTATCAGGGGCTCGCGGTCGGACAGGTGTTTTATTTCTGGGCGCGCCTGGTCGACACGTCCGGCAACGTCGGGCCGTGGTTCCCGGCGAAGGGGCCGGGCGTGCAGGGGCAGCCGAGCACGGATCAAAGCGACTACGAGAAGTACTTCGCTGGGCAGATCGGGAAATCGGCGCTCGGTACGGACCTTCGCGAACCGATCGACCTGATCACCCCGCCGATGGCCGGCGACGCGACGATTTACGCGGGCGACGAGACGCTCAATGCCGGCGTCTGGTCGTTGCAGTCGGCGATCGCCGAGGGCGACATGGCGGTCGCGAAAAAGGTCGACACGGTCGCGGCGCAGCAGCGATCGAGCTCGAACCTGCTGAGCGCCGCGGTGCAAACGGAAGCGATCGCGCGCGTCGAAGCGGATCGCGCGCAGGCGCAGCAGATCACGACCGTACAGGCGCAAGTGAACGACAACGCGGCGGCGGTGCAAACCGTCGCGAAGTCGTACGCCGACCTGAACGGGCGTGTCGCGGCGTCGTATCAGGTCAAGGTGCAGACGACCGTCGACGGCCACAAATACATGGCGTCGATCGGCGTGGGCATCGACAACGAAAACGGCGTCGTCGAATCGCAGGTGCTCGTGTCGGCGAAGCGGTTCGCCGTGATCGACGAGGACGGCTCCGGTGTGATCGGTGCGCCGTTCGTCGTGCAGGGCGGGCAGGTGTTCTTGCGTCAGGCGCTGATCGGTGCGGGCTGGATCACGAACGCGATGATCGGCAGTTACATCCAGTCCGACAACTACATCGCGGGGCGGCAGGGGTGGCGATGGGACAAGTCCGGTTGGATGGAAATCAACTCCGTGAACGGAAGCGGCATTCGGACGGTTATCGACGGAAACGGAGTGCGGGTGTACGACGGCAACGGCGTGCTTCGCGTGCGAATGGGGATGTGGTGA

Genome Context

Tertiary structure

PDB ID

dacdf86264799482dfb303c038f32f4f111306a51ab06528de1e86df8a725fc3

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,8028

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence