Protein

View in Explore

Genbank accession

ARU14663.1 [GenBank]

Protein name

tail fiber protein and host specificity

RBP type

Evidence Phold

Probability 1,00

Evidence RBPdetect2

Probability 0,85

Protein sequence

MQIWIHDKSMRKVCALNNNIPGMLPYSNSQWHTYLEYSTSTLDFTIPKIVNGKLHEDIKYINDQMYVSFYYDNSYHVFYVSQLIENDFNFQVTCNNTNLELAAEISRPLASVDGAKTLEWYLQNLELLGFAGLEIGINEVSDKTRTITFESQSGTKLEQLHSLMNQFDAEFVFRTDLNRDGTLKKFVIDIYHRPDENHHGIGKVRGDVTLYYQTGLKGVQVSSDKTQLFNAGYFVGKDGLTLGSVVFEEKNELGQVEFYSFKDSPMVYAPLSADKYPSALGGANEIDRWTRRDFQTEYSDVDSLKAYALRTIKQYAYPLMTYTVSVQSSFIENYKDINLGDTIKIVNNNFRGGLALEARVSEMIISFDMPQNNSVVFTNFRKLDNKPSSELQQRIDEIVSKSLPYRVEIRTTNGTVFKNGIGRSTVKPVLKQGDKIVDATYRFVIDGTIKYSGMTYDMVASEITQPTTLTVAAWVDNKEVASEEVTFLNVSDGKQGPQGPKGDQGIPGPKGIDGTDAPTIFVKSYTYSAGSKAYIKLTGPNAFEQTLYYSRGHNVWVLDATTHKLKEFVHCDTYITMSFNHNGVNITLADYLNSITDSIVAIAAADADAVDQNFRDVLNKMGGNPELGTWSWRTGHVFIGMSKRSDGTWPLQPRQGYEVAIHEDGSAPEIGCTLSIGGIVANGADGKTQYTHIAYANSADGSKDFSTSDSNRAYIGMYVDFNINDSTNPSDYSWTLVKGSDGRDGIPGKPGADGKTPYFHTAWAYSADGTDGFTTVYPNLNLLEGTATFDGMNPNSSDNSVSAITKTKISGIANTVMDVKTSGNAFAVGFYTQKGYNITAGQTITISFIAKASSDTSLFVGFEHFPSGYKMFTISTKWEFYTYTFTATTSGTPTFVIYGWDMVAGQGFQLYNPKAELGSVATPWMPSASEVTTADYPSFIGQYTNYTQVDSPNPRDYTWSLIRGNDGKQGPQGPKGDQGIPGPKGADGRTQYTHIAYADTISGSGFSQTDVNKAYIGMYQDFNAEDSKNPQDYRWSKWKGSDGRDGIPGKPGADGRTPYVHFAYADSADGQKGFSLTQTGSKRYLGVLTNFFKEDSTNPSDYTWNDTAGSISVGGRNLLVKTNQGITNWNWQLSDGDKSVEEVEVDGIRAVKLIKGSTAANTGLNFIEYNGLLRELIQPKSKYVLSFDVKPSVDVTFYATLARGDFNEPLTDTVAMPKALANQWNKVSCVLTSKETLPNIAWQVVYLTGMPTTNGNWVIIKNIKLEEGDIPTQWTPAIEDIQDEIDSKADAAMTIEQINALNERAAIIKTEMEAKASAEILNNWIKNYQDFVKANETERAAAEKALVISSQRVSTIAKELGELSDRWNFIDTYMNSSNDGLVIGKNDGSSSMMFNPNGRISMYSAGEEVMYISQGVIHIENGIFSKTIQVGRYREEQYHLNPDMNVIRYVGGF

Physico‐chemical properties

protein length:	1453 AA
molecular weight:	160948,56000 Da
isoelectric point:	5,12639
aromaticity:	0,11218
hydropathy:	-0,41521

Domains

Domains [InterPro]

DC_0266
STR
1–889

DC_0266 G3DSA:1.20.5.320 DC_0002

IPR010572
ENZ
140–382

IPR010572 G3DSA:1.20.5.320 IPR039477 G3DSA:2.60.120.260 G3DSA:2.60.120.260

PTHR24637
Unmapped
492–1056

PTHR24637

IPR008979
STR
794–894

IPR008979

DC_1328
STR
873–1041

DC_1328

ARU14663.1

1 1453

Architecture

STR

STR 1-1453

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0266	STR	DC_0266	1	889	Novel HMM	DC_0266	Central	Low	Positional only	76 proteins / 76 hits
IPR010572	ENZ	DC_0675	140	382	InterPro cluster	Tail spike domain	Central	High	Text match	419 proteins / 419 hits
G3DSA:1.20.5.320	STR	G3DSA:1.20.5.320	491	539	Merged direct domain	G3DSA:1.20.5.320	Central	Low	Positional only	67 proteins / 67 hits
PTHR24637	Unmapped	-	492	1056	PANTHER	COLLAGEN	-	-	-	-
IPR039477	STR	DC_0384	551	640	InterPro cluster	ILEI/PANDER domain	Central	Low	Positional only	49 proteins / 49 hits
G3DSA:2.60.120.260	STR	G3DSA:2.60.120.260	782	910	Merged direct domain	G3DSA:2.60.120.260	Central	Low	Positional only	264 proteins / 264 hits
IPR008979	STR	IPR008979	794	894	Merged direct domain	Galactose-binding-like domain superfamily	Central	Low	Positional only	24 proteins / 24 hits
DC_1328	STR	DC_1328	873	1041	Novel HMM	DC_1328	Central	Low	Positional only	136 proteins / 136 hits
G3DSA:1.20.5.320	STR	G3DSA:1.20.5.320	962	1013	Merged direct domain	G3DSA:1.20.5.320	Central	Low	Positional only	67 proteins / 67 hits
DC_0002	STR	DC_0002	1038	1453	Novel HMM	DC_0002	Central	Low	Positional only	166 proteins / 166 hits
G3DSA:2.60.120.260	STR	G3DSA:2.60.120.260	1096	1268	Merged direct domain	G3DSA:2.60.120.260	Central	Low	Positional only	264 proteins / 264 hits

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Streptococcus phage P9854 [NCBI]	1971446	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Streptococcus thermophilus [NCBI]	1308	cellular organisms > Bacteria > Bacillati > Bacillota > Bacilli > Lactobacillales

Coding sequence (CDS)

Genbank protein accession

ARU14663.1 [NCBI]

Genbank nucleotide accession

KY705287.1 [NCBI]

CDS location

range 15942 -> 20303
strand +

CDS

ATGCAAATTTGGATTCACGATAAAAGTATGCGGAAAGTGTGTGCGTTAAATAACAACATTCCAGGAATGTTACCTTATTCAAATAGTCAATGGCACACTTATCTTGAATACTCAACAAGTACACTTGATTTCACAATTCCCAAAATCGTAAACGGTAAGTTACACGAGGATATCAAATACATCAACGACCAAATGTACGTGTCATTTTACTACGATAATTCATACCACGTTTTCTATGTCTCTCAACTCATTGAAAATGATTTTAATTTTCAAGTGACTTGTAATAATACCAACTTGGAACTCGCAGCAGAAATCTCTCGTCCGTTAGCTAGTGTTGACGGTGCTAAAACTCTGGAATGGTATCTTCAAAACCTTGAATTATTGGGATTTGCAGGGCTAGAAATTGGTATCAATGAAGTTTCTGACAAGACAAGAACCATCACTTTTGAATCTCAAAGTGGCACAAAATTAGAGCAGCTTCATAGCTTGATGAATCAATTCGATGCTGAGTTTGTTTTCCGTACCGATTTAAACCGAGATGGTACTTTGAAAAAATTTGTCATTGACATTTACCACCGTCCTGACGAAAACCATCACGGTATTGGTAAGGTTCGAGGAGATGTAACCCTTTACTATCAAACAGGATTGAAGGGTGTTCAAGTATCCAGCGATAAGACTCAACTATTTAACGCTGGATATTTTGTTGGAAAAGACGGACTAACGCTAGGAAGCGTTGTGTTTGAGGAAAAGAATGAGTTAGGACAAGTAGAGTTTTATTCTTTTAAAGATAGTCCAATGGTCTACGCACCATTGTCGGCAGATAAATATCCATCTGCACTTGGCGGTGCTAACGAAATAGATAGATGGACACGTAGGGACTTTCAAACAGAATACAGTGATGTTGATTCCCTCAAAGCTTATGCCTTACGCACAATCAAGCAGTATGCTTATCCTCTAATGACCTATACTGTCAGCGTTCAATCTAGTTTCATTGAAAACTACAAGGATATCAATCTGGGTGATACCATCAAAATTGTTAACAATAATTTTAGAGGTGGTTTAGCCCTTGAAGCTCGAGTTTCTGAAATGATTATCAGCTTTGATATGCCTCAAAATAATTCGGTAGTTTTTACTAATTTCAGAAAGTTGGATAATAAACCGTCTAGCGAATTACAACAACGTATCGACGAGATTGTTTCTAAGTCATTGCCATATCGTGTAGAGATAAGAACTACAAACGGTACAGTATTTAAGAACGGTATTGGTCGTTCTACTGTTAAACCAGTTTTGAAGCAAGGAGATAAAATTGTTGATGCAACTTATCGATTTGTTATTGACGGAACAATTAAATATTCAGGTATGACCTATGATATGGTAGCGTCAGAGATCACTCAACCTACCACGCTTACAGTGGCCGCTTGGGTAGATAATAAAGAAGTGGCTTCAGAAGAAGTTACTTTCTTAAACGTCTCAGATGGTAAACAAGGACCACAAGGTCCTAAAGGTGACCAAGGTATACCTGGTCCTAAAGGCATTGATGGTACTGATGCTCCAACGATTTTCGTTAAGTCCTATACATACTCAGCAGGTTCAAAGGCCTATATTAAACTGACTGGGCCAAATGCTTTTGAGCAAACCTTATATTACAGCCGAGGACACAATGTGTGGGTTCTTGATGCTACAACACATAAACTCAAAGAGTTCGTACATTGTGATACCTATATAACCATGTCATTTAATCATAATGGTGTTAATATAACATTGGCTGACTACCTAAATAGTATTACAGATAGTATTGTCGCAATTGCAGCAGCGGATGCAGACGCAGTTGACCAAAATTTTAGGGATGTGCTTAACAAAATGGGTGGTAATCCAGAACTTGGAACATGGAGTTGGCGAACTGGTCACGTCTTTATAGGCATGTCCAAGCGGTCTGATGGAACCTGGCCACTGCAACCACGACAGGGGTATGAAGTAGCCATACATGAAGATGGATCAGCACCAGAAATTGGATGCACTCTGTCAATAGGAGGAATAGTTGCTAATGGAGCAGACGGTAAAACACAATATACCCATATTGCATACGCGAATAGCGCAGATGGAAGTAAAGATTTTTCAACTTCTGATTCTAATCGTGCCTATATCGGGATGTACGTTGATTTTAACATCAATGATTCAACCAATCCGAGCGATTACTCATGGACACTTGTTAAAGGTAGTGATGGACGAGATGGTATTCCAGGAAAACCTGGGGCTGACGGGAAGACTCCTTATTTCCATACGGCGTGGGCTTACAGTGCAGATGGTACCGATGGTTTCACGACTGTTTACCCTAATTTGAATTTGTTGGAAGGGACCGCTACGTTTGACGGAATGAACCCTAACTCTAGTGATAATTCGGTTAGTGCTATTACAAAAACTAAAATATCAGGAATTGCTAATACAGTCATGGACGTAAAAACAAGCGGAAATGCTTTTGCCGTTGGTTTTTATACACAAAAAGGTTATAACATAACCGCTGGGCAGACCATTACTATTTCATTTATAGCAAAAGCATCAAGTGACACAAGTCTTTTTGTTGGATTTGAACATTTTCCAAGTGGATATAAAATGTTCACAATAAGCACAAAGTGGGAATTTTATACTTATACATTCACAGCAACAACGTCAGGAACTCCAACTTTTGTGATATACGGGTGGGATATGGTAGCAGGGCAAGGATTCCAATTATACAACCCTAAAGCGGAACTAGGTTCAGTTGCTACCCCTTGGATGCCCTCGGCTAGCGAAGTCACAACTGCTGATTATCCAAGTTTCATCGGACAATATACAAACTATACACAAGTAGATAGTCCTAATCCTCGAGATTACACTTGGAGCCTCATTCGAGGTAACGATGGTAAACAAGGACCACAAGGTCCTAAAGGTGACCAAGGTATACCTGGTCCTAAAGGTGCTGACGGAAGAACGCAGTATACCCACATAGCTTATGCTGATACAATTTCAGGTAGTGGCTTTAGTCAAACAGATGTCAATAAAGCCTATATTGGTATGTATCAAGACTTCAATGCCGAAGATAGCAAAAATCCACAAGATTATCGTTGGTCTAAGTGGAAAGGTAGCGATGGACGAGATGGTATTCCAGGAAAACCTGGGGCTGATGGACGTACGCCTTACGTCCATTTTGCTTATGCCGATAGTGCCGATGGTCAAAAAGGTTTCAGTTTGACACAAACTGGAAGCAAGCGCTATTTAGGTGTGCTTACCAACTTCTTCAAGGAAGACAGTACTAATCCTTCTGATTACACGTGGAACGATACTGCGGGTAGCATCTCTGTAGGTGGTCGAAACTTGCTTGTAAAAACCAATCAAGGTATTACTAATTGGAATTGGCAGCTTTCCGATGGCGACAAGAGCGTTGAAGAAGTGGAAGTTGATGGCATTCGTGCTGTAAAACTAATCAAAGGTTCAACAGCAGCAAACACTGGGTTGAATTTCATTGAATATAATGGCTTGCTGCGTGAACTCATACAGCCGAAGTCGAAGTATGTTCTTTCGTTCGATGTTAAACCTAGCGTTGACGTAACTTTCTATGCAACGCTAGCACGAGGTGACTTTAACGAACCATTGACTGATACTGTCGCTATGCCTAAAGCATTAGCGAATCAGTGGAATAAGGTATCGTGCGTTTTGACAAGCAAAGAAACTTTGCCAAATATTGCATGGCAAGTTGTATACTTAACAGGTATGCCAACAACAAACGGTAATTGGGTAATAATTAAAAATATCAAACTTGAAGAAGGTGACATACCTACTCAGTGGACACCTGCGATTGAGGACATACAAGATGAAATTGATTCCAAGGCCGATGCTGCTATGACGATTGAACAGATTAATGCACTTAATGAAAGGGCTGCGATCATTAAAACAGAGATGGAAGCCAAAGCAAGCGCTGAAATTTTGAATAACTGGATTAAAAATTACCAAGATTTCGTTAAGGCAAACGAGACCGAGAGAGCTGCAGCCGAGAAAGCTTTGGTTATCTCAAGTCAGCGGGTATCAACCATTGCTAAGGAATTAGGTGAACTGTCTGATCGTTGGAATTTCATCGATACTTACATGAACTCATCAAATGATGGGCTTGTGATTGGAAAGAATGACGGTAGCTCTAGCATGATGTTTAACCCTAACGGTCGCATTTCAATGTACTCGGCAGGGGAGGAGGTCATGTATATTTCGCAAGGTGTAATACACATCGAGAACGGGATCTTCTCGAAAACTATCCAAGTTGGTCGATATCGTGAGGAACAGTACCATCTTAACCCAGACATGAATGTCATTCGCTATGTAGGAGGTTTTTAA

Genome Context

Tertiary structure

PDB ID

4626d037505988d24e054cf232881eb0894e8554ba4a33aa4c94439e7f270b32

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,7221

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence