Protein

View in Explore

Genbank accession

ARU14008.1 [GenBank]

Protein name

tail fiber protein and host specificity

RBP type

Evidence Phold

Probability 1,00

Evidence RBPdetect2

Probability 0,94

Protein sequence

MQIWIHDKSMRKVCALNNEIPGMLPYTNSQWHQYLEYSTSTLDFTIPKFVNGKLHDDIKYINDQMYVSFYYDNSYHVFYVSQLVENDFSFQVTCNNTNLELAMEVARPLADIGGAKSVEWYLQNLELLGFAGLEIGINEIPDRTRTLTFESQNGTKLEQLHSLMNQFDAEFIFRTELNRDGTLKKFVIDIYQRPDENHHGIGKVRGDVTLYYQTGLKGVQVTSDKTQLFNAGYFVGKDGLTLGSVVFEEKNELGQVEFYSFKDSPMVYAPLSADKYPSAMGGANEIDRWTRRDFQTEYADINSLKAYALRTIKQYAYPLMTYTVSVQSSFIENYKDINLGDTVKIIDNNFRGGLALEARVSEMIISFDNPANNSVVFTNFKKLDNKPSDALQQRIDEIVSKSLPYHVEIRTTNGTVFKNGIGRSTVKPVLKQGDKIVDATYRFVIDGTIKYSGMTYDIVASDITEPTTLTIAAWVDNKEVASEEVTFLNVSDGKQGPKGDQGLPGPKGSDGRTQYTHIAYANSSDGKKDFSTSDSNREYIGIYVDFNINDSTTPSDYSWTLVKGADGTQGTPGKPGADGKTPYFHTAWSYSADGKDRFTTAYPNLNLLEGTKDFSGYWTNEQFWTNDGTYKGLTVKKRTYPWKGIFKTFTAPKNGKYTFSAYLKGSGNNANIIRFTFINDEYNSSLRRDIGSNFDWIRDSFTVTLKAKDTIAARYEIDGLNGSGTDSIIWTAGHKWEEGSVATPWMPSANEVTTEDYPKYIGQYTNYMEVDSPNPQDYTWSLIRGNDGKQGPQGERGPQGPRGDQGIPGPKGEDGKTQYTHIAYADTVSGSGFSQTDVNKPYIGMYQDFNEVDSNNPQDYRWSKWKGSDGRDGIPGKPGADGRTPYVHFAYADSADGQKGFSLIQTGRKRYLGVLTNFVKEDSTNPEDYTWNDTSGSVSVGGRNLLVKTNQGITNWDWTMSNGDKSVEEVKVDGIRAVKLTKGTKTANTGWKYIQYRGLLRKLIRPNTQYTLSFDVKPSVDVSFSATLIRGNRQAELTDTVLMNKALANQWTKVSCVLTSKETLSGDLNQVVYLAGMPTTNGNWVIIKNIKLEEGDIPTQWTPAIEDIQDEIDSKADDVLTQAQLNRLNEMDSIIKAELAAKASLDTLDQWKQAYQDFVNANNANRAQAEKDLADASARVVKLENNFQDMSERWNFIDSYMTASNDGLVVGKTDNSSSMLFSPNGRISMFSAGHEVMYISQGVIHIENGIFSKTIQIGRYREEQDVINPDRNVIRYVGGA

Physico‐chemical properties

protein length:	1280 AA
molecular weight:	143498,91480 Da
isoelectric point:	5,27764
aromaticity:	0,11172
hydropathy:	-0,58164

Domains

Domains [InterPro]

DC_0002
STR
1–568

DC_0002 DC_1328 DC_0002

IPR010572
ENZ
141–382

IPR010572 PTHR24637 G3DSA:2.60.120.260 Coil

DC_1971
STR
565–744

DC_1971 G3DSA:1.20.5.320 IPR008979

ARU14008.1

1 1280

Architecture

STR

STR 1-744 | STR 753-1280

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0002	STR	DC_0002	1	568	Novel HMM	DC_0002	Central	Low	Positional only	166 proteins / 166 hits
IPR010572	ENZ	DC_0675	141	382	InterPro cluster	Tail spike domain	Central	High	Text match	419 proteins / 419 hits
PTHR24637	Unmapped	-	493	882	PANTHER	COLLAGEN	-	-	-	-
DC_1971	STR	DC_1971	565	744	Novel HMM	DC_1971	Central	Low	Positional only	95 proteins / 95 hits
DC_1328	STR	DC_1328	753	868	Novel HMM	DC_1328	Central	Low	Positional only	136 proteins / 136 hits
G3DSA:1.20.5.320	STR	G3DSA:1.20.5.320	788	837	Merged direct domain	G3DSA:1.20.5.320	Central	Low	Positional only	67 proteins / 67 hits
DC_0002	STR	DC_0002	868	1280	Novel HMM	DC_0002	Central	Low	Positional only	166 proteins / 166 hits
G3DSA:2.60.120.260	STR	G3DSA:2.60.120.260	948	1093	Merged direct domain	G3DSA:2.60.120.260	Central	Low	Positional only	264 proteins / 264 hits
IPR008979	STR	IPR008979	951	1094	Merged direct domain	Galactose-binding-like domain superfamily	Central	Low	Positional only	24 proteins / 24 hits
Coil	Unmapped	-	1159	1193	Coils	Coil	-	-	-	-

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Streptococcus phage P7602 [NCBI]	1971432	No lineage information
Host	Streptococcus thermophilus [NCBI]	1308	cellular organisms > Bacteria > Bacillati > Bacillota > Bacilli > Lactobacillales

Coding sequence (CDS)

Genbank protein accession

ARU14008.1 [NCBI]

Genbank nucleotide accession

KY705273.1 [NCBI]

CDS location

range 14956 -> 18798
strand +

CDS

ATGCAAATCTGGATTCATGATAAAAGTATGCGTAAAGTGTGTGCTTTGAATAATGAAATTCCCGGAATGTTGCCATATACGAACAGTCAATGGCATCAATATCTTGAATACTCAACAAGCACGCTTGACTTCACAATTCCTAAGTTTGTAAATGGAAAACTGCACGATGATATTAAATACATCAATGACCAAATGTATGTGTCGTTTTATTATGATAATTCCTACCACGTTTTTTATGTCTCTCAACTCGTTGAAAATGATTTTAGTTTTCAAGTCACTTGTAATAACACCAACCTTGAATTGGCAATGGAAGTTGCACGACCACTTGCAGATATTGGCGGTGCCAAGAGTGTTGAGTGGTATCTTCAAAATCTTGAATTGCTTGGTTTTGCAGGCCTTGAAATAGGCATTAATGAAATTCCAGACAGAACCAGAACACTAACTTTTGAATCACAAAATGGTACAAAACTAGAACAGCTTCATAGTTTAATGAACCAGTTTGATGCTGAGTTTATTTTTCGTACCGAATTAAACCGAGATGGCACTTTAAAAAAATTTGTCATTGACATTTACCAACGACCAGATGAAAACCATCACGGCATTGGAAAGGTTCGAGGGGATGTAACTCTTTACTATCAAACAGGATTGAAGGGTGTTCAAGTTACTAGTGATAAGACTCAACTATTTAACGCTGGGTATTTCGTTGGAAAAGACGGACTAACACTAGGAAGCGTTGTGTTTGAGGAAAAAAATGAGTTAGGACAAGTAGAGTTCTACTCATTTAAAGACAGTCCAATGGTTTACGCACCTTTATCAGCAGATAAATATCCATCTGCAATGGGTGGTGCTAATGAAATAGATAGATGGACACGTAGGGACTTTCAAACAGAGTATGCAGACATCAATTCCCTCAAAGCTTATGCCTTGCGTACTATCAAACAGTATGCTTACCCTCTAATGACCTATACTGTCAGCGTTCAATCTAGTTTCATTGAAAACTACAAGGATATTAATCTAGGTGACACTGTTAAAATCATCGATAATAATTTTAGAGGTGGTTTAGCCCTCGAAGCGCGTGTATCTGAAATGATTATCAGCTTTGACAATCCTGCGAATAATTCAGTAGTTTTCACCAACTTTAAAAAGTTGGATAATAAACCATCGGATGCCTTGCAACAACGTATTGATGAGATTGTTTCTAAATCATTGCCATATCATGTTGAGATAAGGACCACAAACGGTACAGTATTTAAAAACGGCATTGGTCGCTCTACTGTTAAACCAGTTTTGAAACAAGGCGATAAAATTGTTGATGCAACCTATCGATTTGTGATTGATGGCACTATTAAATATTCGGGTATGACTTATGATATAGTAGCATCGGATATTACCGAGCCAACCACTTTGACGATTGCCGCATGGGTAGATAATAAAGAAGTAGCTTCAGAAGAAGTTACTTTTTTGAATGTCTCAGATGGAAAGCAAGGTCCTAAAGGTGACCAAGGGTTACCTGGTCCTAAAGGTTCTGATGGAAGAACTCAATATACCCACATAGCTTATGCTAACTCTTCGGATGGTAAGAAAGACTTTTCAACATCTGACTCTAACCGTGAATATATTGGTATATATGTTGATTTTAACATCAATGATTCAACCACCCCAAGCGATTACTCATGGACACTTGTTAAAGGTGCAGATGGAACGCAAGGGACACCGGGCAAACCAGGAGCTGATGGAAAAACCCCATACTTTCATACAGCATGGTCTTACAGTGCAGATGGTAAGGATAGATTCACGACTGCTTACCCTAATTTGAATTTGTTGGAAGGGACAAAAGACTTTAGTGGGTATTGGACGAACGAACAGTTTTGGACGAACGACGGAACCTATAAAGGCTTAACTGTTAAAAAACGAACTTATCCATGGAAAGGTATATTCAAAACATTCACAGCACCTAAAAACGGAAAATACACTTTTTCAGCTTATCTTAAAGGTTCAGGAAATAATGCAAATATAATTAGATTTACGTTTATAAACGATGAGTACAACTCATCTTTAAGAAGGGACATTGGTAGTAACTTTGATTGGATTAGAGACAGTTTTACTGTAACTCTGAAAGCCAAGGATACCATTGCGGCCAGATATGAAATAGATGGTTTAAATGGTTCTGGAACAGATTCAATTATATGGACTGCCGGGCATAAATGGGAAGAAGGTTCAGTAGCCACTCCATGGATGCCTTCAGCTAACGAAGTCACAACCGAAGACTATCCAAAATACATTGGTCAATACACAAACTATATGGAAGTAGATAGTCCTAATCCTCAAGACTACACATGGAGTTTGATTAGAGGAAACGATGGCAAGCAAGGTCCACAAGGTGAACGAGGTCCACAAGGTCCAAGAGGTGACCAAGGAATACCGGGACCAAAGGGTGAAGACGGTAAAACACAATATACCCATATTGCTTATGCTGATACTGTTTCAGGCAGTGGCTTTAGTCAAACAGATGTCAATAAACCATACATTGGAATGTACCAAGATTTCAATGAAGTTGATAGTAATAACCCACAAGATTATCGTTGGTCTAAATGGAAGGGTAGCGATGGACGAGATGGTATTCCTGGTAAACCTGGAGCAGACGGACGAACGCCTTACGTGCACTTCGCTTACGCAGACAGTGCCGATGGTCAAAAGGGTTTCAGTTTGATACAGACTGGACGTAAGCGCTACTTAGGTGTGCTAACCAACTTCGTCAAAGAAGACAGTACTAATCCAGAAGATTATACTTGGAATGACACTTCGGGCAGTGTATCAGTTGGTGGTCGAAACTTGCTTGTAAAAACTAATCAAGGTATTACTAATTGGGATTGGACGATGTCGAATGGTGACAAGAGCGTTGAAGAAGTAAAGGTTGATGGTATTCGTGCTGTTAAATTAACCAAAGGTACAAAAACAGCAAATACTGGTTGGAAATACATTCAATATCGAGGTTTGTTGCGTAAACTCATACGACCAAACACACAGTACACTCTTTCTTTTGATGTAAAACCAAGTGTTGATGTAAGTTTTTCAGCAACGCTAATAAGAGGCAACCGCCAAGCTGAATTGACTGATACTGTCCTTATGAATAAAGCTTTGGCAAATCAATGGACTAAAGTATCATGTGTTCTGACAAGTAAAGAAACGTTATCAGGTGATTTAAATCAAGTTGTCTACTTGGCAGGTATGCCAACAACAAACGGTAATTGGGTAATAATTAAGAATATCAAACTCGAAGAAGGTGACATACCTACTCAGTGGACACCTGCAATTGAGGACATACAAGATGAAATTGATTCCAAGGCAGACGATGTCCTAACGCAAGCACAACTCAACAGACTGAATGAAATGGATTCTATTATAAAAGCTGAACTTGCTGCTAAAGCCTCACTTGATACACTTGACCAATGGAAGCAAGCCTATCAAGATTTCGTTAACGCAAACAATGCCAATCGTGCTCAAGCTGAAAAAGATTTAGCTGATGCTAGTGCCCGTGTAGTGAAACTAGAAAATAACTTTCAAGATATGTCAGAACGTTGGAATTTCATCGATAGCTACATGACTGCATCAAACGATGGCCTTGTTGTTGGTAAAACGGATAATTCTAGTTCTATGTTGTTTAGTCCAAACGGGCGCATCTCAATGTTCTCAGCTGGTCATGAGGTAATGTATATCTCGCAAGGTGTGATCCATATTGAAAATGGTATTTTCTCGAAAACTATTCAAATCGGACGGTATCGTGAAGAGCAAGACGTTATTAACCCTGACAGAAATGTCATTCGATACGTAGGAGGTGCATAA

Genome Context

Tertiary structure

PDB ID

75f2f78964cfff0127d79a2af2ee9d2274e043d4cab70ed098ee8165e968519d

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,7098

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence