Protein

View in Explore

Genbank accession

YP_010646646.1 [GenBank]

Protein name

tail fiber protein and host specificity

RBP type

Evidence Phold

Probability 1,00

Evidence RBPdetect2

Probability 0,95

Protein sequence

MQIWIHDKSMRKVCALNNNVPGMLPYSNSQWHTYLEYSTSTLDFTIPKIVNGKLHDDLKYINDQMYVSFYYDNSYHVFYVSQLIENDFSFQVTCNNTNLELSAEIERPLASVDGAKTLEWYLQTLDLLGFAGLEVGFNEIPDRTRTITFESQNGTKLEQLHSLMNQFDAEFVFRTDLNRDGTLKKFVIDIYQRPDGNHHGIGKVRGDVVLYYQSGLKGVQVSSDKTQLFNAGLFLGKDGLNLGSVVFEEKNELGQVEFYSFKDSPMVYAPLSADKYPSAMGGANEIDRWTRRDFQTEYSDVDSLKAYALRTIKQYAYPLMTYTVSVQSSFIENYKDINLGDTVKIIDNNFRGGLALEARVSEMIISFDNPTNNSVVFTNFRKLDNKPSSELQQRIDEIVSKSLPYQVEIRTTNGTVFKNGIGRSTVKPILKQGDKIVDATYRFVIDGTIKYSGLTYDMIASEINQPTTLTIAAWVDNKEVASEEITFLNVSDGKQGPKGPQGPQGPKGDRGNDGIAGKDGVGLKTTTIIYGISDSDTAMPTNWTSQPPALIKGKYLWTKTVWTYTDNSSETGYQKTYIAKDGNDGNDGLPGKDGVGIVNTTLRYAKSTDGVNKPSGSVIAAISDKYQPSNSSTDNLMMTGQRVRLEQGKTYILSAETNGTFTNRHNPDQQSDNATIWLVNPSFSTWAVISDSNTANGTKYTHTRPTGDYKIRVNSYTPDNSTWVKNIVFEDGTWSPDIPTVNPGEYLWTRTTWFYSDGTSEQGFSVAKMGEQGPKGDRGDRGPQGVQGLQGPKGDQGIPGPKGADGKTQYTHIAYADTVSGSGFSQTDVNKAYIGMYQDFNAEDSKNPQDYRWSKWKGSDGRDGIPGKAGADGRTPYVHFAYADSADGRTGFSLTQTGNKRYLGVLTNFFKEDSTNPSDYTWNDTAGSVSVGGENLIINSAFPKNLDNWGFWETGLPNENLHIATHDFYYNDTKNLFRLDSDGKGVPASSRRFPVKRNTDYSLNIQTFATGNIKGVTIYFLGRKANETDKTFTKVVHVKTYSGSPSVTQAVKWHLTFNSGDCDEGYIRIDNNGTTDGKTSMLFFAELDCYEGTTDRAWQASTKDLEEEMGTKADAAMTIEQINALNERAAIIKAEMEAKASAEILNNWIKNYQDFVKANETERAAAEKALVNSSQRVSTIAKELGELSDRWNFIDTYMSTSNDGLVIGKNDGSSSIMFNPNGRISMYSAGSEVMYISQGVIHIENGIFSKTIQVGRYREEQYHLNPDMNVIRYVGGF

Physico‐chemical properties

protein length:	1277 AA
molecular weight:	142104,00030 Da
isoelectric point:	5,31725
aromaticity:	0,10807
hydropathy:	-0,57792

Domains

Domains [InterPro]

DC_0002
STR
1–701

DC_0002 IPR008160 DC_0002

IPR010572
ENZ
141–382

IPR010572 PTHR24637

G3DSA:1.20.5.320
STR
491–540

G3DSA:1.20.5.320 DC_0700

DC_1971
STR
783–865

DC_1971

YP_010646646.1

1 1277

Architecture

STR

STR 1-1277

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0002	STR	DC_0002	1	701	Novel HMM	DC_0002	Central	Low	Positional only	166 proteins / 166 hits
IPR010572	ENZ	DC_0675	141	382	InterPro cluster	Tail spike domain	Central	High	Text match	419 proteins / 419 hits
PTHR24637	Unmapped	-	491	876	PANTHER	COLLAGEN	-	-	-	-
G3DSA:1.20.5.320	STR	G3DSA:1.20.5.320	491	540	Merged direct domain	G3DSA:1.20.5.320	Central	Low	Positional only	67 proteins / 67 hits
DC_0700	STR	DC_0700	673	792	Novel HMM	DC_0700	Central	Low	Positional only	7 proteins / 7 hits
IPR008160	STR	DC_0536	770	807	InterPro cluster	Collagen triple helix repeat	C-terminal	High	Text match	355 proteins / 386 hits
DC_1971	STR	DC_1971	783	865	Novel HMM	DC_1971	Central	Low	Positional only	95 proteins / 95 hits
DC_0002	STR	DC_0002	856	1277	Novel HMM	DC_0002	Central	Low	Positional only	166 proteins / 166 hits

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Streptococcus phage P0091 [NCBI]	1971410	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Streptococcus thermophilus [NCBI]	1308	cellular organisms > Bacteria > Bacillati > Bacillota > Bacilli > Lactobacillales

Coding sequence (CDS)

Genbank protein accession

YP_010646646.1 [NCBI]

Genbank nucleotide accession

NC_070690.1 [NCBI]

CDS location

range 14759 -> 18592
strand +

CDS

ATGCAAATTTGGATTCATGATAAAAGCATGCGCAAGGTGTGTGCACTGAATAATAACGTTCCTGGCATGCTTCCGTACTCAAACAGTCAATGGCACACCTACCTTGAATACTCAACCAGTACACTTGACTTCACAATTCCTAAAATTGTAAATGGAAAACTTCACGATGATTTAAAATATATCAATGATCAGATGTATGTGTCGTTTTACTATGACAATTCCTATCACGTTTTCTATGTTTCTCAACTCATTGAGAACGATTTTAGTTTTCAAGTTACTTGTAACAATACCAACTTGGAACTATCAGCAGAAATAGAGCGTCCGTTAGCTAGTGTTGACGGTGCTAAAACACTTGAGTGGTATCTTCAAACCCTTGATTTACTTGGTTTTGCTGGCCTTGAAGTTGGTTTCAATGAGATTCCTGATAGGACAAGAACTATCACGTTTGAATCTCAAAATGGCACAAAATTAGAACAGCTTCATAGCTTGATGAACCAGTTTGATGCTGAGTTTGTTTTTCGTACTGATTTAAACCGAGATGGCACTTTGAAAAAGTTTGTCATTGACATCTACCAACGACCAGATGGAAATCATCATGGAATTGGTAAGGTTAGAGGTGATGTCGTTCTATACTATCAAAGCGGTCTTAAAGGCGTTCAAGTATCTAGTGATAAGACTCAACTCTTCAACGCTGGTCTTTTCCTCGGAAAAGATGGATTAAACCTAGGAAGCGTTGTGTTTGAGGAAAAGAATGAGTTAGGACAAGTAGAGTTCTACTCATTTAAAGACAGTCCGATGGTTTACGCACCTTTATCAGCAGATAAATATCCATCTGCAATGGGTGGTGCTAATGAAATAGATAGATGGACACGTAGGGATTTTCAGACAGAATACAGTGATGTTGATTCCCTCAAAGCTTATGCCTTGCGCACTATTAAGCAATATGCTTATCCTCTAATGACCTATACCGTAAGTGTTCAATCTAGTTTCATTGAAAACTACAAGGATATTAATCTAGGTGACACTGTTAAAATCATCGATAATAATTTTAGAGGTGGTTTAGCCCTCGAAGCGCGTGTATCTGAAATGATTATCAGCTTTGACAATCCTACAAACAATTCTGTTGTTTTTACTAATTTCAGAAAGTTGGATAATAAACCGTCTAGTGAATTACAACAACGTATCGATGAGATTGTTTCTAAATCATTGCCTTATCAAGTTGAGATAAGGACCACGAATGGAACAGTATTTAAGAACGGCATTGGTCGTTCTACTGTTAAACCAATTTTGAAACAAGGCGATAAAATTGTTGATGCAACTTATCGATTTGTGATTGACGGTACTATTAAATACTCAGGTCTGACCTATGATATGATAGCATCAGAGATTAACCAACCAACAACGTTGACGATTGCTGCGTGGGTAGATAATAAAGAAGTAGCTTCGGAAGAGATTACTTTCTTAAACGTCTCAGATGGTAAACAAGGACCTAAGGGCCCACAAGGACCACAAGGACCTAAAGGAGATAGAGGTAATGATGGAATTGCAGGTAAGGATGGGGTTGGATTAAAGACCACAACTATCATTTATGGAATAAGCGATAGTGACACTGCTATGCCTACTAACTGGACTAGTCAACCACCAGCATTAATTAAAGGGAAATACCTATGGACCAAAACAGTATGGACATATACTGATAATTCATCTGAAACAGGTTATCAAAAAACTTACATTGCCAAAGATGGTAACGATGGAAATGATGGCTTGCCAGGTAAAGATGGCGTTGGGATTGTTAATACTACCTTGCGTTATGCAAAATCAACGGACGGTGTCAATAAGCCGTCTGGTAGCGTAATCGCAGCGATTAGTGATAAATACCAACCATCTAATTCATCGACTGACAACTTAATGATGACTGGTCAACGTGTCCGATTAGAACAAGGTAAGACCTACATCCTATCTGCTGAAACCAATGGAACGTTTACCAATCGGCACAATCCCGACCAACAAAGCGATAATGCTACGATTTGGCTTGTCAATCCAAGTTTCAGTACATGGGCAGTTATTTCTGATAGCAACACGGCTAACGGTACGAAATACACTCATACCCGTCCTACAGGCGATTATAAAATCCGTGTTAACAGTTACACACCAGACAATAGCACTTGGGTTAAGAATATAGTATTTGAAGACGGCACTTGGTCGCCTGACATTCCAACAGTTAATCCCGGGGAATATCTCTGGACAAGGACTACGTGGTTCTATTCAGACGGTACGAGTGAGCAAGGTTTTTCCGTTGCTAAGATGGGTGAACAAGGTCCAAAAGGTGACCGTGGAGACCGTGGACCTCAAGGTGTTCAAGGATTACAAGGACCCAAAGGTGACCAAGGAATACCAGGACCAAAAGGTGCTGACGGAAAAACGCAATACACCCATATAGCTTATGCCGACACTGTTTCTGGTAGTGGTTTTAGTCAAACAGATGTCAATAAAGCCTATATTGGTATGTACCAAGACTTCAATGCCGAAGATAGCAAAAATCCACAAGACTATCGTTGGAGCAAGTGGAAAGGTAGTGATGGTCGTGATGGCATTCCTGGAAAAGCTGGAGCAGACGGACGGACTCCTTACGTCCACTTTGCCTATGCAGACAGCGCCGATGGTAGAACTGGTTTCAGTTTGACCCAAACTGGTAATAAACGCTATTTAGGTGTGCTTACCAACTTCTTCAAGGAAGACAGTACTAATCCTTCTGACTACACGTGGAATGATACGGCTGGCAGTGTTTCGGTTGGTGGTGAGAATCTAATCATTAACTCGGCTTTCCCGAAGAATCTTGACAATTGGGGATTTTGGGAAACGGGATTGCCTAACGAAAATCTTCATATAGCAACACATGATTTTTATTACAATGATACAAAAAATCTATTTAGACTAGATAGTGATGGTAAAGGGGTTCCTGCATCATCAAGACGTTTTCCAGTTAAACGTAACACTGATTATTCTCTCAACATTCAAACGTTTGCGACTGGAAATATCAAAGGTGTAACTATCTATTTTTTGGGTCGGAAGGCAAATGAAACTGACAAGACATTTACTAAAGTCGTGCATGTAAAAACATATTCTGGTTCACCATCGGTGACACAGGCGGTTAAATGGCACTTAACTTTCAACTCTGGAGATTGCGATGAAGGGTACATTCGCATTGATAATAATGGTACTACTGACGGTAAAACATCTATGCTATTCTTCGCTGAGTTGGACTGTTACGAGGGAACAACCGATAGAGCATGGCAAGCGTCAACTAAGGACTTAGAAGAAGAGATGGGAACTAAAGCCGATGCTGCTATGACGATTGAACAGATTAATGCACTTAATGAAAGGGCTGCAATCATTAAAGCAGAGATGGAAGCCAAAGCAAGCGCTGAAATTTTGAATAACTGGATTAAAAATTACCAAGATTTCGTTAAGGCAAACGAGACCGAGAGAGCTGCAGCCGAGAAAGCTTTGGTTAACTCAAGTCAGCGGGTATCAACCATCGCTAAGGAGTTAGGTGAACTGTCTGATCGTTGGAATTTCATCGATACTTACATGAGCACATCGAATGATGGGCTTGTGATTGGAAAGAATGACGGTAGCTCAAGCATTATGTTCAACCCTAACGGTCGAATTTCAATGTATTCAGCAGGGTCTGAAGTCATGTATATCTCGCAAGGTGTAATCCACATCGAAAACGGTATCTTCTCGAAAACAATCCAAGTTGGTCGATATCGTGAGGAGCAATACCATCTCAACCCAGACATGAATGTCATTCGATATGTAGGAGGATTTTAA

Genome Context

Tertiary structure

PDB ID

775e404c994acb43ac3a4a80d80f821476f27bf5e4169ad6c854217ee83caada

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,7005

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence