Protein

View in Explore

Genbank accession

YP_010664868.1 [GenBank]

Protein name

tail fiber protein and host specificity

RBP type

Evidence Phold

Probability 1,00

Evidence RBPdetect

Probability 0,73

Evidence RBPdetect2

Probability 0,95

Protein sequence

MKKGGYKMLLTIHDANLQKVAFIDNEKQGTLNYYDDTWTRSLATGSSTFEFTVFKKAVKSDLPLAKAYHHLNEHAFVSFKYKGKSFVFNIIIVEENEQTIKCYCENLNLELINELANPYKSNKAMTFKEYCEAMDLLNYTHLSIGINEISDYKRTLEWEGQETKLARLLSLAKRFDAEIEFDTQLNADSTIKKFSVNVYHENDDNHQGVGRVRNDVIVKYGKNIHSITRKVDKTGIFNTIRPTGKMPTVEEELSGDKGSKSETVKNADGSTTKTTISTASDGTKSKTIVHTKVTKLADKTRITTTTTTRSDGSIEQTVTTSKKGGASTSETKVLKKPNPKEKTNTTEDVLTIEGLDEWEVKNEKGIVEFYQRGQALYAPISMQLYPSTFTHSTGELDQWTRKDFHFETDEPNELRRLGYLKLKKYCYPAITYEVDGFVDADIGDTVKVHDDGFAPLLMIQARVTDQKISFTNPVRNKTIFDNFKALENKLSADIQSAFERLFEAAKPYTIKLSTDNGVIFKNQIGQSLVTPTLYKGGKPVVVGVTWRWALDGEVTTGMTYLVRGSNVTDTVTLTVAAYIGNKEVAVDEISLVNVADGKLGTPGTPGRDGRTPYVHTAWANNATGTDGFSLDSSINKLYIGIYTDFEPNDSTDPKKYKWAKVKGDKGEKGDKGEPGQRGLDGLQGARGEQGLPGRNGADGRTQYTHIAYSNSADGTKDFSVSASDRAYIGMYVDFNSADSNTPSDYNWTLVKGADGANGVAGKAGTDGRTPYLHIAYATSNNGSQGFSTTDSTNKTYIGTYTDYTQADSTDYRVYKWTLIKGADGTGISNVTNYYLATTVSTGITRTSAGWTTTPQPITSDKRYLWNYRVELYTNGTSKTTEPTVIGVHGEKGERGLQGLQGLQGARGEQGIPGPRGADGRTQYTHMAYADNATGGGFSQTNTDKAFVGVYIDFNPTDSRNPADYRWTRWKGRDGANGVAGRAGADGRTPYLHIAYATSNNGSQGFSTTDSTNKTYIGTYTDYTQADSTDPKKYKWAKVKGDKGEKGDKGERGLQGLQGLQGARGEQGIPGPRGADGRTQYTHMAYADNATGGGFSQTNTDKAFVGVYIDFNPTDSRNPADYRWTRWKGRDGANGVAGRAGADGRTSYFHIAYAASADGSREFSLEDNRQQYMGYYSDFTAADSRDRTKYKWFDRLANVQVGSQNLLRNTATLPIKNGLDGTWRSTSGGNGVAEPVTLDKYPVPGILKGVRVKNNTNGGNKDLSQIINLVIGQRYTISCWARVSSTSDRSTVNLLVRSWTVNDTNRILFKDISNKTWVKYSLSFTADAEKNSIQFGQNGPGNIEICGMKLELGNVATDWSLSVEDIQSQLDGKADQKLTQQQLTALTEKAQLHDAELKAKATMEQLSDLEKAYNAFVKSNADSRKKSESDLVEAGRRIDLLTTQFGGLAELKTFIDTYMKSTNEGLIIGKNDASSTIKVSSDRISMFSAGKEVMYISQGVINIDNGIFTASIQIGRFRTEQYHLNKDVNVIRYIGG

Physico‐chemical properties

protein length:	1535 AA
molecular weight:	169032,75050 Da
isoelectric point:	8,41933
aromaticity:	0,09446
hydropathy:	-0,64052

Domains

Domains [InterPro]

DC_0002
STR
1–684

DC_0002 DC_1328 DC_0921

IPR050149
Unmapped
598–1143

IPR050149 G3DSA:2.60.120.260 Coil

DC_1151
STR
677–833

DC_1151 G3DSA:1.20.5.320 DC_1328 IPR008979

YP_010664868.1

1 1535

Architecture

STR

STR 1-1534 |

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0002	STR	DC_0002	1	684	Novel HMM	DC_0002	Central	Low	Positional only	166 proteins / 166 hits
IPR050149	Unmapped	-	598	1143	InterPro	Collagen superfamily	-	-	-	-
DC_1151	STR	DC_1151	677	833	Novel HMM	DC_1151	Central	Low	Positional only	27 proteins / 27 hits
DC_1328	STR	DC_1328	817	972	Novel HMM	DC_1328	Central	Low	Positional only	136 proteins / 136 hits
G3DSA:1.20.5.320	STR	G3DSA:1.20.5.320	889	945	Merged direct domain	G3DSA:1.20.5.320	Central	Low	Positional only	67 proteins / 67 hits
DC_1328	STR	DC_1328	968	1135	Novel HMM	DC_1328	Central	Low	Positional only	136 proteins / 136 hits
DC_0921	STR	DC_0921	1125	1534	Novel HMM	DC_0921	Central	Low	Positional only	77 proteins / 77 hits
G3DSA:2.60.120.260	STR	G3DSA:2.60.120.260	1199	1344	Merged direct domain	G3DSA:2.60.120.260	Central	Low	Positional only	264 proteins / 264 hits
IPR008979	STR	IPR008979	1221	1349	Merged direct domain	Galactose-binding-like domain superfamily	Central	Low	Positional only	24 proteins / 24 hits
Coil	Unmapped	-	1391	1411	Coils	Coil	-	-	-	-

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Streptococcus phage IPP39 [NCBI]	1916178	Uroviricota > Caudoviricetes > Paclarkvirus >
Host	Streptococcus pneumoniae [NCBI]	1313	cellular organisms > Bacteria > Bacillati > Bacillota > Bacilli > Lactobacillales

Coding sequence (CDS)

Genbank protein accession

YP_010664868.1 [NCBI]

Genbank nucleotide accession

NC_070926.1 [NCBI]

CDS location

range 29045 -> 33652
strand +

CDS

TTGAAGAAAGGTGGATATAAGATGCTTTTGACAATCCATGATGCAAATTTACAAAAGGTAGCATTTATTGATAACGAAAAACAAGGTACGTTAAATTATTACGATGATACTTGGACAAGAAGTCTTGCAACAGGTTCGTCAACGTTTGAGTTTACGGTATTTAAAAAGGCTGTAAAGTCTGATTTACCTCTTGCTAAAGCCTATCATCATTTGAATGAGCATGCATTTGTCTCATTTAAGTACAAGGGTAAAAGCTTTGTGTTTAATATCATTATTGTTGAAGAAAATGAGCAGACAATCAAATGTTATTGTGAAAATCTCAATCTTGAGTTAATCAATGAGCTTGCGAACCCTTATAAATCTAACAAAGCGATGACTTTCAAAGAGTATTGTGAGGCGATGGATCTTTTAAATTATACTCACCTTTCTATTGGTATCAATGAAATATCAGATTATAAGCGTACTCTGGAATGGGAGGGGCAAGAAACCAAACTAGCCCGTCTATTAAGCCTAGCCAAACGATTTGATGCTGAGATTGAATTTGATACACAGTTAAATGCTGATAGCACTATCAAAAAGTTTAGTGTTAATGTTTATCATGAAAACGATGACAACCATCAAGGGGTGGGACGTGTAAGAAATGATGTCATTGTTAAATACGGAAAAAACATCCACTCTATTACAAGAAAAGTGGATAAGACTGGTATTTTCAATACAATCAGACCGACTGGTAAAATGCCAACGGTTGAAGAAGAACTGAGCGGAGATAAGGGCTCCAAAAGCGAAACTGTAAAAAATGCAGATGGTTCAACGACGAAAACCACAATCTCTACAGCCTCAGATGGGACTAAGAGCAAAACTATTGTCCACACTAAAGTTACAAAGTTAGCGGACAAGACACGGATCACAACGACCACAACGACTCGTTCTGATGGTTCCATAGAACAAACTGTTACAACCAGCAAAAAAGGCGGAGCATCAACGTCTGAAACAAAAGTCTTGAAAAAACCAAATCCAAAAGAAAAAACAAATACAACTGAGGATGTTTTGACGATTGAGGGATTGGATGAATGGGAAGTAAAGAACGAGAAAGGGATAGTTGAATTTTATCAAAGAGGGCAAGCACTGTATGCGCCTATTTCAATGCAACTATATCCCTCAACCTTTACTCATTCAACAGGGGAGCTTGACCAGTGGACAAGAAAAGATTTTCATTTTGAAACAGATGAGCCAAACGAGTTAAGACGTTTAGGTTATCTCAAATTGAAAAAGTATTGTTATCCAGCTATCACTTATGAAGTTGATGGCTTTGTCGATGCTGATATTGGAGATACTGTTAAAGTCCATGATGACGGTTTTGCCCCTCTATTGATGATTCAAGCACGGGTTACTGATCAAAAAATCAGTTTCACAAATCCAGTGAGAAATAAGACAATATTTGACAATTTCAAGGCACTTGAAAACAAACTATCAGCTGATATCCAGTCAGCCTTTGAGAGATTGTTTGAAGCTGCTAAACCATATACTATCAAATTATCAACGGACAATGGTGTTATCTTTAAAAATCAGATCGGCCAGAGTCTAGTAACCCCAACCTTATACAAGGGAGGAAAACCAGTCGTTGTTGGTGTTACTTGGCGATGGGCACTTGATGGAGAAGTAACAACAGGGATGACTTACTTAGTTAGAGGCTCAAATGTAACTGATACAGTTACTCTGACAGTTGCAGCTTACATTGGAAATAAAGAGGTTGCTGTTGATGAGATATCGCTTGTTAATGTTGCTGATGGAAAACTTGGTACACCTGGAACTCCAGGGCGAGATGGCCGTACTCCTTATGTCCATACAGCATGGGCTAATAATGCAACAGGAACAGATGGATTTAGTCTTGATAGCTCAATCAATAAACTCTATATTGGTATTTATACAGACTTTGAACCAAACGATAGCACAGACCCTAAAAAATACAAGTGGGCTAAAGTAAAAGGAGACAAGGGAGAAAAAGGAGATAAAGGAGAACCGGGACAACGTGGTTTAGATGGCTTGCAAGGTGCAAGAGGTGAACAAGGATTACCTGGTCGCAATGGTGCAGATGGCCGTACTCAATACACTCACATAGCTTACAGCAATAGCGCTGATGGAACTAAGGATTTTTCTGTAAGCGCCTCTGATAGAGCTTATATCGGTATGTATGTTGATTTTAATAGTGCTGATAGTAATACTCCATCTGATTACAATTGGACACTTGTAAAAGGAGCTGATGGCGCAAACGGCGTGGCAGGTAAGGCTGGTACAGATGGTAGGACACCATACTTACATATAGCTTACGCCACATCAAATAATGGATCACAAGGTTTTTCAACTACTGACAGTACAAATAAAACGTATATCGGAACATACACAGATTACACTCAGGCAGATAGCACAGATTACAGAGTGTATAAGTGGACGTTGATAAAAGGGGCAGATGGTACTGGTATTTCTAATGTAACTAATTATTATTTAGCTACTACAGTCTCAACAGGTATCACAAGAACAAGCGCAGGGTGGACAACTACGCCACAGCCTATCACATCAGACAAGCGTTATTTATGGAATTATCGAGTTGAGCTATACACAAACGGTACAAGTAAGACAACAGAGCCTACTGTTATTGGTGTGCACGGGGAAAAAGGAGAACGTGGATTACAAGGTTTACAAGGCTTGCAAGGCGCACGAGGTGAACAAGGTATTCCTGGACCTAGAGGGGCAGATGGTCGTACACAATATACTCACATGGCCTATGCCGATAACGCAACAGGTGGTGGATTCAGTCAAACAAACACTGACAAAGCCTTTGTTGGGGTGTACATTGACTTTAATCCAACAGACAGCAGAAATCCTGCTGATTATCGCTGGACAAGATGGAAAGGTCGTGATGGCGCAAATGGCGTGGCAGGTAGGGCTGGTGCAGATGGTAGGACACCATACTTACATATAGCTTACGCCACATCAAATAACGGCTCACAAGGCTTCTCAACTACTGACAGTACAAATAAAACGTATATCGGAACATACACAGATTACACTCAGGCAGATAGCACAGACCCTAAAAAATACAAGTGGGCTAAAGTAAAAGGGGACAAGGGAGAAAAAGGCGATAAAGGAGAACGTGGATTACAAGGTTTACAAGGCTTGCAAGGCGCACGAGGTGAACAAGGTATTCCTGGACCTAGAGGGGCAGATGGTCGTACACAATATACTCACATGGCCTATGCCGATAACGCAACAGGTGGTGGATTCAGTCAAACAAACACTGACAAAGCCTTTGTTGGGGTGTACATTGACTTTAATCCAACAGACAGCAGAAATCCTGCTGATTATCGCTGGACAAGATGGAAAGGTCGTGATGGCGCAAATGGCGTGGCAGGTAGGGCTGGTGCAGATGGTAGGACATCCTATTTCCATATAGCATACGCAGCAAGTGCAGACGGATCACGCGAATTTAGTTTAGAGGATAATCGCCAGCAATATATGGGCTATTATTCCGATTTTACCGCAGCAGATAGTAGAGATCGAACTAAGTATAAATGGTTTGACCGACTAGCTAATGTTCAAGTGGGTTCCCAGAACTTGCTTAGAAATACTGCAACTCTTCCTATTAAAAATGGATTAGACGGTACCTGGCGGAGTACGTCAGGTGGTAACGGAGTAGCGGAACCTGTTACCTTGGATAAATATCCTGTACCTGGAATCCTAAAAGGTGTTCGAGTTAAAAACAACACCAACGGGGGTAATAAGGACCTTAGCCAGATTATTAACTTAGTTATAGGTCAACGTTATACAATATCCTGCTGGGCTCGTGTAAGCTCTACAAGTGATCGATCTACTGTGAACCTACTAGTAAGGTCCTGGACAGTGAACGATACTAATAGGATACTTTTTAAGGATATAAGTAATAAGACTTGGGTTAAGTACAGTCTTTCCTTCACTGCGGACGCTGAGAAAAATTCAATTCAGTTCGGTCAAAACGGACCAGGTAATATTGAAATCTGTGGAATGAAATTAGAACTCGGTAATGTAGCCACTGATTGGTCCTTATCCGTAGAAGACATTCAATCTCAGTTAGACGGAAAAGCTGACCAAAAGCTAACTCAACAACAATTGACGGCCCTAACTGAAAAGGCTCAGTTACACGACGCAGAGTTGAAAGCTAAGGCTACGATGGAACAATTAAGTGATTTAGAAAAAGCATATAATGCCTTTGTGAAATCAAATGCAGATAGTCGAAAAAAATCTGAGTCTGATTTAGTTGAAGCAGGTAGAAGAATTGATTTGCTGACGACACAATTTGGAGGATTAGCAGAGCTTAAAACATTCATTGATACTTACATGAAAAGCACAAATGAGGGCTTGATTATAGGTAAGAATGATGCAAGCTCTACTATTAAGGTATCAAGTGATAGAATATCCATGTTTTCTGCAGGTAAGGAAGTTATGTACATTTCGCAAGGTGTAATAAATATTGATAATGGTATTTTTACTGCATCAATTCAAATTGGACGTTTTAGAACAGAACAGTATCATCTTAACAAAGATGTGAATGTCATACGATATATAGGAGGTTAA

Genome Context

Tertiary structure

PDB ID

a16bc2849924431eac739fcfd49fd3ac01e740a072492ad6b50be47d76c1b6da

ColabFold

Source ColabFold

Method ColabFold

Resolution 0,7806

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence