Tuesday, October 21, 2008

Phylogenetic tree

Assignment 2
Who are the ancestors of the dinosaurs?

DNA was extracted from 80-million-year-old bone fragments found in strata of the Upper Cretaceous Blackhawk Formation in the roof of an underground coal mine in eastern Utah.
The authors conclude that the DNA sequence,

cccttctattattcattctcattctattcgttattcttgtactccacacatccaaacaac aaagcataatattccacccattgagtccattcctatcctgattcttagtccccgaacctt
ttacactcacatg

appears to be from a dinosaur that lived 80 million years ago.
Show us step by step of how to do phylogenetic analysis with cytochrome b sequences. Use these following species
o Human
o Dog
o Rabbit
o rhinoceros
o dugong
o mouse
o whale
o bovine
o sicklebill
o chicken
o magpie
o frog
Step 1
1.เชื่อม Internet ไปยังเว็บไซต์ NCBI:http:www.ncbi.nlm.nih.gov โดยเลือกสิ่งที่ต้องการค้นหา คือ nucleotide และใส่ keyword ลงไป
การค้นหาและการเลือก sequences
1.ใส่คำค้นชื่อสิ่งที่ต้องการหาเป็นภาษาลาตินและ sequences ที่ใช้จะเลือกใช้ แต่ Ref. sequ. ที่เป็น complete genome จาก mitochondrion เช่นเราต้องการค้นหา sequence ของ Human จะได้ว่า Human --> “Homo sapiens AND cytochrome b AND reference sequence”

2.สำหรับสิ่งมีชีวิตที่ไม่สามารถหา mitochondrion complete genome โดยเฉพาะ cytochrome b ก็จะเลือกใช้ข้อมูลที่สมบรูณ์ที่สุด โดยตัดคำว่า reference sequence ออกจากการหา

Keyword
•Human : Homo sapiens NC_001807
•Dog: Canis lupus familiaris NC_002008
•Rabbit : Bunolagus monticularis AY292718
Pentalagus furnessi AY292720
Oryctolagus cuniculus NC_001913
•Rhinoceros :Rhinoceros unicornis NC_001779
•Dugong : Dugong dugon NC_003314
•Mouse :Mus musculus NC_005089
•Bovine :Bubalus bubalis NC_006295
Bos indicus NC_005971
•Frog : Polypedates megacephalus NC_006408
Rana nigromaculata NC_002805
•Chicken: Gallus gallus NC_001323
•Whale : Eschrichtius robustus NC_005270
•Sicklebill :Epimachus albertisi U15205
•Magpie :Cyanopica cyanus pallescens AY701179

2. Search NCBI for cytochrome b nucleotide sequence of 12 different species

3. Click เลือกที่ Display > GenBank----> Text แล้ว copy เก็บไว้ในโปรแกรม Notepad
4. Click เลือกที่Display > FASTA format เพื่อให้ NCBI รายงานผลในรูป FASTA format แล้ว copy เก็บเอาในโปรแกรม Notepad เพื่อนำไปทำการจัดเรียงดับเบส

Step 2

การติดตั้งโปรแกรม BioEdit
1. เชื่อม Internet ไปยังเว็บไซต์
http://www.google.com/ 2. ดาวน์โหลดโปรแกรมโดยการเลือกคลิกที่หัวข้อ BioEdit.zip (Full install)

3. โปรแกรมจะถูกติดตั้งอยู่ใน drive C ซึ่งสามารถเรียกใช้งานโดยผ่านทาง
คำสั่ง Start ----> program ---> BioEdit --> BioEdit

Step 3

การใช้งานของโปรแกรม BioEdit

1. Manual alignment of sequences จะแสดงหน้าต่างการทำงานพื้นฐาน ดังรูป


2. เลือกคลิกที่ File ---> New Alignment ---> Import


3. เปิด FASTA file ที่เก็บอยู่ในโปรแกรม Notepad

3.1 เมื่อเข้า Import --------> sequence alingment file

-Dinosour - Mouse
-Dog - Dugong
-Rabit 1 - Frog 1
-Rabit 2 - Frog 2
-Rabit 3 - Chicken
-Magpie - Gray whale
-Sicklebil - Bovine 1
-Rhinoceres - Bovine 2
-Human
3.2 จะได้ sequence ดังภาพที่แสดง


4.จากนั้นให้เลือกไปที่คำสั่งในเมนู Accessory Application--> ClustalW Multiple alignment ---> Run ClustalW



5. รอให้โปรแกรม Run

6.จากนั้น จะได้ Alignment ---->save text ---->Accessory Application แล้วเข้าไปที่ DNAmk DNA Maximum likelihood program with molecular clock





7.จะได้ Data ดังภาพ หลังจากนั้น save as text file

8.เปิดโปรแกรม Tree view แล้วเปิด file ที่save ไว้ก่อนหน้านั้น


9.โปรแกรมจะเริ่มทำงานและรายงานผลออกมาในรูปแบบ graphic ของ phylogenetic tree

Monday, October 20, 2008

Haploview

Find out

1. How many haplotype blocks in this region of Chromosome X?
2. Could you find out the tagging SNP in each haplotype block?

I. เปิดโปรแกรม Haploview 4.0 ซึ่งสามารถ download โปรแกรมดังกล่าวได้จาก http://www.broad.mit.edu/mpg/haploview/download.php โดยโปรแกรมดังกล่าวต้องการโปรแกรม java ในการทำงานควบคู่ไปด้วย

1. ขั้นตอนการติดตั้งโปรแกรม JAVA




Instructions for Downloading Java on Windows - Internet Explorer
  • You might need to click the yellow warning bar at the top of the browser window show the installation.

  • Click Install to start the installation proces

If you do not get the window asking you whether you want to install the software, please see the help page or the Manual Download page.

The installation process starts. The installer presents an option to view the License Agreement. After reading the agreement, click the Accept button to accept its terms and to continue with the installation.


If you selected the Advanced Options Panel, the installer displays a Custom Setup screen that allows you to choose program features to set up. We recommend that you keep the default settings, unless you are an advanced user who wants more precise control over the components that will be installed. After ensuring that the desired program features are selected, click the Next button to continue with the installation




II. เตรียมข้อมูลที่จะใช้ในการลง Data ของ Hapmap format

  • Copy Data มาเปิดใน Microsoft Word
  • Save Data แบบ Plain text



    III . เมื่อเปิดโปรแกรม Haploview จะพบหน้าต่าง Welcome to HaploView
  • แสดงหน้าต่างเมื่อเข้าสู่โปรแกรม Haploview ดังภาพ


  • ที่หน้าต่าง Welcome to HaploView เลือกที่คำสั่ง HapMap Download

ตั้งค่า Release เป็น 21
เลือก Chromosome ที่ต้องการศึกษา ซึ่งในที่นี้คือ Chromosome X
เลือกกลุ่มประชากรที่ต้องการศึกษา ซึ่งในที่นี้เลือก CHB+JPT จากนั้นกดเลือก ok เพื่อเริ่มต้นการทำงาน

  • เลือก HapMap Format เพื่อ download File แล้วคลิก OK

  • Change HW p-value cut off to 0.05 แล้วคลิกที่ Rescore Markers


  • หลังจากที่โปรแกรมทำงานจะปรากฏหน้าต่าง Check Markers ดังภาพ
  • จากนั้นเลือกที่หน้าต่าง Haplotypes ซึ่งจะแสดงผลลัพธ์ดังภาพ


  • แสดงหน้าต่างผลลัพทธ์ในหน้า LD Plot


How many haplotype blocks in this region of Chromosome X?ภายหลังจากได้ผลลัพธ์ในหน้าต่าง Haplotypes เปิดหน้าต่างผลลัพธ์ของ LD Plot




•สรุปว่ามี 3 haplotype blocks คือ
- Block 1 ตำแหน่งที่ 8, 9
- Block 2 ตำแหน่งที่ 13, 14, 15, 16, 17
- Block 3 ตำแหน่งที่ 24, 25, 26, 27, 28, 29


IV. Could you find out the tagging SNP in each haplotype block?

ภายหลังจากได้ผลลัพธ์ในหน้าต่าง Haplotypes เพื่อแสดง tagging SNP ในแต่ละ haplotype block เลือกคำสั่ง Display กดเลือก Show tags in blocks จะปรากฏดังภาพ


แสดงหน้าต่าง Haplotype block ที่แสดง tagging SNP



•สรุปว่ามี tagging SNP คือ
Block 1 มี tagging SNP ที่ตำแหน่ง 8,9
Block 2 มี tagging SNP ที่ตำแหน่ง 13,15
Block 3 มี tagging SNP ที่ตำแหน่ง 24,27



Sunday, September 28, 2008

Original lecture and Lecture 1&2

เนื้อหาใน บทความเรื่อง Lecture 1-3 มาจากการเรียบเรียงจากการฟังการบรรยายในหัวข้อ Protein structure primer


ซึ่งสามารถดูได้จาก link ด้านล่าง





http://www.s-star.org/lectures/Lecture06/Lecture06_files/Default.htm








บทความทั้งหมดนี้เป็นส่วนหนึ่งของการเรียนวิชา Genome information
Lecture 1
Protein Structure Primer
Shoba Ranganathan
Bioinformatics Centre
National University of Singapore

เหตุผลของการศึกษาโครงสร้างของโปรตีน
ปฏิกิริยาเคมีที่เกิดขึ้นภายในเซลล์ของสิ่งมีชีวิตโดยทั่วไป โปรตีนเป็นสารอาหารหลักชนิดหนึ่งที่เซลล์จะใช้เป็นแหล่งพลังงาน โปรตีนมีลักษณะที่พิเศษเกิดจากการเรียงตัวของ กรดอะมิโนวางเรียงต่อกันด้วยพันธะเปปไทด์ แต่ละอะตอมในโครงสร้างของโปรตีนจะมีบทบาทที่ทำให้เกิดการ ม้วนพับ (Folding) ของเส้นโพลีเปปไทด
The (L-) amino acid

กรดอะมิโนประกอบด้วยโครงสร้างหลักที่เหมือนกันทั้ง 20 ชนิด คือ ประกอบด้วย หมู่อะมิโน (NH3+) หมู่คาร์บอกซิล (COO-) แอลฟาคาร์บอนอะตอม และไฮโดรเจนอะตอม ส่วนหมู่ข้าง (R-sidechain) จะแตกต่างกันขึ้นอยู่กับชนิดของกรดอะมิโน กรดอะมิโนจะเป็นโมเลกุลที่อสมมาตร (asymmetry)โดยทั่วไปกรดอะมิโนที่พบภายในเซลล์ของสิ่งมีชีวิตจะเป็นชนิด L ไอโซเมอร์
ยกเว้นไกลซีน ซึ่งจะทำให้มีรูปหรือโครงสร้างของการหมุนที่เป็นกระจกของกันและกันคือ ไอโซเมอร์ชนิดแอล (L) จะมีรูปกระจกเป็นไอโซเมอร์ชนิดดี (D) ซึ่งใช้เป็นจุดสำคัญในการควบคุมวิถีเมแทบอลิซึมในเซลล์ นอกจากนี้กรดอะมิโนมาตรฐาน 20ชนิดยังอาจเป็นตัวตั้งต้นการเพิ่มชนิดของกรดอะมิโน โดยทั่วไปกรดอะมิโนที่อยู่ในรูป D ไอโซเมอร์มักจะพบในสิ่งมีชีวิตพวกโปรคาริโอต เช่น พบ D-อะลานีน และ D-ไอโซกลูตาเมตในผนังเซลล์ของแบคทีเรียแกรมบวกชนิด Stapphylococcus aureus นอกจากนี้ในแบคทีเรียที่พบเปปไทด์สายสั้น ๆ ที่เรียกว่า ไอโอโนฟอร์ (ionophore) ที่ทำหน้าที่เป็นช่องผ่านของสารต่าง ๆ ในเยื่อเซลล์จะมีส่วนประกอบเป็นกรดอะมิโน D-ไอโซเมอร์

Formation of polypeptide chain
พันธะเปปไทด์จะมีลักษณะเป็นพันธะคู่บางส่วน (partial double bond) และเกิดเรโซแนนท์
จากการวิ่งของอิเล็กตรอนในพันธะ ซึ่งจะทำให้ความยาวพันธะระหว่าง C-N สั้นกว่าพันธะเดี่ยว C-N ปกติ

Aliphatic residues
กลุ่มกรดอะมิโนที่มีหมู่ข้างเป็นสายไฮโดรคาร์บอน
ซึ่งโครงสร้างสามมิติของโปรตีนจะมีแรงไฮโดรโฟบิกเป็นส่วนสำคัญที่จะทำให้เกิดความทน (stability) และโครงรูปม้วนพับของโปรตีนที่ถูกต้องได้ ไอโซลิวซีนและลิวซีนเป็นไอโซเมอร์ซึ่งกันและกัน

Aromatic residues
กลุ่มกรดอะมิโนที่หมู่ข้างเป็นอะโรมาติก หมู่ข้างของกรดอะมิโนในกลุ่มนี้จะสามารถดูดกลืนแสงในช่วงคลื่นอัลตราไวโอเลตและให้แสงฟลูออร์เรสเซนต์ได้ในช่วง 250-350 nmฟีนิลอะลานีนเป็นกรดอะมิโนที่มีหมู่ข้างเป็นวงแหวนที่มีลักษณะไม่ว่องไวต่อปฏิกิริยาเคมีแต่มีคุณสมบัติเป็นไฮโดรโฟบิกและชอบที่จะเกิดปฏิกิริยากับพวกไม่มีขั้ว (non-polar) หรือกับพวกอะโรมาติกด้วยกัน
ไทโรซีน (Tyrosine) จะมีความว่องไวในปฏิกิริยาเคมีมากกว่าฟีนิลอะลานีนเพราะมีหมู่ไฮโดรซิลที่หมู่ข้าง ทำให้คุณสมบัติการเป็นกรดเบสของวงแหวนเปลี่ยนไปโดยมีความเป็นกรดมากขึ้น และยังเกิดพันธะไฮโดรเจนได้จากหมู่ไฮดรอกซิล
ทริปโตฟาน (tryptophan) มีหมู่ข้าง เป็นหมู่ข้างที่ใหญ่ที่สุดที่พบในโปรตีน
ส่วนประกอบการที่หมู่ข้างของทริปโตฟานเป็นวงแหวนมีสมบัติไม่ชอบน้ำ เกิดปฏิกิริยาเคมีไม่ว่องไว แต่ก็เกิดปฏิกิริยาการเปลี่ยนแปลงได้โดยไอโอดีนได้ง่าย ไนโตรเจนอะตอมในวงแหวนไพรอลเป็นส่วนที่เกิดปฏิกิริยาได้ดี

Charged residues
กลุ่มกรดอะมิโนที่มีสมบัติเป็นกรด หมู่ข้างของกรดอะมิโนกลุ่มนี้จะเป็นหมู่คาร์บอกซิล มีประจุเป็นลบ มีสมบัติเป็นกรด หมู่ข้างของแอสปาเทต และกลูตาเมตจะต่างกันที่มีหมู่เมททิลลีนต่างกันหนึ่งหมู่ แต่จะมี pK ใกล้เคียงกัน (pH 3.8-4.5) เกิดปฏิกิริยาเคมีได้ง่าย เช่น การเกิดปฏิกิริยาเอสเทอริฟิเคชันด้วยแอลกอฮอล์ หรือปฏิกิริยาการรวมตัวกับเอมีน นอกจากนี้หมู่ข้างของกรดอะมิโนสองตัวนี้ยังสามารถจับได้กับไอออนหลายชนิดเช่น Ca2+ เช่น โปรตีน calmodulin หรือจับกับ Zn2+ ในกลุ่มของเอนไซม์คาร์บอกซีเปปติเดส จะเห็นได้ว่ากรดอะมิโนเป็นสารที่มีประจุทั้งบวกและลบในโครงสร้าง จากสมบัติของหมู่อะมิโน (NH3+) และหมู่คาร์บอกซิล (COO-)สมบัติของกรดอะมิโนที่มีทั้งประจุบวกและประจุลบ(zwitterions)เพราะภายในโครงร่างผลึกจับกันด้วยแรงของประจุ การมีประจุทำให้กรดอะมิโนเป็นตัวนำกระแสไฟฟ้าในสารละลาย นอกจากนี้ยังทำให้กรดอะมิโนมีสมบัติของความเป็นกรดด่างในตัว โดยในสภาวะที่pH 7 หมู่อะมิโนและหมู่คาร์บอกซิลจะแตกตัวให้ประจุ ซึ่งการมีประจุของกรดอะมิโนจะมีการเปลี่ยนแปลงเข้าสู่จุดสมดุลตลอดช่วงของค่าpH (1-14) โดยการมีบทบาทนี้จะทำให้มีผลต่อสมบัติของโปรตีน ซึ่งการจับและหลุดของโปรตอนในหมู่โครงสร้างทั้งสองนี้ทำให้มีผลต่อบทบาทของหมู่อะมิโนและหมู่คาร์บอกซิล ซึ่งมีสมบัติเป็นได้ทั้งกรดอ่อนและด่างอ่อน สมบัตินี้มีความสำคัญอย่างมากต่อโปรตีน ซึ่งสามารถศึกษาได้โดยอาศัยค่า pK พบว่าหมู่อะมิโนจะมี pK ประมาณ 9 ซึ่งเป็นด่างอ่อน การแตกตัวของหมู่อะมิโนและหมู่คาร์บอกซิลในpH ต่างๆจากโครงสร้างของกรดอะมิโน หมู่ข้าง (R-group) จะมีหมู่ฟังก์ชันซึ่งอาจเป็นตัวให้หรือรับโปรตอนโดยหมู่ข้างจะเป็นตัวที่ทำให้กรดอะมิโนมีสมบัติที่แตกต่างกันทั้ง 20

กรดอะมิโนกลุ่มที่เป็นเบส หมู่ข้างของอาร์จีนีนประกอบด้วย 3 หมู่เมททิลีนแล้วตามด้วยหมู่กัวนาดิเนียม
(guanadinium) ซึ่งมักจะเกิดการเติมโปรตอนและจะมีไฮบริไดเซชั่นของโปรตอน หมู่กัวนาดิเนียมเป็นเบสที่แรงมี pK ประมาณ 12 ไม่ว่าจะอยู่ในสารละลายใดๆจะมีประจุสุทธิเป็นบวก ส่วนไลซีนมีหมู่ข้างที่ยาวมี สี่หมู่เมททิลีน มีหมู่ฟังก์ชันเป็นหมู่อะมิโน pK ประมาณ 10.5-11เป็นกลุ่มของกรดอะมิโนที่ทำปฏิกิริยากับโปรตีนที่มีประจุตรงข้ามได้ดี
ฮีสติดีนเป็นกรดอะมิโนที่มีหมู่ข้างเป็นวงแหวนอิมิดาโซล (imidazole ring) มี pK ของหมู่ข้างประมาณ 7 โปรโตเนชัน (protonation) ทำให้หมู่ข้างมีสมบัติเป็นกรดด่างที่ต่างกันและยังอาจทำให้เกิดนิวคลิโอไฟล์และอิเล็คโตรไฟล์ที่ต่างกัน มีคุณสมบัติที่ทำให้เกิดเป็นพันธะไฮโดรเจนได้

Polar residues

กลุ่มของกรดอะมิโนที่มีหมู่ข้างเป็นหมู่เอมีน คือ แอสปาราจีน และกลูตามีน
กรดอะมิโนกลุ่มนี้หมู่ข้าง คือ หมู่เอไมด์เป็นหมู่ฟังก์ชันไม่ไวต่อปฏิกิริยาเคมี โดยทั่วไปจะมี
โพลาร์และทำหน้าที่เป็นตัวให้หรือรับโปรตอนได้ ซึ่งแสดงว่าสามารถสร้างพันธะไฮโดรเจนกับอะตอมอื่น ๆ ในโครงสร้างของโปรตีน หมู่เอไมด์นี้จะถูกสลายได้ง่ายในสภาวะที่เป็นด่าง หรืออุณหภูมิที่สูงจะทำให้เกิดการขจัดหมู่เอไมด์ (deamidate) เกิดเป็นกรด (acid form)

กลุ่มของกรดอะมิโนที่มีหมู่ซัลเฟอร์ในหมู่ข้าง คือ ซีสเทอีนและเมทไธโอนีน
ในซีสเทอีนหมู่ซัลเฟอร์จะเป็นหมู่ไทออล (thio group) ที่ไวต่อการเกิดปฏิกิริยาเคมี ส่วนในเมทไธโอนีน หมู่ซัลเฟอร์จะอยู่ในหมู่ข้างที่เป็นสายยาวทำให้เกิดปฏิกิริยาได้ยาก ซัลเฟอร์อะตอมจะเป็นนิวคลิโอไฟล์ (nucleophile) เกิดปฏิกิริยาเมทธิลเลชันได้ง่าย โดยใช้ methyl iodine เป็นปฏิกิริยาที่ทำให้ติดฉลาก (label) 13C ในเมทไธโอนีน นอกจากนี้ซัลเฟอร์ในเมทไธโอนีนยังเกิดปฏิกิริยาได้กับโลหะหนักที่จะเกี่ยวข้องกับ mercury และ platinum เช่น K2PtCl4 หรือ HgCl2 ซึ่งมีประโยชน์ในการทำให้เกิดisomorphous ของโปรตีนสำหรับการตกผลึกโปรตีน (crystallization) นอกจากนี้ เมทไธโอนีนยังเกี่ยวข้องกับการเกิดปฏิกิริยากับไซยาโนเจนโบรไมด์ (cyanogen bromide) ซึ่งเกิดปฏิกิริยาเคมีที่ตัดพันธะเปปไทด์ของเมทไธโอนีนที่ปลายคาร์บอกซิล โดยการทำปฏิกิริยากับน้ำทำให้ได้ผลิตภัณฑ์เป็นhomoserine lactone ปฏิกิริยานี้ใช้ในการทำให้เส้นโปรตีนเล็กลง

กลุ่มกรดอะมิโนที่มีหมู่ไฮดรอกซิล คือ เซรีน และ ทรีโอนีนเป็นหมู่ข้างหรือกลุ่มมีขั้วแต่ไม่มีประจุ
หมู่ข้างของกรดอะมิโนกลุ่มนี้จะมีหมู่ไฮดรอกซิล (-OH) ซึ่งเป็นหมู่ที่สามารถเกิดปฏิกิริยาเคมีที่สำคัญในโปรตีนได้ เป็นหมู่ข้างขนาดเล็กที่เกิดพันธะไฮโดรเจนได้กับอะตอมอื่น ๆ มีสมบัติเป็นหมู่แอลกอฮอร์ที่เกิดปฏิกิริยาเอสเทอริฟิเคชันได้ดี เช่น ปฏิกิริยาฟอสโฟรีเลชัน (phosphorylation) คือการเติมหมู่ฟอสเฟตให้กับเซรีน และทรีโอนีน โดยมักจะเกิดในขั้นตอนการดัดแปลงหลังการแปลรหัส(posttranslational modification) มีความสำคัญสำหรับปฏิสัมพันธ์ของโปรตีน (protein-proteininteraction) และการส่งสัญญาณภายในเซลล์ (intracellular signaling)

The peptide bond

ลักษณะของพันธะเปปไทด์พันธะที่เชื่อมต่อกรดอะมิโนเข้าด้วยกันต่อเป็นสายยาวให้เป็นเส้นโปรตีน
โดยอาศัยปฏิกิริยาการรวมตัวของหมู่คาร์บอกซิลของกรดอะมิโนตัวที่หนึ่งกับหมู่อะมิโนของกรดอะมิโนตัวที่สอง และเสียน้ำออกไป 1 โมเลกุลซึ่งจากรูปนี้จะทำให้มีกรดอะมิโนตัวอื่นๆ เข้ามาต่อกันได้หลายพันธะขึ้นไปอีกและเกิดเป็นโปรตีน ถ้ามีกรดอะมิโนจำนวนน้อยจะเรียกว่า Peptide bond แต่ถ้าประกอบด้วยกรดอะมิโนจำนวนมากจะเรียกว่า Polypeptide bond โดยภายในเซลล์ของสิ่งมีชีวิตจะมีไรโบโซมและโปรตีนอื่นๆ ร่วมกันสร้างโปรตีนที่มีขนาดแตกต่างกันตั้งแต่เปปไทด์เล็ก ๆ จนเป็นโพลีเปปไทด์ขนาดใหญ่ แต่ในทางเคมีการสังเคราะห์โพลีเปปไทด์ยังมีข้อจำกัดที่อาจจะสังเคราะห์ได้ไม่เกิน 50 ลำดับกรดอะมิโน ส่วนการอ่านลำดับของกรดอะมิโนจะอ่านจากซ้ายไปขวาซึ่งก็คือ จากทางปลายอะมิโนหรือปลาย N (N-terminus) ไปทางปลายคาร์บอกซีหรือปลาย C (C-terminus) ลำดับของกรดอะมิโนในโปรตีนนี้จะแปลมาจากยีน มีโปรตีนบางชนิดที่เกี่ยวข้องสัมพันธ์กันเพราะที่มีลำดับของกรดอะมิโนที่ใกล้เคียงกัน ส่วนโปรตีนหลายชนิดมีองค์ประกอบของกรดอะมิโนและลำดับของกรดอะมิโนที่แตกต่างกัน

Backbone Torsion Angles
กรดอะมิโนที่อยู่ในโครงสร้างหลัก (backbone) ของสายโพลีเปปไทด์ของโปรตีนที่เป็นก้อนกลม จะมีลักษณะของโครงสร้างระดับทุติยภูมิอยู่ 3 แบบ คือ แอลฟา-เฮลิกซ์ สายบีต้า และสาย turnจากจำนวนกรดอะมิโน 20 ชนิดที่พบ ในโปรตีน หากคิดถึงความเป็นไปได้ในการสร้างโครงสร้างอาจได้ถึง 780 ชนิด สำหรับ dipeptide ดังนั้นถ้ามีขนาดของโพลีเปปไทด์ที่มีความยาว 100 กรดอะมิโนอาจจะทำให้ได้โครงรูป (conformation)
แอลฟา-เฮลิกซ์จะมีกรดอะมิโน 3.6 กรดอะมิโนต่อหนึ่งรอบของเกลียวโดยมีความห่างของแต่ละกรดอะมิโนประมาณ 0.15 nm พารามิเตอร์นี้เรียกว่า translation per residue distanceทำให้หนึ่งเกลียวจะมีความยาว 0.54 nm จากการศึกษาแบบจำลองแอลฟา-เฮลิกซ์จะมาจากมุมไพ และมุม ของมุมบิดและมุม dihedral ค่าของมุมไพและมุมไซ ในโครงสร้างแอลฟา-เฮลิกซ์จะทำให้โครงสร้างหลักขยับตัวเข้าใกล้ชิดกัน จนทำให้เกิดพันธะไฮโดรเจนขึ้นในโครงสร้างหลัก (backbone) คือ จะมีพันธะไฮโดรเจนเกิดระหว่างคาร์บอนิลออกซิเจนของโครงสร้างหลักของกรดอะมิโนตัวที่หนึ่งกับเอไมด์ไฮโดรเจนของโครงสร้างหลักของกรดอะมิโนตัวที่ 4 ในสายเปปไทด์ ความยาวของพันธะไฮโดรเจน 0.286 nm และขนานไปกับเกลียวเฮลิกซ์โดยทั่วไปในโปรตีนแต่ละชนิดก็จะมีความยาวของพันธะไฮโดรเจนและมีมุมที่แตกต่างกัน

Lecture 2
Structural information
· Protein Data Bank (PDB) format is a standard for files containing atomic coordinates. It is used for structures in the
Protein Data Bank and is read and written by many programs.
· Protien Data Bank maintained by the Reserch collaboratory for Structural Bioinfomatic from
http://www.rcsb.org/pdb/ consis of >10,000 structures of proteins ,al contain structures of DNA , carbohydrates and protein-DNA complexes.
· The Protein Data Bank (PDB) format provides a standard representation for macromolecular structure data derived from X-ray crystallography.Other methods are electrol microscopy and NMR. Some structures are also theoretically predicted.

The PDB data
PDB format consists of lines of information in a text file. Each line of information in the file is identified by unique 4 –letter code say 1 emg .

PDB Header details
• Identifies the molecule,any modification,date of release of PDB
• Organism,keywords,method
• Authors , Reference,resolution if X-ray structure
• Sequence , x-reference to sequence database

The data itself
Coordinate for each heavy(non - hydrogen) atom from the first residue to the last. Any ligands (startine with HETATM) follow the biomacromolecule. O atom of water molecules at the end

Visualizing PDB information
• RASMOL: most popular,available for all platforms
http://www.bernstein-plus-sons.com/software/rasmol
• Swiss PDB Viewer : from Swiss – Prot
http://expasy.nhri.org.tw/spdbv/
• Chemscape Chime Plug-in : for PC and Mac
http://www.mdli.com/download/chimedown.html

Protein Structure

Levels of protein structure : 0,1
-Zeroth : amino acid composition – no structural informatic
-Primary : This is simply the order of covalent linkages along the polypeptide chain, i.e. the sequence itselt.

Levels of protein structure : 2
Secondary : local organization of protein backbone : α- helix , β-strain (which assemble into β sheets ), turn and interconnecting loop
The α-helix
The alpha helix is a right-handed coiled conformation, resembling a
spring, in which every backbone N-H group donates a hydrogen bond to the backbone C=O group of the amino acid four residues earlier ( hydrogen bonding). Properties of the α helix Side – chains project outwards: praline only fits the start Amphipathicity if solvent exposed: hydrophilic residues in cyan: hydrophobic resides in magenta .This secondary structure is also sometimes called a classic Pauling-Corey-Branson alpha helix .First structure to be predicted Pauling, Corey, Branson:1951 and experimentally sovlved (Kendrew et al.1958)-myoglobin
The amino acids in an α helix are arranged in a right-handed
helical structure, 5.4 Å (= 0.54 nm) wide. Each amino acid corresponds to a 100° turn in the helix (i.e., the helix has 3.6 residues per turn), and a translation of 1.5 Å (= 0.15 nm) along the helical axis. Most importantly, the N-H group of an amino acid forms a hydrogen bond with the C=O group of the amino acid four residues earlier; this repeated hydrogen bonding defines an α-helix. Similar structures include the 310 helix and the π-helix . These alternative helices are relatively rare, although the 310 helix is often found at the ends of α-helices, "closing" them off.
The β- sheet
The β sheet (also β-pleated sheet) is the second form of regular secondary structure in proteins consisting of beta strands connected laterally by three or more hydrogen bonds , side – chains project alternately up or down and amphipathicity if sovent exposed:hydrophilic residues on one face ,hydrophobic ones on the other. A beta strand (also β-strand) is a stretch of amino acids typically 5–10 amino acids long whose peptide backbones are almost fully extended. The association of beta sheets has been implicated in the formation of protein aggregates and fibrils observed in many human diseases, notably the amyloidoses.
Parallel, Antiparallel and Mixed Beta-Sheets.
In parallel beta-sheets the strands all run in one direction, whereas in antiparallel sheets they all run in opposite directions. In mixed sheets some strands are parallel and others are antiparallel.


















Lecture 3

Level of protein structure : 3

Tertiary

เป็นการรวมกันของ โครงสร้างขั้นที่2ของโครงสร้างโปรตีน เรียกว่าเกิดการ "Fold"หรือ "Domain"

ซึ่งสามารถทำนายโครงสร้างได้

แรงที่ทำให้เกิดการคงรูปของโครงสร้างเกิดจาก Hydrogen bonds

การเกิดโครงสร้างนี้เกิดจากการที่มี amino acid ที่ชอบน้ำ (hydrophilic) และไม่ชอบน้ำ(hydrophobic)

มาอยู่รวมกันโดยการเอากลุ่มที่ไม่ชอบน้ำไว้ด้านในและน้ำกลุ่มที่ชอบน้ำออกมาด้านนอกเพื่อให้มีคุณสมบัติละลายน้ำได้

ซึ่งจะไม่สามารถใช้ได้ในโปรตีนสายสั้นๆ(<>
ในกรณีนี้จะใช้การเกิด disulfide bridges และ การทำปฏิกิริยากับโลหะแทน


Level of protein structure : 4

Quaternary

เกิดจากการรวมกันของสายโปรตีนทั้งแบบ homomeric และ heteromeric

มักพบในโปรตีนที่มีหน้าที่เช่น เอนไซม์ และไม่สามรถทำนายโครงสร้างล่วงหน้าได้


Structural class

สามารถแบ่งโครงสร้างของโปรตีนได้เป็น 4 รูปแบบคือ

1.All alpha (helical)

ประกอบด้วยส่วนของ alpha-helix ทั้งหมด

2.All-beta (sheet)

ประกอบด้วยส่วนของ beta-sheet ทั้งหมด

3.Alpha-beta (parallel beta-sheet)

มีทั้ง สายalpha และbeta-sheet ไปในทางเดียวกัน

4.Alpha+beta ( antiparallel beta-sheet)

สาย alpha และbeta สวนทางกัน


Domain

คือหน่วยย่อยที่ประกอบขึ้นเป็นโครงสร้างโปรตีนที่เกียวข้องกับการทำหน้าที่ของโปรตีนนั้นๆ

ซึ่งสามารถเปรียบได้กับ Lego piece แต่ละชิ้นที่ใช้ประกอบใน Lego set

มักจะมีเพียง1-2 สายของโปรตีน



Protein architectures

รูปร่างหรือการเชื่อมกันของแต่ละDomain สามารถแบ่งออกได้เป็น 2 แบบคือ

1.Bead-on-a-string : sequential location

ลักษณะเหมือนลูกปัดร้อยอยู่บนเส้นเอนต่อกัน พบใน immunoglobulin,EGF,

fibronectin type-3,protein kinase,LDH

2.Domain insertions:"plugged-in"

เกิดจากการที่ domainที่1 ถูกแทรกด้วย domainที่2 ทำให้เกิดเป็น domain 3 ส่วน


ตัวอย่างเช่น

L-lactate dehydrogenase (LDH)

มี 2 Domain คือ

1.Rossman-fold เป็ที่จับของ cofactor

2.substrate-binding ซึ่งเป็นที่จับของ substrate,cofactor,inhibitor


เมื่อเปรียบเทียบเอนไซม์ 2 ชนิดคือ LDH และ MDH จะพบว่า

มี หน้าที่และคุณสมบัติทางเคมีเหมือนกัน และมี identity 18%

แต่จะพบว่ามีการจับกับสารตั้งต้นต่างกัน ซึ่งเมื่อดูจากโครงสร้างจะพบว่ามีส่วนที่เรียกว่า

Mobile loop จะเคลื่อนที่เมื่อมีการจับกันของทั้ง substrate,cofactor,inhibitor

เราสามารถพบส่วนนี้ได้จากการทดลองโดยการ เปลี่ยนแปลงการใส่substrate,cofactor,inhibitor


จะพบว่ามีโครงสร้างโปรตีนที่เหมือนกันในแต่ละชนิดของโปรตีนเช่น hemoglobin และ erythrocrurin

มี sequence identity 31% และมี function,structure similarity เราเรียกรูปแบบนี้ว่า

Homologous folds

ส่วนโปรตีนที่มี structure similarity แต่มี sequence identity และ function ต่างกันเช่น

hemoglobin และ phycocyanin ที่มี sequence identity 9% เราเรียกว่า

Analogous folds


สรุป

เมื่เปรียบเทียบโครงสร้างของโปรตีนจะพบว่า

1.มีรูปแบบของโครงสร้างแบบเรขาคณิตเช่น helix,beta-sheeet

2.ในรูปแบบของ homologous sequences มีความคล้ายกันของโครงสร้าง

แต่จะมีความแกตต่างออกไปในส่วนของ non-conserved regions ซึ่งพบจากการเปรียบเทียบระหว่าง

structure aliment กับ sequence aliment

3.ในรูปแบบของ analogous จะพบว่าในโครงสร้างใดๆสามารถมี sequence ได้หลายรูปแบบ

4.จากการศึกษาเรื่อง mutation จะพบว่ามีส่วนของ active site ที่มีลักษณะคงเดิม( conserve)

แม้ว่าจะมีโครงสร้างอื่นๆเปลี่ยนแปลงไป

5.จากการศึกษาโครงสร้างของโปรตีนทำให้เราพบ structural models ที่ใช้ในการหาโปรตีนใหม่ๆ

ได้โดยการเปลี่ยนแปลงลำดับเบสแต่ไม่เปลี่ยนแปลงรูปร่างเดิม

6.สามารถนำไปใช้ในการศึกษาอื่นๆ เช่น

- protein engineering

- ligand/drug design

- function assignment for genomic data

Saturday, September 27, 2008

Reference and related links

http://matcmadison.edu/biotech/resources/proteins/labManual/chapter_2.htm







http://www.langara.bc.ca/biology/mario/Biol1115notes/biol1115chap5.html







http://www.johnkyrk.com/aminoacid.html




Stryer,Lubert (1995) Biochemistry 4th ed.

Protein properties

Conjugated Proteins
Some proteins combine with other kinds of molecules such as carbohydrates, lipids, iron and other metals, or nucleic acids, to form glycoproteins, lipoproteins, hemoproteins, metalloproteins, and nucleoproteins respectively. The presence of these other biomolecules affects the protein properties. For example, a protein that is conjugated to carbohydrate, called a glycoprotein, would be more hydrophilic in character while a protein conjugated to a lipid would be more hydrophobic in character.


Protein Properties and Separation
Proteins are typically characterized by their size (molecular weight) and shape, amino acid composition and sequence, isolelectric point (pI), hydrophobicity, and biological affinity. Differences in these properties can be used as the basis for separation methods in a purification strategy (Chapter 4). The chemical composition of the unique R groups is responsible for the important characteristics of amino acids, chemical reactivity, ionic charge and relative hydrophobicity. Therefore protein properties relate back to number and type of amino acids that make up the protein.


Size:
Size of proteins is usually measured in molecular weight (mass) although occasionally the length or diameter of a protein is given in Angstroms. The molecular weight of a protein is the mass of one mole of protein, usually measured in units called daltons. One dalton is the atomic mass of one proton or neutron. The molecular weight can be estimated by a number of different methods including electrophoresis, gel filtration, and more recently by mass spectrometry. The molecular weight of proteins varies over a wide range. For example, insulin is 5,700 daltons while snail hemocyanin is 6,700,000 daltons. The average molecular weight of a protein is between 40,000 to 50,000 daltons. Molecular weights are commonly reported in kilodaltons or (kD), a unit of mass equal to 1000 daltons. Most proteins have a mass between 10 and 100 kD. A small protein consists of about 50 amino acids while larger proteins may contain 3,000 amino acids or more. One of the larger amino acid chains is myosin, found in muscles, which has 1,750 amino acids.
Separation methods that are based on size and shape include gel filtration chromatography (size exclusion chromatography) and polyacrylamide gel electrophoresis.
Amino Acid Composition and Sequence
The amino acid composition is the percentage of the constituent amino acids in a particular protein while the sequence is the order in which the amino acids are arranged.


Charge:
Each protein has an amino group at one end and a carboxyl group at the other end as well as numerous amino acid side chains, some of which are charged. Therefore each protein carries a net charge. The net protein charge is strongly influenced by the pH of the solution. To explain this phenomenon, consider the hypothetical protein in Figure 2.5. At pH 6.8, this protein has an equal number of positive and negative charges and so there is no net charge on the protein. As the pH drops, more H+ ions are available in the solution. These hydrogen ions bind to negative sites on the amino acids. Therefore, as the pH drops, the protein as a whole becomes positively charged. Conversely, at a basic pH, the protein becomes negatively charged. pH 6.8 is called the pI, or isoelectric point, for this protein; that is, the pH at which there are an equal number of positive and negative charges. Different proteins have different numbers of each of the amino acid side chains and therefore have different isoelectric points. So, in a buffer solution at a particular pH, some proteins will be positively charged, some proteins will be negatively charged and some will have no charge.


Separation techniques that are based on charge include ion exchange chromatography, isoelectric focusing and chromatofocusing.



Figure 2.5. The pI is the pH at which there is no net charge on the protein. At lower pH readings, there are more positive charges in the environment and therefore, the protein has an increased cationic character. The reverse is true at pH readings above the pI.


Hydrophobicity:
Literally, hydrophobic means fear of water. In aqueous solutions, proteins tend to fold so that areas of the protein with hydrophobic regions are located in internal surfaces next to each other and away from the polar water molecules of the solution. Polar groups on the amino acid are called hydrophilic (water loving) because they will form hydrogen bonds with water molecules. The number, type and distribution of nonpolar amino acid residues within the protein determines its hydrophobic character. (Chart of hydrophobicity or hydropathy)
A separation method that is based on the hydrophobic character of proteins is hydrophobic interaction chromatography.


Solubility:
As the name implies, solubility is the amount of a solute that can be dissolved in a solvent. The 3-D structure of a protein affects its solubility properties. Cytoplasmic proteins have mostly hydrophilic (polar) amino acids on their surface and are therefore water soluble, with more hydrophobic groups located on the interior of the protein, sheltered from the aqueous environment. In contrast, proteins that reside in the lipid environment of the cell membrane have mostly hydrophobic amino acids (non polar) on their exterior surface and are not readily soluble in aqueous solutions.
Each protein has a distinct and characteristic solubility in a defined environment and any changes to those conditions (buffer or solvent type, pH, ionic strength, temperature, etc.) can cause proteins to lose the property of solubility and precipitate out of solution. The environment can be manipulated to bring about a separation of proteins- for example, the ionic strength of the solution can be increased or decreased, which will change the solubility of some proteins.




Figure 2.6: Ionic Strength and Protein Folding. This figure shows the effect of ion concentration on protein folding.


Biological Affinity (Function):
Proteins often interact with other molecules in vivo in a specific way- in other words, they have a biological affinity for that molecule. These molecular counterparts, termed ligands, can be used as “bait” to “fish” out the target protein that you want to purify. For example, one such molecular pair is insulin and the insulin receptor. If you want to purify (or catch) the insulin receptor, you could couple many insulin molecules to a solid support and then run an extract (containing the receptor) over that column. The receptor would be “caught” by the insulin bait. These specific interactions are often exploited in protein purification procedures. Affinity chromatography is a very common method for purifying recombinant proteins (proteins produced by genetic engineering). Several histidine residues can be engineered at the end of a polypeptide chain. Since repeated histidines have an affinity for metals, a column of the metal can be used as bait to “catch” the recombinant protein.

20 amino acids


The 20 amino acids ,grouped accroding to the character of their side chain or R group

Levels of protein structure2

Tertiary structure
Overall 3-D shape of protein
Result from irregular contortions from bonding between side chains (R-groups) of various amino acids.
Hydrophobic interactions are a strong determinant in protein folding (a.a. with hydrophobic R-groups congregate at core of protein)
H-bonds, ionic interactions, and disulfide bridges of side chains also involved in stabilizing the tertiary structure.



Quaternary structure
Some proteins consist of two or more polypeptide chains.
Quaternary structure is the overall protein structure that results from the aggregation of these polypeptide units
e.g. collagen = triple helix (3 subunits)
e.g hemoglobin = 2 alpha and 2 beta subunits
In addition to primary structure, protein conformation is also dependent on protein's environment (e.g. changes in temp, pH, of salt concentration can lead to protein denaturation ( unfolding of protein with resultant loss of function) (Fig 5.23)
We still can not fully predict the 3-D conformation by knowledge of primary sequence only. Too complex.



Levels of protein structure

When cells make a polypeptide, the chain folds spontaneously (i.e. associated with an increase in entropy) to assume the functional conformation of that protein. 4 superimposed levels of structure










Primary structure

- Order of amino acids along a chain
- Primary structure of protein is determined by the sequence of codons in DNA.
- Determines other structural levels
- Single changes in amino acid sequence may have profound impact on protein function(e.g.Sickle-cell anemia)
- Insulin was first protein to be sequenced by Sanger in the late 1940's
- Axiom: "each polypeptide has a specific primary sequence"

Secondary structure
local coils and folds resulting from H-bonds at regular intervals of polypeptide backbone (i.e. R-group not involved in H-bonding).
alpha helix: coil held together by H-bonding between every 4 a.a.



pleated sheet: chain folds back in parallel or antiparallel orientation, and H-bonds between parallel regions hold structure together.

Amino acids

Amino acids are the basic structure units of proteins. An alpha-amino acids consists of an amino group,a carboxyl group,a hydrogen atom, and a distinctive R group, all of which are bond to an alpha carbon atom. This carbon atom is named alpha because it is adjacent to the carboxyl( acidic) group.An R group is referred to as a side chain for reason that will be evident shortly.

Amino acids consist of an asymmetric carbon bonded to 4 different covalent partners:




Different amino acids differ in their R-group.
R-group determines physical and chemical characteristics of a particular amino acid. R-groups can be nonpolar, polar, or electrically charged (i.e. ionic).
Amino acids can be covalently linked through condensation reactions to form polymers. This covalent linkage is called a peptide bond.



All polypeptide chains have a polarity: N-terminus and carboxy-terminus.
Polypeptides have common backbone of -N-C-C-N-C-C-N-C-C-(N-C-C)n-
Polypeptides range in size from a few to 1000's of monomers.
Unlimited number of polypeptides can be made by varying the number and the order of amino acids in the chain.
Protein function depends on its 3 dimensional shape (i.e. its conformation).
the sequence of amino acids along a polypeptide chain determines the conformation of the protein.
correct 3-D folding of polypeptide determines the function of a protein. This is because often protein function depends on recognition and binding of other molecules (binding like a lock and key)

Friday, September 19, 2008

Introduction

Protein....


Derived from the Greek word proteios , which means "of the first rank "
A word coined by Jons J.Berzelius in 1838 to emphasize the importance of this class of molecules .

Function of protein

1. enzymatic catalysis

2.Transport and storage

3.Coordinated motion

4.Mecanical support

5.Immune protection

6.Generation and transmittion of nerve impulses

7.Control of growth and differentiation


Protein are built from......