当前位置 - 무료 법률 상담 플랫폼 - 온라인 법률 자문 - 전체 게놈 시퀀싱의 전생

전체 게놈 시퀀싱의 전생

게놈은 유전자 연구의 출발점을 나타냅니다. DNA 구조를 발견한 이래로 과학자들은 정확한 방식으로 염기서열을 결정하기 위해 노력해 왔다. 1965 첫 번째 효모 조각 시퀀싱 이후 시퀀싱의 읽기 길이는 여전히 대부분의 종의 전체 게놈 크기를 충당하기에 충분하지 않기 때문에 게놈 조립 기술은 지속적인 개발의 핵심 기술이었습니다. 이 문서에서는 전체 게놈 시퀀싱과 관련된 중요한 기술 및 주요 이정표와 현재 3 세대 시퀀싱 기술의 장점과 과제를 체계적으로 검토합니다.

다음 그림은 게놈 조립의 중요한 이정표를 보여줍니다. 각기 다른 색 배경은 최초의 뉴클레오티드 기반 초기 서열에서 산그 기반 새총법 시퀀싱, 대규모 2 세대 NGS 시퀀싱, 현재의 3 세대 TGS 시퀀싱의 주요 조립 결과를 보여줍니다. 13 년 (1990-2003), 30 억 달러를 투자한 HGP (인간 게놈 프로젝트) 는 분명 게놈 조립 과정을 가속화할 것이다. NGS 는 전현자 시퀀싱, RNA-seq, ChIp-seq, WGBS-seq 등을 포함한 일련의 참신한 앱을 만들어 게놈 시퀀싱의 응용을 크게 촉진시켰다. 20 10 년 후, 새로운 기술은 3 세대 시퀀싱 TGS 시대를 열었습니다. 긴 독서 긴 시퀀싱은 게놈 조립의 장점을 크게 증가시키고 게놈 조립의 연속성을 크게 높였습니다.

TGS 의 정의는 다를 수 있으며, 일반적으로 증폭없이 단일 DNA 분자를 직접 서열화하는 기술을 가리킨다. 이러한 기술은 NGS 보다 더 긴 읽기를 생성하며 각 읽기는 몇 kbps 에서 수백 kbps 까지 퍼질 수 있습니다. NGS 기술 (예: 10X 게놈학 체인 읽기 및 Hi-C) 은 게놈 조립의 연속성을 높일 수 있지만 TGS 의 출현으로 조립의 연속성이 더욱 쉬워집니다.

현재 널리 사용되고 있는 시퀀싱 기술은 태평양 생물과학회사 (PaciBio) 가 보완하고 상용화하는 SMRT (단일 분자 실시간 시퀀싱 기술) 와 옥스퍼드 나노홀 기술회사 (ONT) 가 상용화하는 나노 구멍 시퀀싱 기술입니다. SMRT 시퀀싱 기술은 합성 시퀀싱의 원리를 적용합니다. SMRT 칩을 시퀀싱 캐리어로 사용하여 수백만 개의 나노 스케일 제로 모드 도파관 구멍 (ZMW) 이 캐리어에 분포되어 있습니다. 각 ZMW 의 중합 효소 캡처 라이브러리의 DNA 서열, dNTP 는 형광에 의해 자극되어 캡처된 형광 신호의 길이에 따라 가장자리 합성 가장자리 시퀀싱을 수행합니다. 현재 SMRT 시퀀싱에는 CLR (연속 긴 읽기) 모드와 CCS (순환 공통 시퀀스) 모드의 두 가지 모드가 있습니다. CLR 의 읽기 길이는 더 길지만 염기서열의 오류율은 더 높지만 (90% 정확도는 NGS (99.9%) 보다 훨씬 낮지만, 염기서열 오류는 완전히 무작위적이다. CCS 모드는 이 기능을 활용하여 자체 조정을 통해 타이밍 오류율을 NGS 수준으로 낮추는 반면 CLR 은 타이밍 읽기 길이를 희생합니다.

나노 구멍 시퀀싱은 인공 지질 이중층에 삽입된 유전자 변형 세균 나노 구멍을 사용합니다. 이 나노 구멍은 폭이 수십 미크론인 단일 마이크로구멍에 배치되어 센서 칩에 배열됩니다. 각 단일 체인 DNA 가 채널을 통과할 때, 반도체 센서에 의해 측정되는 구멍을 통해 흐르는 전류를 방해합니다. 염기에 따라 전기장을 파괴하는 방식이 약간 다르며, 기록된 전류 변화는 DNA 서열로 변환될 수 있다. ONT 가 읽을 수 있는 길이는 준비한 DNA 문고의 크기에 따라 더 길지만, 그 염기의 정확도는 교정하기 어렵고, 염기서열 오류율도 높다.

3 세대 시퀀싱 기술은 긴 읽기 길이로 인해 게놈의 복잡한 영역을 효과적으로 뛰어넘어 게놈 조립의 질을 크게 향상시킬 수 있다. 또한 이배체 (배수체) 게놈에서 TGS 는 부모의 유전 정보를 구분하고, 테셀레이트 게놈을 피하고, 높은 반복 영역에서 긴 변이, 큰 삽입 누락, 반복, 역위 및 전좌를 포함한 구조적 변형 (SV) 을 정확하게 감지하는 데 도움이 됩니다. 동시에, 3 세대 시퀀싱은 PacBio 의 효소 동력학 반응이나 나노 구멍의 이온 전류 신호를 통해 표관 유전 시퀀싱을 실현할 수 있다.

FALCON 은 PacBio 가 직접 개발한 3 세대 데이터 기반 ab initial assembly 소프트웨어로 20 13 에 발표되었습니다. HGAP (hierarchical genome assembly) 과정을 이어받습니다. 먼저 시퀀스 자체를 비교하여 3 세대 시퀀싱의 판독 정확도를 수정한 다음 다음 다음 그림과 같이 DBG (Debrukingtu) 를 사용하여 겹치는 그룹을 구성합니다. FALCON 은 이배체 시퀀스를 인식하고 위치 변이 정보가 포함된 대립 유전자 서열 (대체 겹침 그룹 /a- 겹침 그룹) 및 주요 게놈 시퀀스 (기본 겹침 그룹 /p- 겹침 그룹) 를 출력할 수 있습니다. FALCON-Unzip 은 FALCON 의 업그레이드 버전으로 초기 어셈블리에서 식별된 하이브리드 SNP 를 사용하여 고도로 분할된 단일 배형을 획득한 다음 Hi-C 데이터를 사용하여 어셈블리를 그리고 haplotigs 및 * * * 시퀀스를 사용하여 두 개의 단일 배형을 완전히 어셈블할 수 있습니다.

Canu 는 Celera Assember 의 3 세대 조립 소프트웨어로 PacBio 와 Nanopore 가 얻은 시퀀싱 결과에 사용할 수 있습니다. 그것은 OLC (overlap-layout-consistency) 방식으로 어셈블됩니다. 즉, 긴 시퀀스 사이의 겹침을 이용하여 주로 오류 수정, 가지 치기 및 조립의 세 단계로 나뉩니다. FALCON 의 경우, 조립 전 오류 수정은 짧은 읽기 길이에 비해 크게 향상되었지만, 조립 후 단배형은 여전히 테셀레이트되어 있으며, 반복 시퀀스는 종종 하나의 시퀀스로 접힙니다. 이 문제를 해결하기 위해 20 18 에 발표된 새로운 버전의 소프트웨어인 TrioCanu 는 친본 정보를 최대한 활용하여 단일 단계를 수행할 수 있습니다. 그것은 친본의 2 세대 illumina 데이터를 이용하여 조립하기 전에 다른 SNPs 에 따라 조립 샘플의 순서를 분류한 다음 친본에서 독립적으로 두 세트의 단일형을 조립하기 때문에 TrioCanu 는 특히 고잡성 게놈 조립에 적합하다.

Canu 의 계산 속도가 매우 느립니다. HiFiasm 은 최근 2 년 동안 개발된 PacBio HiFi reads 를 위한 빠른 단량체 분석으로 처음부터 소프트웨어를 조립하고 있습니다. 한 시스템에서 멀티 스레딩하여 적은 자원 소비로 게놈 조립을 빠르게 완료하는 동시에 주어진 친본 데이터를 이용하여 서로 다른 친본 자손의 단체 조립을 실현할 수 있다. 그러나 단량체 타이핑의 정확도는 TrioCanu 보다 약간 떨어진다.

표준횡단 결과의 정확성과 계산 작업의 최적화는 모두 표준횡단이 고려해야 할 측면입니다. Wtdbg2, Flye, Peregrine, Shasta 등 0 부터 조립되는 다양한 소프트웨어가 개발되었습니다. , 비교적 빠르지만 조립 품질이 그렇게 정확하지 않을 수 있습니다. 모든 게놈 조립 방법과 소프트웨어에는 장단점이 있다. 실제 응용에서는 실제 조립 종, 정렬 전략 및 조립 목표를 고려하여 정확하고 우수한 조립 소프트웨어를 선택할 수 있습니다.

대형 게놈의 경우, 긴 읽기도 전체 염색체 서열을 넘을 수 없고, 다른 연쇄정보가 조립된 겹친 집단을 찾아 서열을 정해 게놈 조립을 Scanfold 수준으로 끌어올려야 한다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 게놈명언) 바이오 나노 광학 지도는 단일 분자 DNA 기술이다. 이 방법은 DNA 마커를 기반으로 유전 광학지도를 생성한 다음 초기 조립된 겹치는 그룹과 결합하여 겹치는 그룹을 추가로 정결하고 서열화하여 더 긴 받침대를 만들 수 있습니다. 또한 Bionano 스펙트럼은 SV 및 메틸화 분석에도 사용할 수 있습니다.

겹치는 그룹을 정위하고 정렬하는 또 다른 기술은 염색체 구조 캡처 (3C) (Hi-C) 를 기반으로 합니다. Hi-C 기술은 먼저 포름알데히드로 염색체의 공간형태를 고정한 다음 제한적인 내체효소로 DNA 를 처리하고 공간에 인접한 DNA 분자를 다시 연결합니다. 이 기술은 게놈의 공간 정보를 이용하여 겹치는 그룹과 스탠드를 결합하여 염색체 수준에 분포한다. Hi-C 는 현재 큰 게놈에서 염색체 수준 스텐트를 실현할 수 있는 유일한 방법이지만, 흔히 Bionano 스탠드만큼 보수적이지 않다. 염색질의 예측할 수 없는 접기로 인해 염색체의 원거리 상호 작용이 발생하여 인공 역위, 같은 염색체의 지지대가 어긋나거나 다른 염색체의 지지대가 잘못 배합되는 등의 조립 오류가 발생할 수 있습니다. 서로 다른 기술을 종합적으로 활용하면 이러한 오류를 더 잘 수정할 수 있으며, 심지어 염색체 전체의 텔로미어 대 텔로메레까지 조립할 수 있다.

게놈 조립 방식은 끊임없이 혁신하고 최적화해 왔다. 기존 기술을 지속적으로 개선하고 새로운 DNA 시퀀싱 방법 및 생물 정보학 도구를 도입하여 조립 품질을 지속적으로 향상시키고 있습니다. NGS 가 도입한 고통능력과 TGS 가 제공하는 더 높은 품질의 서열은 결국 복잡한 게놈을 전체 게놈 연구에 사용할 수 있게 했다. 집단 유전체학, 유전병 위치 및 진단, 개인화된 의료 계획, 암 연구, 산전 검사를 포함한 인간 유전학 연구는 지난 10 년간 게놈 시퀀싱 및 조립의 진전으로부터 유익을 얻었습니다. 마찬가지로, 이러한 방법들은 생태와 진화 과정을 이해하기 위해 비모계 생물에 점점 더 많이 사용되고 있다. 참조 게놈 시퀀싱 및 조립에 대한 약속은 단일 종 프로젝트에서 다종 조정으로 확장되었으며, NGS 와 TGS 방법을 결합하여 대부분의 생물에 고품질의 게놈을 생산하는 프로젝트가 현재 진행 중이다.

"게놈학의 긴 길: 게놈 시퀀싱과 조립의 역사와 현재 방법." 컴퓨터 구조 생명기술지 20 19 년 1 1 월 17 일 18: 9-19.doi:10.1016 Pmid: 31890139; PMCID: PMC6926 122.