åǥ

[GT] 단백질 디자인에 인공지능이 사용되다

‘네이처 컴퓨테이셔널 사이언스(Nature Computational Science)’ 저널은 최근 토론토 대학에서 인공지능 시스템을 사용하여 자연에서 발견되지 않는 단백질을 생성하는 연구 결과를 발표했다.



[Global Technology Breifings]

단백질 디자인에 인공지능이 사용되다

By Jin Sub Lee, NATURE COMPUTATIONAL SCIENCE, May 4, 2023

인공지능은 소비자 중심 및 일상적인 비즈니스 애플리케이션을 자동화하는 데 상당한 영향을 미치겠지만, 복잡성으로 인해 인간이 발전할 수 없는 영역에서 가장 큰 기여를 할 것이다.

이것이 바로 단백질 디자인에 인공지능을 사용하는 것과 관련된 새로운 결과가 매우 흥미로운 이유이다.

‘네이처 컴퓨테이셔널 사이언스(Nature Computational Science)’ 저널은 최근 토론토 대학에서 인공지능 시스템을 사용하여 자연에서 발견되지 않는 단백질을 생성하는 연구 결과를 발표했다.

이 인공지능 시스템은 그림 인공지능 소프트웨어 달리(DALL-E)와 미드저니(Midjourney)와 같은 인기 있는 이미지 생성 플랫폼과 동일한 기술인 생성 확산을 사용한다.

이 시스템은 완전히 새로운 치료용 단백질을 보다 효율적이고 유연하게 개발하는 속도를 높일 것을 예고하고 있다.

즉, 이 모델은 이미지 표현을 시작으로 매우 빠른 속도로 ‘완전히 새로운’ 단백질을 생성하는 방법을 학습한다.

그리고 이렇게 생성하는 모든 단백질은 생물 물리학적으로 실제적인 것처럼 보인다. 즉, 세포 내에서 특정 기능을 수행할 수 있는 구성으로 접혀 있다(folding)는 의미이다.

단백질은 3차원 모양으로 접히는 아미노산 사슬로 만들어지며, 이는 다시 단백질 기능을 결정한다.

기존 단백질이 어떻게 접히는지 더 잘 이해하면서 연구자들은 자연에서는 생성되지 않는 접힘 패턴을 설계하기 시작했다.

그러나 가장 큰 도전은 가능하고 기능적인 접힘을 상상하는 것이었다. 어떤 접힘이 실제 단백질 구조에서 작동하는지 예측하는 것은 매우 어렵다.

하지만 연구자들은 단백질 구조의 생물 물리학 기반 표현과 이미지 생성 공간의 확산 방법을 결합함으로써 이 문제를 해결하기 시작했다.

연구자들이 프로테인SGM(ProteinSGM)으로 부르는 새로운 시스템은 기존 단백질의 이미지와 유사한 표현을 대량으로 끌어와서, 그 구조를 정확하게 인코딩한다.

연구자들은 이러한 이미지를 생성 확산 모델에 입력하여 각 이미지가 모두 노이즈가 될 때까지 점차적으로 노이즈를 추가한다.

이 모델은 이미지에 노이즈가 어떻게 증가하는지 추적한 후, 프로세스를 역으로 실행하여 무작위 픽셀을 완전히 새로운 단백질에 해당하는 선명한 이미지로 변환하는 방법을 학습한다.

새로운 단백질을 테스트하기 위해 연구자들은 먼저 딥마인드(DeepMind) 소프트웨어 알파폴드 2의 개선된 버전인 오메가폴드(OmegaFold)를 선택했다.

두 플랫폼 모두 인공지능을 활용하여 아미노산 서열을 기반으로 단백질 구조를 예측한다.

오메가폴드를 통해 연구자들은 거의 모든 새로운 서열들이 그들이 원하는 단백질 구조로 접히는 것을 확인했다.

이후 연구자들은 시험관 시험을 통해, 그 구조가 단순한 화학 화합물의 끈이 아닌 단백질임을 확인했다.

오메가폴드와의 매칭과 실험실에서의 실험 테스트를 통해 연구자들은 이들이 적절하게 접힌 단백질임을 확신할 수 있었다.

이들은 자연 어디에도 존재하지 않는 완전히 새로운 단백질 접힘이 확인되는 것을 보고 놀랄 수밖에 없었다.

이 연구를 기반으로, 다음 단계는 치료 가능성이 가장 높은 항체 및 기타 단백질에 대한 개발이다. 이 연구와 그 결과는 연구자들 뿐만 아니라 관계자, 관계기업 등에도 매우 흥미로운 것이 될 것이다.

- NATURE COMPUTATIONAL SCIENCE, May 4, 2023, “Score-Based Generative Modeling for De Novo Protein Design,” by Jin Sub Lee, et al. © 2023 Springer Nature Limited. All rights reserved.

To view or purchase this article, please visit: 
https://www.nature.com/articles/s43588023-00440-3

[Global Technology Breifings]


Score-Based Generative Modeling for De Novo Protein Design


By Jin Sub Lee, NATURE COMPUTATIONAL SCIENCE, May 4, 2023


While artificial intelligence will make a substantial impact in automating consumer oriented and everyday business applications, its greatest contribution will be in areas where humans are unable to make progress because of complexity.


That’s why new results related to using AI in protein design are so exciting.


The journal Nature Computational Science just published the results of research at the University of Toronto into using an artificial intelligence system to create proteins not found in nature.


This AI system uses generative diffusion, the same technology behind popular image-creation platforms such as DALL-E and Midjourney.


The system promises to speed drug developtirely new therapeutic proteins more efficient and flexible. The model learns to generate “fully new” proteins, at a very high rate, starting from image representations.


And all the proteins it generates appear to be biophysically real, meaning they fold into configurations that enable them to carry out specific functions within cells.


Proteins are made from chains of amino acids that fold into three-dimensional shapes, which in turn dictate protein function.


With a better understanding of how existing proteins fold, researchers have begun to design folding patterns not produced in nature.


But a major challenge has been to imagine folds that are both possible and functional. It’s been very hard to predict which folds will be real and work in a protein structure.


By combining biophysics-based representations of protein structure with diffusion methods from the image generation space, the researchers have begun to address this problem.


The new system, which the researchers call ProteinSGM, draws from a large set of image-like representations of existing proteins that encode their structure accurately.


The researchers feed these images into a generative diffusion model, which gradually adds noise until each image becomes all noise.


The model tracks how the images become noisier and then runs the process in reverse, learning how to transform random pixels into clear images that correspond to fully novel proteins.


To test their new proteins, the researchers first turned to OmegaFold, an improved version of DeepMind’s software AlphaFold 2.


Both platforms use AI to predict the structure of proteins based on amino acid sequences.


With OmegaFold, the team confirmed that almost all their novel sequences fold into the desired protein structures.


They then chose a smaller number to create physically in test tubes, to confirm the structures were proteins and not just stray strings of chemical compounds.


With matches in OmegaFold and experimental testing in the lab, they could be confident these were properly folded proteins.


They were amazed to see validation of these fully new protein folds that don’t exist anywhere in nature.


Next steps based on this work include further development of ProteinSGM for antibodies and other proteins with the most therapeutic potential.


This will be a very exciting area for research and entrepreneurship.


NATURE COMPUTATIONAL SCIENCE, May 4, 2023, “Score-Based Generative Modeling for De Novo Protein Design,” by Jin Sub Lee, et al. © 2023 Springer Nature Limited. All rights reserved.

To view or purchase this article, please visit: 
https://www.nature.com/articles/s43588023-00440-3