Nhiều nỗ lực đã được thực hiện nhằm khai thác sức mạnh của trí tuệ nhân tạo (AI) và các mô hình ngôn ngữ lớn (LLM) để dự đoán kết quả của những phản ứng hóa học mới. Tuy nhiên, thành công còn hạn chế, phần lớn vì các mô hình này chưa được gắn chặt với những nguyên tắc vật lý nền tảng như định luật bảo toàn khối lượng.
Giờ đây, một nhóm nghiên cứu tại MIT đã tìm ra cách kết hợp các ràng buộc vật lý vào mô hình dự đoán phản ứng, từ đó cải thiện đáng kể độ chính xác và độ tin cậy của kết quả.

Công trình này được công bố ngày 20/8 trên tạp chí Nature, do Joonyoung Joung (hiện là Trợ lý giáo sư tại Đại học Kookmin, Hàn Quốc), cựu kỹ sư phần mềm Mun Hong Fong (nay tại Đại học Duke), nghiên cứu sinh kỹ thuật hóa học Nicholas Casetti, nghiên cứu sau tiến sĩ Jordan Liles, sinh viên vật lý Ne Dassanayake và tác giả chính Connor Coley - Giáo sư phát triển sự nghiệp lớp 1957 tại Khoa Kỹ thuật Hóa học và Khoa Khoa học & Kỹ thuật Điện - đồng tác giả.
Vì sao việc dự đoán phản ứng quan trọng?
“Dự đoán kết quả phản ứng là một nhiệm vụ rất quan trọng,” Joung giải thích. Chẳng hạn, nếu muốn tạo ra một loại thuốc mới, “bạn cần biết cách tổng hợp nó. Điều này đòi hỏi phải xác định được sản phẩm nào có khả năng xuất hiện” từ tập hợp chất đầu vào.
Những nỗ lực trước đây thường chỉ nhìn vào dữ liệu đầu vào và đầu ra, mà bỏ qua các bước trung gian cũng như các ràng buộc vật lý như việc không thể tự nhiên tạo thêm hay mất đi khối lượng.
Joung chỉ ra rằng, mặc dù các LLM như ChatGPT đã đạt được nhiều thành công trong nghiên cứu, chúng không có cơ chế để đảm bảo kết quả tuân theo các quy luật vật lý. “Nếu không bảo toàn các ‘token’ (tương ứng với nguyên tử), mô hình LLM sẽ tự ý tạo ra hoặc xóa bỏ nguyên tử trong phản ứng,” ông nói. “Điều này giống giả kim thuật hơn là khoa học.”
Giải pháp FlowER: Dựa trên nền tảng cũ, áp dụng cho công nghệ mới
Để khắc phục, nhóm nghiên cứu sử dụng một phương pháp từ thập niên 1970 của nhà hóa học Ivar Ugi – ma trận liên kết điện tử (bond-electron matrix) - nhằm biểu diễn electron trong phản ứng.
Dựa trên đó, họ phát triển chương trình FlowER (Flow matching for Electron Redistribution), cho phép theo dõi chi tiết sự dịch chuyển của các electron, đảm bảo không có electron nào bị thêm hoặc mất một cách giả tạo.
Ma trận này dùng giá trị khác 0 để biểu diễn liên kết hoặc cặp electron tự do, và 0 cho trường hợp ngược lại. “Điều này giúp chúng tôi bảo toàn cả nguyên tử lẫn electron,” Fong giải thích. Đây là yếu tố then chốt để đưa tính bảo toàn khối lượng vào mô hình.
Bằng chứng ban đầu nhưng đầy hứa hẹn
Theo Coley, hệ thống hiện tại mới chỉ là minh chứng - một bằng chứng khái niệm cho thấy phương pháp “flow matching” rất phù hợp để dự đoán phản ứng hóa học.
Mặc dù được huấn luyện với dữ liệu từ hơn một triệu phản ứng hóa học (thu thập từ Cơ quan Sáng chế Mỹ), cơ sở dữ liệu này vẫn thiếu các phản ứng có kim loại và phản ứng xúc tác.
“Chúng tôi rất phấn khích vì hệ thống có thể đưa ra dự đoán đáng tin cậy về cơ chế phản ứng,” Coley nói. “Nó bảo toàn khối lượng, bảo toàn electron, nhưng chắc chắn còn nhiều hướng mở rộng và nâng cao độ bền vững trong những năm tới.”
Hiện mô hình đã được công khai trên GitHub. Coley kỳ vọng nó sẽ là công cụ hữu ích trong việc đánh giá khả năng phản ứng và xây dựng sơ đồ phản ứng.
Mở nguồn dữ liệu và tiềm năng ứng dụng rộng
“Chúng tôi công khai tất cả - từ mô hình, dữ liệu cho đến bộ dữ liệu trước đó do Joung xây dựng liệt kê chi tiết các bước cơ chế của phản ứng đã biết,” Fong cho biết.
Theo nhóm, FlowER có thể bằng hoặc vượt các phương pháp hiện có trong việc tìm cơ chế chuẩn, đồng thời tổng quát hóa cho những loại phản ứng chưa từng thấy. Tiềm năng ứng dụng trải dài từ hóa dược, khám phá vật liệu, nghiên cứu cháy nổ, hóa học khí quyển cho tới hệ thống điện hóa.
Trong so sánh với các hệ thống khác, Coley nhấn mạnh: “Với lựa chọn kiến trúc mà chúng tôi sử dụng, chúng tôi đạt được bước nhảy vọt về độ hợp lệ và tính bảo toàn, đồng thời duy trì hoặc cải thiện một chút về độ chính xác.”
Điểm độc đáo, theo Coley, là mô hình không “bịa ra” cơ chế, mà suy luận chúng dựa trên dữ liệu thực nghiệm từ văn liệu sáng chế. “Chúng tôi đang trích xuất cơ chế từ dữ liệu thí nghiệm - điều chưa từng được thực hiện và chia sẻ ở quy mô này.”
Bước tiếp theo
Nhóm nghiên cứu dự định mở rộng hiểu biết của mô hình về kim loại và chu trình xúc tác. “Chúng tôi mới chỉ chạm tới bề nổi,” Coley thừa nhận.
Trong dài hạn, ông tin rằng hệ thống này có thể hỗ trợ khám phá các phản ứng phức tạp mới, cũng như làm sáng tỏ các cơ chế chưa từng được biết đến. “Tiềm năng lâu dài là rất lớn, nhưng đây mới chỉ là bước khởi đầu.”
Nghiên cứu được hỗ trợ bởi Liên sort học máy cho khám phá và tổng hợp dược phẩm (Machine Learning for Pharmaceutical Discovery and Synthesis consortium) và Quỹ Khoa học Quốc gia Mỹ (NSF).
(Nguồn: MIT)
Nguồn: https://vietnamnet.vn/mo-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html
Bình luận (0)