Khi covid-19 tấn công châu Âu vào tháng 3 năm 2020, các bệnh viện rơi vào cuộc khủng hoảng về một vấn đề mà người ta vẫn chưa hiểu rõ. Laure Wynant, nhà dịch tễ học tại Đại học Maastricht ở Hà Lan, người nghiên cứu các công cụ dự đoán, cho biết: “Các bác sĩ thực sự không có manh mối về cách chữa trị cho những bệnh nhân này“.
Nhưng sau họ đó đã có dữ liệu đến từ Trung Quốc, quốc gia đã trải qua 4 tháng trong cuộc đua đánh bại đại dịch. Nếu các thuật toán máy học (machine learning) có thể được đào tạo dựa trên dữ liệu đó để giúp các bác sĩ hiểu những gì họ đang nhìn thấy và đưa ra quyết định, thì nó có thể cứu sống được nhiều người. Wynant nói: “Tôi đã nghĩ, nếu có bất kỳ thời điểm nào mà AI (Artifical Intelligence) có thể chứng minh tính hữu ích của nó, thì đây là thời điểm. Tôi đã có những hy vọng của riêng mình.”
Nhưng điều đó đã không bao giờ xảy ra, không phải vì thiếu nỗ lực. Các nhóm nghiên cứu trên khắp thế giới đã tăng cường tham gia nghiên cứu. Đặc biệt, cộng đồng AI đã gấp rút phát triển phần mềm mà nhiều người tin rằng sẽ cho phép các bệnh viện chẩn đoán hoặc phân loại bệnh nhân nhanh hơn, mang lại sự hỗ trợ rất cần thiết cho tuyến đầu, ít nhất là trên lý thuyết.
Cuối cùng, hàng trăm công cụ dự đoán đã được phát triển. Không công cụ nào trong số chúng tạo ra sự khác biệt thực sự, và thậm chí một số có khả năng gây hại.
Đó là kết luận không mong muốn của nhiều nghiên cứu được công bố trong vài tháng qua. Vào tháng 6 2021, Turing Institute, trung tâm quốc gia về khoa học dữ liệu và AI của Vương quốc Anh, đã đưa ra một báo cáo tổng hợp các cuộc thảo luận tại một loạt hội thảo đã được tổ chức vào cuối năm 2020. Có một sự đồng thuận rõ ràng là các công cụ ứng dụng trí tuệ nhân tạo đã tạo ra rất ít tác động, nếu có, trong cuộc chiến chống lại covid.
Không phù hợp để sử dụng trong lâm sàng
Điều này lặp lại kết quả của hai nghiên cứu lớn đánh giá hàng trăm công cụ dự đoán được phát triển vào năm ngoái. Wynant là tác giả chính của một trong hai nghiên cứu đó, một bài đánh giá trên Tạp chí Y khoa Anh vẫn đang được cập nhật khi các công cụ mới được công bố và các công cụ hiện có được thử nghiệm. Cô và các đồng nghiệp của mình đã xem xét 232 thuật toán để chẩn đoán bệnh nhân hoặc dự đoán những người mắc bệnh đã có thể mắc bệnh như thế nào. Họ phát hiện ra rằng không có loại nào phù hợp để sử dụng trong lâm sàng. Chỉ có hai trong số các thuật toán được chọn là đủ hứa hẹn để thử nghiệm trong tương lai.
Wynant nói: “Thật là sốc. Tôi đã bắt đầu với một số lo lắng, nhưng điều này vượt quá nỗi sợ hãi của tôi.”
Nghiên cứu của Wynant được củng cố bởi một bài đánh giá quan trọng khác do Derek Driggs, một nhà nghiên cứu máy học tại Đại học Cambridge và các đồng nghiệp của ông, thực hiện và được xuất bản trên Nature Machine Intelligence. Nhóm này đã phóng to các mô hình học sâu để chẩn đoán covid và dự đoán nguy cơ bệnh nhân từ các hình ảnh y tế, chẳng hạn như chụp X-quang ngực và chụp cắt lớp vi tính ngực (computer tomography – CT). Họ đã xem xét 415 công cụ đã được công bố và cũng như Wynant và các đồng nghiệp của cô, kết luận rằng không có công cụ nào phù hợp để sử dụng trong lâm sàng.
Driggs, người đang nghiên cứu một công cụ học máy để trợ giúp các bác sĩ trong đại dịch cho biết: “Đại dịch này là một thử nghiệm lớn đối với AI và y học. Sẽ phải mất một chặng đường dài để thu hút công chúng về phía chúng tôi. Nhưng tôi không nghĩ rằng chúng tôi đã vượt qua bài kiểm tra đó.“
Cả hai nhóm đều nhận thấy rằng các nhà nghiên cứu đã lặp lại những lỗi cơ bản giống nhau trong cách họ đào tạo hoặc thử nghiệm các công cụ của họ. Các giả định không chính xác về dữ liệu thường có nghĩa là các mô hình được đào tạo không hoạt động như đã tuyên bố.
Wynant và Driggs vẫn tin rằng AI có tiềm năng để hỗ trợ trong vấn đề này. Nhưng họ lo ngại rằng nó có thể có hại nếu được xây dựng sai cách vì chúng có thể bỏ sót các chẩn đoán hoặc đánh giá thấp nguy cơ đối với những bệnh nhân dễ bị tổn thương. Driggs nói: “Có rất nhiều sự cường điệu về các mô hình học máy và những gì chúng có thể làm ngày trong thời điểm này.”
Vẫn có những kỳ vọng không thực tế khuyến khích việc sử dụng các công cụ này trước khi chúng sẵn sàng. Wynant và Driggs đều nói rằng một số thuật toán mà họ xem xét đã được sử dụng trong các bệnh viện và một số đang được các nhà phát triển tư nhân tiếp thị. Wynant nói: “Tôi sợ rằng họ có thể đã làm hại bệnh nhân.”
Vậy điều gì đã xảy ra? Và chúng ta thu hẹp khoảng cách đó như thế nào? Nếu có điều ngược lại, thì đó là đại dịch đã làm cho nhiều nhà nghiên cứu thấy rõ rằng cách thức xây dựng các công cụ AI cần phải thay đổi. Wynant nói: “Đại dịch đã đưa vấn đề trở thành tâm điểm chú ý mà (vấn đề đó) chúng tôi đã theo đuổi trong một thời gian.”
Sai lầm ở đâu?
Nhiều vấn đề đã được phát hiện có liên quan đến chất lượng kém của dữ liệu mà các nhà nghiên cứu đã sử dụng để phát triển các công cụ của họ. Thông tin về các bệnh nhân covid, bao gồm cả quét y tế, được thu thập và chia sẻ giữa một đại dịch toàn cầu, thường là do các bác sĩ đang phải vật lộn để điều trị cho những bệnh nhân thu thập. Các nhà nghiên cứu muốn nhanh chóng tham gia trợ giúp và đây là những tập dữ liệu công khai duy nhất có sẵn. Nhưng điều này có nghĩa là nhiều công cụ đã được xây dựng bằng cách sử dụng dữ liệu bị gắn nhãn sai hoặc dữ liệu từ các nguồn không xác định.
Driggs nhấn mạnh vấn đề mà ông gọi là tập dữ liệu Frankenstein, được nối với nhau từ nhiều nguồn và có thể chứa các bản sao. Điều này có nghĩa là một số công cụ cuối cùng sẽ được thử nghiệm trên cùng dữ liệu mà chúng đã được đào tạo, làm cho chúng có vẻ chính xác hơn so với thực tế.
Nó cũng làm xáo trộn nguồn gốc của một số tập dữ liệu nhất định. Điều này có thể có nghĩa là các nhà nghiên cứu bỏ lỡ các tính năng quan trọng làm lệch việc đào tạo các mô hình của họ. Nhiều người đã vô tình sử dụng một tập dữ liệu chứa ảnh quét ngực của những đứa trẻ không có vòi trứng làm ví dụ của họ về những trường hợp không có vòi trứng trông như thế nào. Nhưng kết quả là, các AI đã học được cách xác định trẻ em, chứ không phải covid.
Nhóm của Driggs đã đào tạo mô hình của riêng mình bằng cách sử dụng tập dữ liệu bao gồm kết hợp các bản quét được thực hiện khi bệnh nhân nằm xuống và đứng lên. Vì những bệnh nhân được quét khi đang nằm có nhiều khả năng bị bệnh nặng hơn nên AI đã học sai cách dự đoán nguy cơ tắc mạch nghiêm trọng từ vị trí của một người.
Trong một số trường hợp khác, một số AI được phát hiện đang chọn phông chữ văn bản mà một số bệnh viện sử dụng để gắn nhãn cho các bản quét. Kết quả là, các phông chữ từ các bệnh viện có nhiều ca bệnh (caseload) nghiêm trọng hơn trở thành yếu tố dự báo nguy cơ covid.
Những sai sót như thế này dường như hiển nhiên và được nhận thức muộn màng. Chúng cũng có thể được sửa chữa bằng cách điều chỉnh các mô hình, nếu các nhà nghiên cứu biết về chúng. Có thể thừa nhận những thiếu sót và đưa ra một mô hình kém chính xác hơn, nhưng ít gây hiểu lầm hơn. Nhưng nhiều công cụ được phát triển bởi các nhà nghiên cứu AI thiếu chuyên môn y tế để phát hiện các sai sót trong dữ liệu hoặc các nhà nghiên cứu y tế thiếu kỹ năng toán học để bù đắp cho những sai sót đó.
Một vấn đề phức tạp hơn mà Driggs nêu bật là thiên vị kết hợp (incorporation bias), hoặc thiên vị được đưa vào tại thời điểm một tập dữ liệu được gắn nhãn. Ví dụ, nhiều bản quét y tế được dán nhãn tùy theo việc các bác sĩ X quang tạo ra chúng có cho rằng chúng có hiển thị covid hay không. Nhưng việc nhúng, hoặc kết hợp đó, bất kỳ các thành kiến nào của bác sĩ cụ thể sẽ ảnh hưởng đến mức độ chính xác của tập dữ liệu. Driggs nói rằng tốt hơn hết là dán nhãn một bản quét y tế với kết quả của xét nghiệm PCR hơn là ý kiến của một bác sĩ. Nhưng không phải lúc nào cũng có thời gian để thống kê trong các bệnh viện bận rộn.
Tuy vậy, những điều đó đã không ngăn một số công cụ này được đưa vào thực hành lâm sàng. Wynant cho biết không rõ loại nào đang được sử dụng hoặc như thế nào. Các bệnh viện đôi khi sẽ nói rằng họ đang sử dụng một công cụ chỉ cho mục đích nghiên cứu, điều này gây khó khăn cho việc đánh giá mức độ tin cậy của các bác sĩ. “Có rất nhiều bí mật,” cô nói.
Wynant đã yêu cầu một công ty đang tiếp thị các thuật toán học sâu chia sẻ thông tin về cách tiếp cận của mình nhưng không nhận được phản hồi. Sau đó, cô đã tìm thấy một số mô hình được công bố từ các nhà nghiên cứu gắn liền với công ty này, tất cả đều có nguy cơ sai lệch cao. “Chúng tôi thực sự không biết công ty đã triển khai những gì,” cô nói.
Theo Wynant, một số bệnh viện ký thỏa thuận không tiết lộ thông tin với các nhà cung cấp AI y tế. Khi cô hỏi các bác sĩ họ đang sử dụng những thuật toán hoặc phần mềm nào, đôi khi họ nói với cô rằng họ không được phép nói.
Làm thế nào để khắc phục?
Cách khắc phục là gì? Dữ liệu tốt hơn sẽ hữu ích, nhưng trong thời kỳ khủng hoảng, đó là một câu hỏi lớn. Điều quan trọng hơn là tận dụng tối đa các tập dữ liệu mà chúng ta có. Driggs cho biết, động thái đơn giản nhất là để các nhóm AI hợp tác nhiều hơn với các bác sĩ lâm sàng. Các nhà nghiên cứu cũng cần chia sẻ các mô hình của họ và tiết lộ cách họ được đào tạo để những người khác có thể kiểm tra và xây dựng dựa trên chúng. “Đó là hai điều chúng ta có thể làm ở thời điểm này,” anh nói. “Và có thể chúng sẽ giải quyết được 50% các vấn đề mà chúng ta đã xác định.”
Bilal Mateen, bác sĩ đứng đầu nhóm công nghệ lâm sàng tại Wellcome Trust, một tổ chức từ thiện nghiên cứu sức khỏe toàn cầu có trụ sở tại London, cho biết việc nắm giữ dữ liệu cũng sẽ dễ dàng hơn nếu các định dạng được chuẩn hóa.
Một vấn đề khác mà Wynant, Driggs và Mateen đều xác định là hầu hết các nhà nghiên cứu đều vội vàng phát triển các mô hình của riêng họ, thay vì làm việc cùng nhau hoặc cải tiến những mô hình hiện có. Kết quả là nỗ lực tập thể của các nhà nghiên cứu trên khắp thế giới đã tạo ra hàng trăm công cụ tầm thường, thay vì một số ít những công cụ được đào tạo và thử nghiệm phù hợp.
Wynant cho biết: “Các mô hình rất giống nhau – chúng hầu như đều sử dụng các kỹ thuật giống nhau với các chỉnh sửa nhỏ, các đầu vào giống nhau – và chúng đều mắc những lỗi giống nhau. Nếu tất cả những người này tạo ra các mô hình mới thay vì thử nghiệm các mô hình đã có sẵn, có lẽ chúng ta sẽ có thứ gì đó thực sự có thể giúp ích cho phòng khám vào lúc này.“
Theo một nghĩa nào đó, đây là một vấn đề cũ trong nghiên cứu. Các nhà nghiên cứu hàn lâm có ít động lực nghề nghiệp để chia sẻ công việc hoặc xác nhận các kết quả hiện có. Mateen nói không có phần thưởng nào cho việc vượt qua chặng đường cuối cùng đưa công nghệ từ “băng ghế trong phòng thí nghiệm đến đầu giường”.
Để giải quyết vấn đề này, Tổ chức Y tế Thế giới đang xem xét một hợp đồng chia sẻ dữ liệu khẩn cấp sẽ có hiệu lực trong các cuộc khủng hoảng y tế quốc tế. Mateen cho biết nó sẽ cho phép các nhà nghiên cứu di chuyển dữ liệu qua biên giới dễ dàng hơn. Trước hội nghị thượng đỉnh G7 ở Anh vào tháng 6, các nhóm khoa học hàng đầu từ các quốc gia tham gia cũng kêu gọi “sẵn sàng dữ liệu” để chuẩn bị cho các trường hợp khẩn cấp về sức khỏe trong tương lai.
Những sáng kiến như vậy nghe có vẻ hơi mơ hồ, và những lời kêu gọi thay đổi luôn có một chút mơ tưởng về chúng. Nhưng Mateen có cái mà anh ấy gọi là quan điểm “lạc quan ngây thơ”. Trước đại dịch, động lực cho những sáng kiến như vậy đã bị đình trệ. “Có cảm giác như núi quá cao để đi bộ đường dài và tầm nhìn thì không đáng”, anh nói. “Covid đã đưa rất nhiều vấn đề này trở lại chương trình nghị sự.”
Mateen cho biết: “Cho đến khi chúng ta bắt đầu nghĩ rằng mình cần phải phân loại các vấn đề vô lý trước những vấn đề hữu ích, chúng ta sẽ lặp lại những sai lầm tương tự. Không thể chấp nhận được nếu chúng ta không làm điều đó. Để quên đi những bài học của đại dịch này là thiếu tôn trọng những người đã qua đời ”.
Theo https://www.technologyreview.com/2021/07/30/1030329/machine-learning-ai-failed-covid-hospital-diagnosis-pandemic/amp/