Ученые увеличили скорость чтения данных на ДНК в 3200 раз

|
Ученые увеличили скорость чтения данных на ДНК в 3200 раз

Исследователи Израильского технологического института (Technion) разработали инновационный метод, основанный на искусственном интеллекте, который позволяет значительно ускорить процесс поиска информации, сохраненной в ДНК. Благодаря этому новому подходу, время чтения данных сократилось с нескольких дней до всего 10 минут, при этом улучшилась точность.

Об этом сообщает ProIT

Молекулы ДНК являются основой хранения генетической информации в живых организмах, состоящими из четырех типов нуклеотидов, обозначенных буквами A, C, G и T. В отличие от традиционных компьютерных технологий, где данные кодируются только двоичными цифрами, хранение информации на основе ДНК позволяет значительно расширить возможности комбинаций.

Преимущества хранения данных в ДНК

Хранение информации в ДНК может обеспечить долговременное сохранение данных на сотни тысяч лет и впечатляющую плотность — в 100 миллионов раз выше, чем у традиционных цифровых носителей. Однако, хранение данных в ДНК сопровождается рядом технологических вызовов. Синтез и секвенирование ДНК являются временными процессами, подверженными ошибкам, таким как удаление, вставка или замена данных.

Для преодоления этих трудностей, новое исследование, опубликованное в журнале Nature Machine Intelligence, внедряет комплексное вычислительное решение для коррекции ошибок в системах хранения ДНК. Исследователи использовали усовершенствованные алгоритмы и методы кодирования, что позволяет сократить время поиска и чтения данных до 10 минут.

Система DNAformer

Разработанный в Technion метод под названием DNAformer основан на трансформерной модели, натренированной на смоделированных данных, созданных с помощью специального симулятора. Этот метод способен реконструировать точные последовательности ДНК из ошибочных копий, используя специальный код для исправления ошибок, адаптированный для работы с ДНК.

Кроме того, механизм дополнительного запаса безопасности выявляет шумы в последовательностях ДНК, которые могут мешать точной интерпретации данных, и применяет алгоритмические инструменты для улучшения обработки. В конце процесса информация переводится в цифровой формат.

Новый подход позволяет считывать 100 МБ данных со скоростью, которая в 3200 раз превышает самые современные методы, без потери точности. Это было продемонстрировано на наборе данных, содержащем 24-секундную аудиозапись слов астронавта Нила Армстронга, а также текст, обсуждающий преимущества ДНК как метода хранения данных.

Исследователи планируют адаптировать систему DNAformer для различных нужд, подчеркивая ее масштабируемость, что позволяет оптимизировать технологию для крупных программ хранения данных в ответ на рыночные требования.