Биокомпьютеры: разработка биочипа на основе ДНК

Авторы:
Кульшаева Татьяна Вячеславовна
Реснин Александр Григорьевич
Причины потребности в биокомпьютерах:
резкое увеличение информации, а, следовательно, и элементов микросхемы;
при увеличении компонентов микросхемы, существует риск замыкания
Трудности в разработке ДНК-компьютеров:
проведение операции с 1 кодоном, не затрагивая другие;
самосборка ДНК (эта проблема решается с помощью введения в клетку ингибиторов)
 выполнение только одной функции одной цепочкой ДНК (для выполнения другой функции
необходимо изменить структуру ДНК)
Преимущества биокомпьютеров:
плотность хранения информации в ДНК – 1 бит/нм2
ДНК параллельно выполняет свыше 1000 операций/секунду
Создать модель биочипа.
Для этого:
1)
Определить необходимые аминокислоты
2)
Определить необходимые кодоны данных аминокислот
3)
Зациклить процесс, не допуская процесса самосборки. Для этого, построить модель куба, ребра которого – это
аминокислоты.
4)
Согласно математическому алгоритму (это обязательный пункт, чтобы не было подгонки результатов) присвоить
каждому ребру куба свою аминокислоту.
5)
Сравнить результаты, полученные в предыдущем пункте с физическими принципами (то есть, физикой подтвердить
математику)
6)
Сравнить результаты, полученные в двух последних пунктах, с результатами работы нейросети (то есть, подтвердить
программированием результаты математики и физики)
7)
Создать такую модель, результаты действия которой подтверждает математика, химия, физика и биология
Результаты:
1)
Было составлено 24 математических алгоритма
2)
Получена кубическая модель биочипа. Модель состоит из 4-х аминокислот, которые имеют разный цвет (красный,
синий, зеленый, желтый) (см. Презентацию).
3)
Такая структура биочипа препятствует процессу самосборки и позволяет работать с каждой аминокислотой отдельно.
4)
2 диагонали позволяют связать кубит с более, чем шестью соседями (как сейчас)
5)
Проанализировав аминокислотный состав биочипа, мы пришли к интересным результатам!
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Определить перечень необходимых аминокислот
Определить единственный кодон каждой аминокислоты, необходимый для создания
биочипа
Сгруппировать эти кодоны в кластеры
Определить «статус полярности кластеров» согласно классификации аминокислот по
полярности и заряду радикала (оставляем только электронейтральный кластер)
Для чистоты эксперимента, создаем датасет, в котором находятся не только
отобранные кодоны, а все кодоны, соответствующие аминокислотам. Отмечаем, что
«правильные кодоны» – это VOL_1,VOL_8,VOL_14.
Создаем нейросеть и кодируем все кодоны
Проверяем корреляцию одного набора данных (VOL_1) с другими наборами данных
датасета.
Мы поставили задачу: создать электронейтральный кластер, в котором аминокислоты
будут заменять друга друга.
Зациклить процесс.
Получить схему биочипа . Структура биочипа должна быть такой, чтобы не
допустить, с одной стороны, самосборки ДНК, с другой стороны – обеспечить
целостность и цикличность процесса.
Проект находится на стадии проработанной идеи
1)
Определен перечень необходимых аминокислот
2)
Определен единственный кодон каждой аминокислоты, необходимый для создания биочипа (на основании
результатов математических расчетов и физических явлений)
3)
Определен единственный кодон каждой аминокислоты, необходимый для создания биочипа (на основании
результатов изучения корреляции одного набора данных VOL_1 с другими наборами данных).
Подтвержден результат, полученный в пункте 2.
4)
Кодоны сгруппированы в кластеры
5)
Найден электронейтральный кластер. Определен кодон (+) и кодон (-)
6)
Закодированы все кодоны
7)
Проверены на точность модели, включающие набора данных (незакодированные кодоны). Точность равна
0.
8)
Проверены на точность модели, включающие набора данных (закодированные кодоны). Некоторые
классификаторы показали точность равную 1.
9)
Создана нейросеть, показывающая наиболее эффективную работу системы. Для этого, были определены
основные параметры нейросети.
10)
Создана схема строения биочипа. Структура биочипа такова, что, с одной стороны, исключается
самосборка ДНК, с другой стороны – обеспечивается цикличность и целостность процесса.
Корреляция одного
набора данных с
другими наборами
данных датасета
Анализируя данную тепловую карту,
мы определили, что наиболее
подходящие наборы данных для
построения нашей модели –
vol_1,vol_8,vol_14.
Данные результаты подтверждены
математически (математические
алгоритмы) и физически (принципы
физики).
БЕЗ СГЛАЖИВАНИЯ ДАННЫХ
ПОСЛЕ СГЛАЖИВАНИЯ ДАННЫХ
Параметры
нейросети и линия
регрессии
Были исследованы 2 выборки по 2 набора
данных в каждой. Результаты идентичные.
Поэтому, данную нейросеть мы можем
взять для всего исследуемого датасета (4
набора данных). Использовался метод
стохастического градиентного спуска .
Определили количество итераций, вес и
расширение.
Для определения hidden_layer_sizes,
random_state, learning_rate_init
использовали MLPClassifier
Линии уравнения регрессии совпадают.
Поэтому, корреляционная зависимость
между признаками переходит в
функциональную.
БЕЗ СГЛАЖИВАНИЯ ДАННЫХ
ПОСЛЕ СГЛАЖИВАНИЯ ДАННЫХ
Accuracy of Gaussian Naive Bayes:
0.0
Accuracy of Decision Tree Classifier: 0.0
Accuracy of Support Vector Machine: 0.0
Accuracy of MLPClassifier: 0.0
Accuracy of LogisticRegression: 0.0
Accuracy of SVC: 0.0
Accuracy of RandomForestClassifier: 0.0
Accuracy of KNeighborsClassifier: 0.0
Accuracy of MultinomialNB: 0.0
Accuracy of BernoulliNB: 0.0
Accuracy of Gaussian Naive
Bayes: 1.0
Accuracy of Decision Tree
Classifier: 1.0
Accuracy of MLPClassifier: 1.0
Accuracy of
RandomForestClassifier: 1.0
Accuracy of
KNeighborsClassifier: 1.0
Accuracy of MultinomialNB:
1.0
Accuracy of BernoulliNB: 1.0
СТРУКТУРА
БИОЧИПА
Модель состоит из 4-х аминокислот,
которые имеют разный цвет
(красный, синий, зеленый, желтый).
Такая структура биочипа
препятствует процессу самосборки и
позволяет работать с каждой
аминокислотой отдельно.
Две диагонали позволяют связать
кубит с более, чем шестью соседями
(как сейчас)
Кульшаева Татьяна Вячеславовна - 2 высших
(второе: инженер-Саратовский государственный
университет им. Н.Г. Чернышевского, средний
балл по диплому -4.82).
Участник платформы Leader ID (Россия).
Участник проектно-образовательного интенсива
"Архипелаг-2021" (Россия).
Сертификат (доп. образование) «Самосборка и
самоорганизация в наносистемах (МГУ им. М. В.
Ломоносова)
Участник и призер Олимпиад по нанотехнологиям
(МГУ им. М. В. Ломоносова) – Nanometer.ru
Участник Startup Tour/2022 (Сколково).
Знание английского языка (сертификат TOEFLСША).
Знание программирования (сертификаты kaggleСША-2021) – 10 штук.
Стажировка по программированию (Changellenge
- партнер Сколково-2022) – 17 штук.
Действующий член Американского
математического сообщества
Участник Всемирного Конгресса математиков
2022
Реснин Александр Григорьевич - инженер
(Саратовский политехнический институт).
Участник платформы Leader ID (Россия).
Участник Startup Tour/2022 (Сколково).