Учебные проекты курса "Работа с признаками и построение моделей" профессии Data Science от Нетология.
2. Loss_function_and_optimization
3. Metrics_and_Model_selection
Решение задачи классификации физических лиц по уровню дохода. Данные для обучения модели хранятся в файле adult.csv. Целевая переменная – уровень дохода income, который принимает два значения <=50K и >50K, поэтому классификация бинарная. Остальные признаки описывают персональную информацию – возраст, образование, семейное положение и т. д. Задачу классификации нужно решить при помощи обучения модели логистической регрессии и модели опорных векторов.
Реализация логистической регрессии без использования метода LogisticRegression из библиотеки на основе датасета с ирисами Реализация метода градиентного спуска, Root Mean Square Propagation, Nesterov–accelerated Adaptive Moment Estimation.
Решение задачи классификации при помощи обучения модели логистической регрессии. Качество модели оценивается путем подсчета метрик TPR, FPR и построения графиков ROC-кривой, Precision-Recall.
Решение задачи по очистке данных на примере датасета с информацией о пассажирах корабля Титаник. На данных обучить модель классификации, с целевым признаком Survived (1 – пассажир выжил, 0 – погиб). Обучение модели на необработанных и обработанных данных, посчитать и сравнить метрики качества этих моделей.
Проработка улучшение метрики RMSE, R2 модели линейной регрессии путем работы с данными, а именно проведения разведочного анализа данных. В качестве датасета используются данные о недвижимости Калифорнии из библиотеки sklearn.datasets.
Решение задачи регрессии используя деревья решений. В качестве датасета используются данные о недвижимости Калифорнии из библиотеки sklearn.datasets.
Решение задачи классификации типа стекол. Данные для обучения моделей можно скачать с сайта
Решение задачи классификации точек наиболее эффективно, применяя различные методы по отбору признаков. Отбор признаков предпочтительнее осуществлять основываясь на математическом аппарате, поэтому данные для этого задания будут сгенерированы, чтобы избежать признаков с физическим смыслом.
Решение задачи классификации наличия болезни сердца у пациентов, применяя базовые ансамблевые методы.
Решение задачи по сокращению числа цветов в палитре изображения. Картинку для выполнения работы можно выбрать любую, главное условие – наличие на ней разных цветов, для того, чтобы результат работы моделей был заметен. Для выполнения работы необходимо выделить кластеры в пространстве RGB, объекты соответствуют пикселям изображения. После выделения кластеров все пиксели, отнесенные в один кластер, заполняются одним цветом. Цвет – центроид соответствующего кластера.
Решение задачи классификации наличия болезни сердца у пациентов наиболее эффективно, используя на практике алгоритмы по автоматической оптимизации параметров моделей машинного обучения.
Итоговая работа по модулю: решение задачи классификации