Задание
Индивидуальное задание «SimpleAnalysis». Язык программирования – Python. Среда разработки – Google Colab или PyCharm. Библиотеки: Math, Matplotlib, Pandas, Numpy
Исходные данные:
Получить Dataset (данные).
Сгенерировать численные данные с помощью генератора случайных чисел. Числа – целые, диапазон: от -10000 до 10000; количество чисел – 1000. Сформировать объект Series.
Рассчитать стандартные числовые характеристики для набора данных Series
- определить минимальное значений
- определить количество повторяющихся значений
- определить максимальное значение
- определить сумму чисел.
Результирующие данные вывести в консоль с пояснениями. При выполнении данного задания можно использовать все стандартные функции Python.
Визуализировать данные с помощью стандартных библиотек по заданным критериям
- построить линейный график
- построить гистограмму (прямоугольную), округлив значения набора данных до сотен. Округление выполнить по математическому правилу.
Сформировать Dataframe из данных Series и добавить к этим данным следующие столбцы
- столбец, содержащий отсортированные значения исходного Series по возрастанию- столбец, содержащий отсортированные значения исходного Series по убыванию
Визуализировать данные, полученные в результате промежуточного анализа (вычислений)
- на одном plt построить два линейных графика: отсортированных значений по возрастанию и убыванию.
Содержание отчета к программе
1 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЯЗЫКА PYTHON И АНАЛИЗА ДАННЫХ.. 6
1.1 Язык программирования Python. 6
1.2 Основы Big Data. 10
1.3 Использование Python при работе с большими данными. 12
2 ПРАКТИКА ПРИМЕНЕНИЯ АНАЛИЗА ДАННЫХ, МАШИННОГО ОБУЧЕНИЯ И НЕЙРОННЫХ СЕТЕЙ.. 15
2.1 Понятие искусственного интеллекта. 15
2.2 Искусственный интеллект в языке программирования Python. 17
2.3 Основы машинного обучения нейронных сетей на языке программирования Python 23
2.4 Краткая характеристика нейронных сетей. Разработка полносвязной нейронной сети. 25
2.5 Практическое применение машинного обучения для решения различных задач 33
2.6 Разработка модели машинного обучения для решения задачи практики. 39
ЗАКЛЮЧЕНИЕ. 45
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ. 47
ПРИЛОЖЕНИЯ. 49
Приложение А. Полный листинг программы 49
Фрагмент программного кода
# Подключаем библиотеки import pandas as pd import numpy as np import matplotlib.pyplot as plt # генерируем набор данных Series np.random.seed(42) data = pd.Series(np.random.randint(-10000, 10000, size=1000)) # стандартные числовые характеристики print(f"Минимальное значение: {data.min()}") print(f"Количество повторяющихся значений: {len(data[data.duplicated()])}") print(f"Максимальное значение: {data.max()}") print(f"Сумма чисел: {data.sum()}") # визуализация plt.figure(figsize=(10, 5)) plt.plot(data) plt.title("Линейный график") plt.show() plt.figure(figsize=(10, 5)) rounded_data = data.round(-2) plt.hist(rounded_data, bins=range(rounded_data.min(), rounded_data.max() + 100, 100), rwidth=0.8) plt.title("Гистограмма") plt.show() # создание Dataframe и добавление столбцов с отсортированными значениями df = pd.DataFrame({'data': data}) df['sorted_asc'] = df['data'].sort_values().reset_index(drop=True) df['sorted_desc'] = df['data'].sort_values(ascending=False).reset_index(drop=True) # визуализация plt.figure(figsize=(10, 5)) plt.plot(df['sorted_asc'], label='По возрастанию') plt.plot(df['sorted_desc'], label='По убыванию') plt.legend() plt.title("Отсортированные значения") plt.show()
Скриншот архива с проектом
Пояснения по запуску программы
Загрузить приложенный файл в Google Colab? подключиться к удаленной среде выполнения, запустить код в каждой ячейке или же открыть проект PyCharm и запустить код.
admin