Skip to content

Latest commit

 

History

History
55 lines (35 loc) · 4.08 KB

README.md

File metadata and controls

55 lines (35 loc) · 4.08 KB

Project_EDA

Исследование влияния характеристик клиентов страховой компании на размер страховых выплат

DALL·E 2024-02-29 16 11 28 - Create a visually appealing and thematic image for a GitHub repository focused on statistical tests and exploratory data analysis (EDA) in the context

Статистические тесты в контексте EDA

Введение

В этом проекте проводится исследование с целью выявить взаимосвязи между характеристиками клиентов страховой компании и размером страховых выплат. Анализируются такие параметры, как возраст, пол, индекс массы тела (BMI), наличие детей, курение и регион проживания клиентов.

Данные

Анализ основан на датасете "Medical Cost Personal Datasets" с Kaggle, который содержит информацию о годовых страховых выплатах клиентов с указанием их характеристик.

Задачи исследования

Исследование направлено на ответы на следующие вопросы:

  • Влияет ли пол клиента на размер страховых выплат?
  • Как курение влияет на размер выплат?
  • Есть ли различия в выплатах в зависимости от региона проживания клиента?
  • Существует ли взаимосвязь между курением и полом клиента?

Методология

Для анализа данных использовались библиотеки Python: Pandas, Numpy, Matplotlib, Seaborn, Scipy и Statsmodels. Были применены описательный анализ данных, визуализации и статистические тесты, включая тесты Шапиро-Уилка, Манна-Уитни, Краскела-Уоллиса и хи-квадрат.

Результаты

В ходе исследования было установлено:

  • Нет значимых различий в размере страховых выплат между мужчинами и женщинами.
  • Курящие клиенты получают значительно большие страховые выплаты по сравнению с некурящими.
  • Регион проживания не оказывает статистически значимого влияния на размер выплат.
  • Обнаружена статистически значимая взаимосвязь между курением и полом клиента.

Установка и запуск

Для воспроизведения результатов анализа необходимо скачать датасет с Kaggle и установить необходимые библиотеки:

pip install pandas numpy scipy matplotlib seaborn statsmodels

Данные для анализа доступны для скачивания по ссылке. Используйте следующую команду для скачивания датасета:

wget "https://drive.google.com/uc?export=download&id=1b_NEk_nrBLhYxBo-DI-TVLRsTIOYvk-r" -O insurance.csv

Вклад в проект

Мы открыты для вашего вклада в проект. Если у вас есть предложения по улучшению анализа или вы нашли ошибку, пожалуйста, создайте issue или pull request.

Лицензия

Данный проект распространяется под лицензией MIT.