Skip to content

Latest commit

 

History

History
145 lines (99 loc) · 10.9 KB

File metadata and controls

145 lines (99 loc) · 10.9 KB

Desafio 05 | SONDA

Para te ajudar

1. Sobre a SONDA

1.1. Introdução

A SONDA é a principal rede latino-americana de serviços de Tecnologias da Informação (TI). Em seus quase 45 anos de história na região, caracterizou-se por contar com uma oferta integral de serviços e soluções de TI, uma visão de aliado tecnológico para abordar projetos e uma sólida posição financeira, prestando de forma consistente serviços e soluções alinhadas com as estratégias de negócio de seus clientes.

Desde 1974, a missão da empresa tem sido agregar valor às atividades e negócios de nossos clientes e impulsionar seu crescimento através de uma melhor utilização das tecnologias da informação, construindo relações de longo prazo que se traduzem em uma proximidade com seu trabalho e evolução.

1.2. Premiação

As top 5 melhores pessoas colocadas vão receber um voucher de US$ 350 cada.

2. Desafio de negócio

O desafio consiste em um problema comum na área de Ciência de Dados. Um cliente expõe um problema específico de sua área e através da sua análise encontrar uma possível solução. Um cliente da área Telecomunicações reportou problema de perda de clientes (Churn) e gostaria de conseguir identificar essa possível perda antes que ela ocorra, por meio de inteligência artificial.

3. Objetivo

O desafio consiste de implementar um algoritmo de Machine Learning para classificação binária, capaz de identificar se um cliente será perdido ou não.

4. Tecnologias aplicadas

Para este desafio serão utilizados os seguintes serviços da IBM Cloud:

  • Watson Studio, também conhecido como Cloud Pak for Data as a Service. Esse serviço permite o uso de uma gama de ferramentas relacionadas à Ciência de Dados, inclusive execução de Jupyter Notebooks com processadores na nuvem.

5. Desenvolvimento da solução

5.1. Pré-requisitos

Para realizar esse desafio você deverá cumprir os seguintes pré-requisitos:

5.2. Resumo das Tarefas

  1. Instanciar os serviços do desafio na IBM Cloud: Object Storage e Watson Studio (opcionais);
  2. Explorar e tratar a base de dados disponível;
  3. Criar um modelo de Machine Learning para realizar classificação binária;
  4. Alterar, validar e testar o seu modelo de Machine Learning, até estar satisfeito com o resultado;
  5. Alterar o arquivo de respostas, adicionando classificações de seu modelo;
  6. Efetuar a submissão na página do desafio.

5.3. Desenvolvimento

O desafio consiste no uso de um algoritmo de Machine Learning de aprendizagem supervisionada, como o de Árvore de Decisão, para realizar uma classificação binária que dirá se um cliente será perdido ou não.

As classificações devem ser salvas no arquivo ANSWERS.csv, da mesma forma como aparercem no dataset (Yes ou No). Todos os clientes precisam ter uma classificação.

O dicionário de dados é o seguinte:

Coluna Descrição
ID Customer ID
GENDER Whether the customer is a male or a female
SENIORCITIZEN Whether the customer is a senior citizen or not (1, 0)
PARTNER Whether the customer has a partner or not (Yes, No)
DEPENDENTS Whether the customer has dependents or not (Yes, No)
TENURE Number of months the customer has stayed with the company
PHONESERVICE Whether the customer has a phone service or not (Yes, No)
MULTIPLELINES Whether the customer has multiple lines or not (Yes, No, No phone service)
INTERNETSERVICE Customer’s internet service provider (DSL, Fiber optic, No)
ONLINESECURITY Whether the customer has online security or not (Yes, No, No internet service)
ONLINEBACKUP Whether the customer has online backup or not (Yes, No, No internet service)
DEVICEPROTECTION Whether the customer has device protection or not (Yes, No, No internet service)
TECHSUPPORT Whether the customer has tech support or not (Yes, No, No internet service)
STREAMINGTV Whether the customer has streaming TV or not (Yes, No, No internet service)
STREAMINGMOVIES Whether the customer has streaming movies or not (Yes, No, No internet service)
CONTRACT The contract term of the customer (Month-to-month, One year, Two year)
PAPERLESSBILLING Whether the customer has paperless billing or not (Yes, No)
PAYMENTMETHOD The customer’s payment method (Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic))
MONTHLYCHARGES The amount charged to the customer monthly
TOTALCHARGES The total amount charged to the customer
CHURN Whether the customer churned or not (Yes or No)

Atenção: os dados disponibilizados neste desafio são fictícios, qualquer correlação com a realidade é mera coincidência.

6. Submissão

Com as respostas no arquivo, o último passo é realizar a submissão. Será aceita somente uma submissão para o desafio, então teste bem antes de fazer o envio.

Para realizar a submissão, você deverá acessar a página do desafio: https://maratona.dev/challenge/5 e enviar o arquivo CSV com as respostas, juntamente com um arquivo .zip, de até 10MB, contendo o código fonte da solução (lembre-se de remover dependências e datasets para não ocupar espaço). A página fará um teste para verificar se o arquivo CSV está no formato correto.

Você poderá acompanhar o status da submissão acessando a página do desafio, logando na sua conta.

7. Sobre a avaliação

Uma semana após o início do desafio, nosso sistema de avaliação automática começará as avaliações. Ele irá utilizar os dados enviados para calcular uma pontuação numérica de 1 até 100, baseada na métrica F1. O arquivo .zip enviado deve conter todo o código utilizado para obter a solução. Caso contrário, a pontuação será zerada.

O desafio deve ser entregue até dia 12 de dezembro, e o participante receberá uma bonificação de 10% da pontuação total (10 pontos), independendo do resultado de seu desafio. A pontuação máxima possível, portanto, é 110 (100 de avaliação + 10 de bônus).

Atenção: o tempo de entrega é um critério de desempate, no caso de soluções com a mesma nota. Nos reservamos o direito de zerar a pontuação de uma submissão caso:

  • O código fonte enviado não seja coerente com os resultados obtidos dos testes no modelo.
  • Seja detectado plágio, de um ou mais participantes. Nesse caso, todos os participantes com a solução igual terão sua pontuação no desafio zerada.

Material de apoio

Você também pode acessar o Discord oficial da Maratona 2021 para realizar perguntas e/ou interagir com outros participantes: Discord.

License

Copyright 2021 Maratona Behind the Code

Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at

   http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.