BT

A sua opinião é importante! Por favor preencha a pesquisa do InfoQ!

Avaliando modelos de Machine Learning: Um caso de estudo

| por Mayra Michels Seguir 0 Seguidores em 16 nov 2017. Tempo estimado de leitura: 7 minutos |

Para melhorar a experiência das pessoas que acessam o InfoQ Brasil, nós criamos uma série de funcionalidades que te permitem ficar pode dentro das últimas tendências e das novidades de seu interesse, sem que você seja incomodado por coisas irrelevantes. Receba e-mails periódicos e notificações sobre seus tópicos favoritos!

Nelson Ray, em sua palestra no QCon New York de 2017, falou sobre como estimar o impacto comercial de diversos modelos de machine learning. Nelson gerencia o grupo de Risk Science da Opendoor em São Francisco. Sua equipe é responsável pela estimativa de liquidez de casas e pelo desenvolvimento de modelos de risco responsivos.

Ray começa sua palestra falando sobre os testes A/B, em que os resultados nem sempre são os esperados e que isso pode ser devido ao tratamento dado, resultando em perda de dinheiro e/ou uma má experiência para o usuário.

Quando se tem um machine learning, que é o coração do negócio e faz previsões de resultado, recomendações, sugestão de preços e combina compradores e vendedores, busca-se a curva perfeita dos resultados.

Ray apresenta sua estratégia através de uma pirâmide invertida como mostrado na imagem abaixo:

A pirâmide é utilizada como um guia, mas quanto mais para baixo maior a confiança nos resultados, mas também maior o custo. No topo da pirâmide encontra-se a análise de observação, ou seja, algumas consultas são realizadas, médias são comparadas, mas não é possível distinguir a conexão e a causa. Em um andar para baixo na pirâmide, o tópico principal da palestra de Ray, está a inferência baseada em simulação do seu negócio, em que você pluga diferentes modelos de machine learning e tenta responder a seguinte questão: "Se eu rodar esse novo modelo, qual será o impacto em meu negócio?".

Mais um passo abaixo está o quasi-experiments, que constitui em uma ferramenta de econometria, isto é, você tem um stream de observação dos dados em que é possível observar raramente uma linha que é quase tão boa quanto o experimento, mas diferentes contas possui diferentes registros e isso pode diminuir ou aumentar taxas. E por fim existe o teste A/B.

Quando se decide vender uma casa o primeiro passo é entrar em contato com uma imobiliária para então gastar uma grande quantidade de dinheiro e deixar a casa vendável. Após essa etapa, a casa é posta no mercado e dezenas de estranhos são convidados, em um processo open house. Se você tiver sorte, haverá alguém interessado em comprar. Todo esse processo leva em média 100 dias, com uma taxa de 14% de falha.

Agora, se você decide comprar uma casa, leva em média o mesmo tempo de venda. Para a compra de uma casa, é necessário estar seguro do que será feito, pois provavelmente será a maior transação financeira de sua vida, o que pode ser muito estressante, e não há muitas garantias no processo. Uma parceria com uma imobiliária é realizada e é solicitado um financiamento em algum banco.

O The Opendoor é um sistema diferenciando, onde a empresa compra a casa de um vendedor e depois se responsabiliza por vender essa casa a compradores finais. A missão da Opendoor é capacitar todos com a liberdade de se mudar. Nos EUA existem $25 trilhões de ativos, e 63,5% dos americanos são proprietários de casas, gerando $100 bilhões em taxas.

Na Opendoor o processo para um vendedor constitui nas seguintes etapas:

  1. Preencher um perfil da casa curto: para que possa ser feita uma avaliação da casa.
  2. Digitar o endereço: experimentar um processo de venda automatizado e sem complicações.
  3. Receber uma oferta em minutos: nesta oferta há um relatório sobre o valor da casa.

Já o processo do comprador, que inclui uma garantia de satisfação de 30 dias e inspeção certificada com 180 pontos junto com uma garantia de cobertura de 2 anos da Oneguard, ocorre da seguinte forma:

  1. Há milhares de compradores.
  2. Pesquisas e visitas são realizadas de forma automática e sob demanda.
  3. Os compradores têm acesso exclusivo ao inventário.
  4. Todas as casas possuem garantia de devolução do dinheiro de dois anos.

Com tudo isso Ray pergunta:

Qual é o nosso risco na venda de uma casa?

Para verificar o risco na compra e na venda de uma casa foi feita uma análise de dois modelos de casa diferentes:

Apesar da casa 2 possuir menos atrativos que a casa 1, ela é vendida mais rapidamente e com mais facilidade, e para isso temos diversos modelos de qualidade para medir essa precisão. Com o modelo, sabemos que a geografia é um dos fatores na hora da decisão, por exemplo se a casa for em uma área central ela terá uma maior demanda. O preço também é um dos fatores, por ser um valor menor e mais pessoas podem arcar com as despesas. A época do ano é outro fator, as pessoas não costumam comprar casas perto dos feriados; E um fator muito importante é o mercado. A maior parte do modelo da Opendoor está centrada na liquidez do imóvel.

A filosofia da Opendoor é ser o operador de risco de revenda da casa, os custos variam substancialmente por casa, e ser justo para cada vendedor cobrar com base em um custo esperado. Se você deseja vender uma casa altamente customizada, mas fora dos padrões da cidade, a revenda dessa casa será mais custosa, e por isso esse risco será incrementado e a cobrança será feita de acordo com esse valor.

Um dos problemas é o enquadramento, pois quanto menor a mudança e maior a taxa há menos chances de venda, já quando o lucro e a taxa forem grandes maior a chance de venda.

Essas métricas podem variar, pois se tiver a conversão de várias casas apenas o volume será acrescido, agora se tiver o lucro de algumas, será um lucro total e alguns números serão adicionados.

Colocando tudo isso de uma forma matemática, tem-se a maximização sobre o espaço amostral do valor, e com isso espera-se um grande volume e se sujeita a não perder muito dinheiro.

Existe uma infinidade de números para modelos de preço. O objetivo é como avaliar isso obtendo um modelo de qualidade e que não tenha muito custo. Uma das maneiras é através do teste A/B. No teste A/B as ofertas são randomizadas para o modelo de preço f e outras para o modelo f', e as métricas observadas são a quantidade e o lucro. Na prática isso parece simples, mas para isso é necessário observar o atraso de medidas das métricas. Para observar a quantidade apenas alguns dias são necessários, mas para se obter uma decisão correta que cobrirá os custos investidos são necessário meses.

Caso os testes iniciem hoje, daqui alguns meses será possível observar um resultado decente, e então por isso não é utilizado o teste A/B. Por esse motivo, foi necessário buscar outros métodos para obter o mesmo resultado. O novo teste escolhido foi o de simulação de ofertas, e para obter o resultado desejado foram realizadas as seguintes etapas:

  1. O histórico de transações de dados.
  2. A lista de casas no mercado.
  3. Um simulador de processo de compra.
  4. Um custo estimado.
  5. Observar o resultado real das casas.

O sucesso é medido através do acontecimento com a casa. Se acreditava-se que iria demorar um bom tempo para vender aquela casa com base nos dados disponíveis naquele momento, mas ela foi vendida mais rapidamente, isso é um resultado.

Foram realizados dois tipos de modelos: um modelo de qualidade com uma linha de base e um outro em benefício dos custos como observado na imagem a cima. Com base nesses resultados pode-se observar nos gráficos abaixo que a venda através do teste A/B que obteria apenas um resultado após meses seria possível traçar apenas uma linha, enquanto através do teste de simulação o modelo de baseline consegue ser muito mais preciso do que com base nos custos.

Uma outra forma em que essa framework é útil é no planejamentos de metas futuras. Isso pode ser feito imaginando o modelo perfeito, onde uma máquina não comete erros, mas isso é irreal pois problemas reais tem diferentes aspectos. Sendo assim, teríamos uma curva para isso um pouco menos idealizada mas também inatingível. A partir disso é possível estimar uma melhora no seu modelo em 10 ou 20%. E este modelo pode ser utilizado para melhorar o seu teste A/B.

Por fim, este modelo pode ser aplicado a outros cenários, para isso é preciso analisar as transações de dados passadas, e então simular o processo de negócio. A receita, então, é um processo generalizado de dados com posterior verificação do modelo de usuário fazendo simulações para que possa ser feito um teste A/B responsivamente.

Para mais informações, a palestra pode ser visualizada no site do InfoQ.

Avalie esse artigo

Relevância
Estilo/Redação

Olá visitante

Você precisa cadastrar-se no InfoQ Brasil ou para enviar comentários. Há muitas vantagens em se cadastrar.

Obtenha o máximo da experiência do InfoQ Brasil.

Dê sua opinião

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão
Comentários da comunidade

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

Dê sua opinião

Faça seu login para melhorar sua experiência com o InfoQ e ter acesso a funcionalidades exclusivas


Esqueci minha senha

Follow

Siga seus tópicos e editores favoritos

Acompanhe e seja notificados sobre as mais importantes novidades do mundo do desenvolvimento de software.

Like

Mais interação, mais personalização

Crie seu próprio feed de novidades escolhendo os tópicos e pessoas que você gostaria de acompanhar.

Notifications

Fique por dentro das novidades!

Configure as notificações e acompanhe as novidades relacionada a tópicos, conteúdos e pessoas de seu interesse

BT