sábado, 30 de dezembro de 2017

Gráfico de Dispersão


Os Gráficos de Dispersão são representações de dados de duas (tipicamente) ou mais variáveis que são organizadas em um gráfico. O gráfico de dispersão utiliza coordenadas cartesianas para exibir valores de um conjunto de dados. Os dados são exibidos como uma coleção de pontos, cada um com o valor de uma variável determinando a posição no eixo horizontal e o valor da outra variável determinando a posição no eixo vertical (em caso de duas variáveis).

Descrito pela primeira vez por Francis Galton, o gráfico de dispersão é usado para verificar se existe relação de causa e efeito entre duas variáveis de natureza quantitativa (variáveis que podem ser medidas ou contadas). Isto não prova que uma variável afeta outra variável, mas determina se existe relação e qual a intensidade da relação entre elas. Por exemplo, o gráfico de dispersão possibilita construir uma regressão linear, determinando-se uma reta que aponta a relação entre duas variáveis e indica a função que dá o comportamento da relação entre elas. Quando o valor de uma variável cai com o aumento do valor de outra variável, diz-se que as variáveis são negativamente correlacionadas. Por exemplo, a venda de carros pode ser negativamente correlacionada com o aumento do desemprego (quanto maior o desemprego, menor a venda de carros). 

Quando o valor de uma variável sobe com o aumento do valor de outra variável, diz-se que as variáveis são positivamente correlacionadas.


EXEMPLOS:




Os Gráficos de Dispersão são utilizados para pontuar dados em um eixo vertical e horizontal com a intenção de exibir quanto uma variável é afetada por outra. Cada linha na tabela de dados é representada por um marcador cuja posição depende dos seus valores nas colunas determinados nos eixos X e Y. Múltiplas escalas podem ser utilizadas no eixo Y para quando você quiser comparar diversos marcadores com faixas de valores significativamente diferentes. Uma terceira variável pode ser configurada para corresponder a cor ou ao tamanho (por ex., um gráfico de bolhas) dos marcadores, então adicionar outra dimensão ao gráfico. A relação entre duas variáveis é chamada de correlação. Se os marcadores estão próximos a formar uma linha reta no gráfico de dispersão, as duas variáveis possuem uma alta correlação. Se os marcadores estiverem igualmente distribuídos no gráfico de dispersão, a correlação é baixa, ou zero. Entretanto, mesmo se a correlação pareça estar presente, esse pode não ser o caso. Ambas as variáveis podem estar relacionadas a uma terceira variável, então expandir a sua variação ou uma pura coincidência pode causar uma aparente correlação.


OUTRO EXEMPLO:

No gráfico de dispersão abaixo, promoções (Y) está plotado em função de custo (X) para um número de produtos diferentes (coloridos por produto), para exibir uma baixa correlação positiva.




Os gráficos de dispersão são usados para examinar a associação entre duas medidas. As medidas podem ser características de qualidade, medidas de processo ou variáveis causais. Ele é uma das mais poderosas ferramentas para se investigar relações e associações entre pares de variáveis de processo. Os gráficos de dispersão nos permitem enxergar padrões fora do comum, dados afetados por causas especiais e agrupamentos interessantes de pontos de dados.