A sentiment analysis about airline companies services using a twitter dataset.
A base que estamos analisando possui 14.640 tweets de passageiros de companhias aéreas com 15 variáveis. Essa base foi extraída do kaggle (https://www.kaggle.com/crowdflower/twitter-airline-sentiment) e por já possuir uma análise feita selecionamos as 6 variáveis que achamos ser pertinentes para comparação entre os tweets e fazer nossa própria análise sobre os comentários e excluímos as variáveis da análise da base. As variáveis selecionadas para análise foram:
Após a leitura da base, tratamos a variável text, transformando-a para caracteres e a variável tweet_created para data. Fizemos então contagens de tweets por companhia aérea, por timezone, por dia, que gerou os seguintes gráficos:
Para uma melhor visualização dos tweets postados por companhia aérea, fizemos um gráfico de tweets por empresa em função da data de postagem.
Removendo as stop words para análise da base, vimos a necessidade de acrescentar outras stop words a lista como http, win, t.co, 2 entre outras, pois não adicionam significado à análise. Após fazer a tokenização e remover as stop words chegamos as seguintes palavras mais comentadas:
A palavra flight certamente é a mais utilizada pois os posts são comentários sobre os voos das empresas, já a palavra JetBlue, como podemos levantar, são relacionadas sempre a um voo da Delta, cancelled sobre cancelamentos de voos, service mencionando algum serviço, time falando sobre horário do voo, customer sobre os clientes, hours novamente relacionado a horário, flights sobre mais de um voo, hold no sentido de que houve uma espera, plane sobre a aeronave.
Fazendo a contagem de palavras por companhia aérea, percebemos que a palavra JetBlue aparece somente na Delta Airlines, relatando sobre voos que essas companhias fazem em parceria, as palavras flight e flights se referem ou a reclamações ou elogios sobre os voos, assim como service, time, hours, que podem ser tanto reclamações como elogios, no entanto cancelled na American indica um descontentamento muito grande em relação a cancelamentos, delayed na Delta também indicando um grande descontentamento, cancelled na Southwest, US Airways e Virgin America. A única que aparece tanto a palavra delayed como cancelled nas 10 maiores ocorrências é a United, mostrando o descontentamento em relação a esses dois itens. Outra palavra que chama atenção é gate, indicando uma mudança de portão constante em seus voos, já a palavra bag, geralmente esta relacionada a extravio de bagagem. Portanto comparando as empresas analisadas, a United apresenta um maior grau de descontentamento que as demais empresas.
No gráfico abaixo podemos observar a nuvem de palavras mencionadas acima de acordo com sua importância:
Analisando o gráfico de sentimentos negativos por dia, podemos perceber um aumento significativo de sentimentos negativos do dia 21 ao dia 23, indicando que houve muitos problemas durante esse período.
Porém ao analisarmos o gráfico dos sentimentos positivos, podemos constatar que o aumento do sentimento positivo se comporta da mesma forma que os negativos, e pela figura acima, constatamos um aumento muito grande nos tweets nesse período, não indicando uma tendência positiva ou negativa, apenas um aumento no número de tweets.
No gráficos de sentimentos positivos e negativos por empresa podemos novamente constatar o aumento de tweets em praticamente todas as empresas, exceto Southwest e Virgin America com volumes muito pequenos.
Fazendo-se a análise de sentimentos por empresa, chegamos ao gráfico abaixo, que indica o constatado anteriormente, ou seja, a United possui um grau de insatisfação maior proporcionalmente as demais empresas.
No gráfico abaixo, podemos observar as palavras que são mais usadas positivamente e negativamente pelos passageiros, tais como atrasado, perdido, pior, ruim, preso, perder, problema aparecem como as principais negativas, e amor, restituição, legal, de graça, útil, incrível, feliz, legal e leal como palavras positivas.
Na contagem de palavras positivas por companhia, podemos observar que a United ganha muitos pontos reembolsando os passageiros, porém isso significa que teve muitos voos cancelados, enquanto que nas concorrentes o número de elogios por reembolso não é tão grande, porém a palavra love aparece com bastante frequência, assim como free, awesome e nice.
Como podemos observar, na contagem de palavras negativas por companhia, as palavras delay e delayed tem uma incidência grande, indicando descontentamento com atrasos por parte dos passageiros, já a palavra worst indica uma insatisfação maior que o aceitável juntamente com a palavra lost indicando perda de bagagem. Na concorrência os atrasos também são o maior ponto de descontentamento, porém possui um grau de incidência menor que na United. Na American, Southwest e US Airways aparece a palavra rude, indicando que os funcionários são rudes com os passageiros.
Nas nuvens de palavras abaixo fica mais fácil observar os pontos levantados acima, onde as palavras com maior incidência aparecem maiores indicando uma maior importância das mesmas.
Positivas | Negativas |
---|---|
![]() |
![]() |
Positivas | Negativas |
---|---|
![]() |
![]() |
Positivas | Negativas |
---|---|
![]() |
![]() |
Positivas | Negativas |
---|---|
![]() |
![]() |
Positivas | Negativas |
---|---|
![]() |
![]() |
Positivas | Negativas |
---|---|
![]() |
![]() |
Para fazer a análise de rede construimos um DTM (Document Term Matrix) onde os nós representam tweets e companhias aéreas, para observarmos a relação entre ambos. Filtramos por time zone, onde a primeira rede criada foi de Sydney e para essa timezone a companhia Delta obteve o maior números de tweets como podemos observar no gráfico abaixo, gerando um degree de 78 para a Delta, 11 para a Virgin America, 8 United, 6 US Airways e 4 degrees para a American.
Adotamos o mesmo procedimento para as timezones Alaska e Amsterdam, chegando nos seguintes resultados:
A rede do Alaska tem uma distribuição entre os nós mais homogênea não havendo concentração em apenas uma companhia.
Na timezone Amsterdam podemos ver novamente uma concentração na companhia United dessa vez, com o total de 46 degrees.
Montando a rede filtrando por palavras negativas, chegamos aos seguintes resultados:
E a rede por palavras positivas apresenta a seguinte configuração:
Pelo estudo acima das postagem dos passageiros através dos tweets podemos chegar a conclusão que, para essa amostra, o número de passageiros descontentes com o serviço prestado pela United é maior que a de seus concorrentes, e através do estudo de análise de sentimentos podemos detectar onde estão as principais reclamações, as que ocorrem com maior frequência e indicar onde a empresa deve aplicar seus recursos afim de melhorar sua imagem com os consumidores.
Vimos que a política de reembolso da United está agregando bastante valor aos seus passageiros, que saem satisfeitos indicando que procurarão a companhia no futuro, portanto esse é uma política que deve ser mantido pela empresa, assim como a cordialidade de seus funcionários que também faz a empresa se sobressair sobre as demais.
Já no lado negativo, vimos que a empresa deve se empenhar e despender recursos para diminuir ao máximo os atrasos de voos que é o ponto que ela mais perde para seus concorrentes, assim como melhorar o método de transporte de bagagem pois ela costuma ter mais problemas com isso que os concorrentes. Trabalhando esses dois pontos a companhia diminuirá significativamente o número de passageiros descontentes que ela atualmente pode estar perdendo para seus concorrentes.