key: cord-0440122-3cwz5pa8 authors: Melo, Tiago de title: User Questions from Tweets on COVID-19: An Exploratory Study date: 2020-11-20 journal: nan DOI: nan sha: 714196330f27d2f9a7a12013502b38a5abfcbdfd doc_id: 440122 cord_uid: 3cwz5pa8 Social media platforms, such as Twitter, provide a suitable avenue for users (people or patients) concerned on health questions to discuss and share information with each other. In December 2019, a few coronavirus disease cases were first reported in China. Soon after, the World Health Organization (WHO) declared a state of emergency due to the rapid spread of the virus in other parts of the world. In this work, we used automated extraction of COVID-19 discussion from Twitter and a natural language processing (NLP) method based on topic modeling to discover the main questions related to COVID-19 from tweets. Moreover, we created a Named Entity Recognition (NER) model to identify the main entities of four different categories: disease, drug, person, and organization. Our findings can help policy makers and health care organizations to understand the issues of people on COVID-19 and it can be used to address them appropriately. Em dezembro de 2019, o surto do COVID-19 na China foi noticiado [26] . Devido ao rápido espalhamento do vírus no mundo, a Organização Mundial de Saúde (OMS) declarou estado de emergência. Recentes pesquisas confirmaram que a atual pandemia pode dobrar o número de pessoas infectadas a cada 7 (sete) dias e que cada paciente pode espalhar o vírus, na média, para 2.2 outras pessoas [37] . Na América Latina, houve o registro de 718,615 casos de COVID-19 e 39,229 mortes confirmadas até o dia 25 de maio de 2020 [28] . No continente, o Brasilé o país mais afetado pela doença. De acordo com o mesmo relatório [28] , houve o registro de 347,398 casos de infectados e de 22,013 mortes no Brasil. Devido a propagação da doença no mundo, as plataformas de mídias sociais como Twitter, Facebook e Instagram tornaram-se locais onde ocorre uma intensa e contínua troca de informações entreórgãos governamentais, profissionais daárea de saúde e o público em geral. Um representativo número de estudos científicos têm mostrado que as mídias sociais podem desempenhar um papel importante como fonte de dados para análise de crises e também para entender atitudes e comportamentos das pessoas durante uma pandemia [22, 19, 12] . Com o objetivo de auxiliar o monitoramento da saúde pública e também para dar suporte a tomada de decisão de profissionais, diversos sistemas de monitoramento vêm sendo desenvolvidos para classificar grandes quantidades de dados oriundos das mídias sociais. Estes dados podem ser empregados para identificar rapidamente os pensamentos, atitudes, sentimentos e tópicos que ocupam as mentes das pessoas em relaçãoà pandemia do COVID-19 [3] . A análise sistemática desses dados pode ajudar os governantes, profissionais da saúde e o público em geral a identificar questões que mais lhes interessam e tratá-las de maneira mais apropriada. arXiv:2012.05836v1 [cs.SI] 20 Nov 2020 TECHNICAL REPORT -11 DE DEZEMBRO DE 2020 Dentre as plataformas de mídias sociais, o Twitteré uma das mais populares. De acordo com [14] , existe aproximadamente 200 milhões de usuários registrados nesta plataforma e que publicam mais de 500 milhões de tuítes diariamente. Portanto, pode-se aproveitar desse alto volume e troca frequente de informações para se conhecer as dúvidas sobre determinadas crises. Como exemplo de importância desta plataforma em situações de crise, a atual pandemia de COVID-19 foi primeiro comunicada para a populacão na China através do site Weibo, queé o correspondente ao Twitter na China, antes mesmo do pronunciamento oficial das autoridades locais. Recentemente, existe um grande interesse de pesquisadores investigando o uso do Twitter para pesquisas relacionadasà saúde pública [3, 22, 27, 23] . Diante deste cenário, nós apresentamos um estudo exploratório de mineração de opinião das mensagens de usuários do Twitter relacionadasà COVID-19. Mais especificamente, nós focamos a nossa análise nas perguntas dos usuários, pois entendemos que seja um tipo de mensagem apropriado para se compreender as principais dúvidas das pessoas sobre a atual pandemia. A nossa análise se concentrará em postagens em português pelo fato do Brasil ser o país mais populoso da América Latina e também o país mais afetado pela COVID-19. Para isto, nós coletamos e processamos os tuítes postados em português de 1 o de janeiro a 30 de abril de 2020. Os tuítes coletados foram processados e as perguntas foram identificadas. Nós analisamos os tuítes coletados usando a técnica de modelagem de tópicos para identificar os principais tópicos discutidos pelas pessoas no Twitter. Nós ainda desenvolvemos um modelo de Reconhecimento de Entidades Mencionadas (REM) que permite identificar as principais menções a um grupo pré-definido de entidades: a) doenças; b) medicamentos; c) pessoas; d) organizações. A análise desses dados pode ajudar os formuladores de políticas públicas e as organizações de assistência médica a compreender as principais questões do público em geral. Dentre as nossas descobertas, nós conseguimos identificar a mudança da percepção dos usuários, ao longo do tempo, em relaçãoà doença. A preocupação com a morte somente ficou evidenciada após o registro, em março de 2020, do primeiro caso de brasileiro morto por COVID-19. Foi possível ainda perceber que, ao aplicarmos a identificação das entidades nomeadas das perguntas, há muita dúvida sobre os tipos de medicamentos que poderiam ser utilizados para combater a doença. A identificação das dúvidas mais comuns sobre o uso dos medicamentos poderia ajudar os agentes públicos no enfretamento da doença através, por exemplo, de campanhas publicitárias para elucidação dos principais questionamentos. Resumidamente, as contribuições deste trabalho são: Modelagem de tópicosé uma das técnicas mais empregadas na mineração de dados, descoberta de dados latentes, e identificação de relacionamentos entre dados e documentos textuais [17] . Nós adotamos o modelo Latent Dirichlet Allocation (LDA) [5] para identificar os tópicos relevantes sobre a COVID-19 no nosso conjunto de dados. LDA permite descobrir tópicos latentes usando a distribuição de probabilidade multinomial dos termos em documentos não estruturados. Similarmente aos métodos descritos em [36] e [27] , nós executamos os experimentos variando o número de tópicos. Nos nossos experimentos, nós aplicamos a variação de tópicos de 1 a 60, e selecionamos o modelo com o maior valor de pontuação de coerência (coherence score). A geração dos tópicos foi executada para cada mês com o objetivo de identificar a mudança dos tópicos discutidos no Twitter ao longo do quadrimestre. Nós selecionamos o modelo que gerou 20 tópicos, com um valor médio de pontuação de coerência entre os quatro meses de 0.674. Este valoré usado como uma métrica que calcula a concordância de um conjunto de pares e subconjunto de palavras e as probabilidades associadas em umúnico valor [31] . Em geral, os tópicos são interpretados como sendo coerentes se todos os termos, ou a maioria destes, são relacionados. A Figura 3 apresenta o gráfico da relação do número de tópicos com a pontuação de coerência.É possível notar que a pontuação de coerência tende a reduzir quando o número de tópicos seja superior a 20. A Figura 4 apresenta a distribuição do número de tópicos para cada mês. Nós observamos que existe certos tópicos que são mais populares. Ao analisarmos o tópico com maior número de postagens em cada mês, nós percebemos que esseé um tópico geral que agrupou termos relativosà própria doença. Reconhecimento de Entidades Mencionadas (REM)é definida como uma tarefa não-trivial de automaticamente identificar e classificar certas menções a entidades em um dado texto [21] . Por exemplo, na sentença "Chá de alho cura coronavírus?" postada por um dos usuáriosé possível identificar uma dúvida sobre o uso de tratamentos alternativos para a cura da COVID-19. Neste caso, apesar de chá de alho não ser um tipo de medicamento oficialmente reconhecido, o modelo REMé capaz de identificar que muitas pessoas consideram este tipo de chá como um medicamento para a COVID-19. Os métodos que lidam com a tarefa de reconhecer entidades mencionadas são baseados principalmente em modelos de aprendizagem de máquina [9, 33, 4] . A extração de entidades mencionadas no Twitteré uma tarefa ainda mais desafiadora [6] . Primeiro, as postagens no Twitter são curtas (máximo de 280 caracteres) e, portanto, são mais difíceis de se interpretar quando comparadas com textos mais longos. Segundo, os textos curtos apresentam muitas variações linguísticas e tendem a ser menos corretos em termos gramaticais. Porúltimo, a maioria das pesquisas sobre ferramentas de processamento de linguagem natural são voltadas para o idioma inglês [32] . Para esta tarefa, nós usamos a ferramenta spaCy [16] Nesta seção, nós discutimos a criação e a performance do modelo REM proposto e também a aplicação do modelo no conjunto de dados coletados. Para o modelo REM proposto, nós consideramos quatro entidades: Doença (DIS), Medicamento (DRUG), Organização (ORG) e Pessoa (PER). Para cada tipo de entidade mencionada, nós usamos as métricas de Precision (P), Recall (R) e F-Measure (F1). Precision corresponde ao percentual correto de menções a entidades, recall corresponde ao percentual do total de entidades que foram corretamente reconhecidas pelo modelo, enquanto F-Measure (F1)é a média harmônica entre precisão e revocação. Estas métricas são comumente utilizadas para avaliar a performance de modelos de REM [21, 18, 24, 11] . Com o objetivo de treinar o novo modelo, nós fizemos a anotação dos dados de treino. Para esta tarefa, nós usamos a ferramenta WebAnno [10] . A Figura 5 mostra uma captura de tela da ferramenta e alguns exemplos de anotações das entidades. [7] . Assim como ocorreu na aplicação do LDA para geração de tópicos, os termos representados como n-grams não apareceram destacados na nuvem de palavras. Nós iniciamos esta seção discutindo algumas limitações atribuídas a este estudo. Os dados foram obtidos através de um conjunto pré-definido de palavras-chaves. Portanto,é possível que alguns usuários tenham publicado mensagens sobre a pandemia de COVID-19 usando um conjunto de termos diferentes das palavras-chaves usadas na coleta e, consequentemente, estas mensagens não foram coletadas. Outra limitaçãoé que o Twitter não divulga dados sobre o perfil de seus usuários, tais como idade, sexo ou classe social. Assim, não foi possível realizar uma análise estratificada dos usuários e a amostragem analisada pode não representar toda a população brasileira. Além disso, uma limitaçãoé que focamos exclusivamente nos dados de redes sociais e, portanto, nossas conclusões não podem ser generalizáveis para outras plataformas de mídias sociais ou outros meios de comunicação, tais como TV ou rádio. Finalmente, apesar do Twitter ser uma plataforma bastante popular no Brasil, esta nãoé utilizada por toda a população. Assim, recomenda-se cautela antes de assumir a generalização dos resultados. A pandemia do COVID-19 vem ceifando a vida de milhões de pessoas no mundo. Atualmente, muitas pessoas fazem uso das mídias sociais como o Twitter para expressar diversos tipos de questionamentos sobre a doença. A compreensão das dúvidas comuns dos usuários dessas redes sociais pode ser um ponto de partida para projetar mensagens estratégicas para campanhas de saúde e estabelecer um sistema de comunicação eficaz durante a pandemia para um melhor enfrentamentoà doença. Como trabalhos futuros, nós pretendemos investigar a aplicação dos métodos desenvolvidos neste trabalho em outras fontes de mídias sociais, tais como, Instagram, Facebook e YouTube. Além disso, nós pretendemos estender o estudo para incluir dados de períodos mais longos, mesmo após o fim da pandemia. O objetivoé entender a manifestação das pessoas sobre o surto da doença. Google Trends, acessado em 26 de maio de 2020 Top concerns of tweeters during the covid-19 pandemic: infoveillance study Recent progress of named entity recognition over the most popular datasets Latent dirichlet allocation Twitie: An open-source information extraction pipeline for microblog text Drauzio Varella prevê tragédia nacional por coronavírus: Brasil vai pagar o preço da desigualdade Coronavírus: SP confirma novas mortes e número deóbitos sobe para 18 no Brasil Evaluation of cosine similarity feature for named entity recognition on tweets A web-based tool for the integrated annotation of semantic and syntactic structures Analysis of named entity recognition and linking for tweets. Information Processing & Management Twitter vs news: Concern analysis of the 2018 california wildfire event Applying deep neural networks to named entity recognition in portuguese texts Classification of tweets data based on polarity using improved rbf kernel of svm Word cloud explorer: Text analytics based on word clouds Matthew Honnibal. spaCy, acessado em 26 de maio de 2020 Latent dirichlet allocation (lda) and topic modeling: models, applications, a survey Ln-annote: An alternative approach to information extraction from emails using locally-customized named-entity recognition Topic-based content and sentiment analysis of ebola virus on twitter and in the news Question identification on twitter A survey on deep learning for named entity recognition Characterizing the propagation of situational information in social media during covid-19 epidemic: A case study on weibo Health communication through news media during the early stage of the covid-19 outbreak in china: Digital topic modeling approach Recognizing named entities in tweets Comparing different methods for named entity recognition in portuguese neurology text The coronavirus 2019-ncov epidemic: Is hindsight 20/20? EClinicalMedicine Exploratory analysis of covid-19 tweets using topic modeling World Health Organization et al. Coronavirus disease 2019 (covid-19): situation report Is twitter a good place for asking questions? a characterization study Software Framework for Topic Modelling with Large Corpora Exploring the space of topic coherence measures Named entity disambiguation over texts written in the portuguese or spanish languages Assessing the impact of contextual embeddings for portuguese named entity recognition Twitter as a tool for health research: a systematic review Answering twitter questions: a model for recommending answerers through social collaboration Full-text or abstract? examining topic coherence scores using latent dirichlet allocation The covid-19 epidemic Geographic variability of twitter usage characteristics during disaster events. Geo-spatial information science Questions about questions: An empirical analysis of information needs on twitter