Explorando a Relação entre as Métricas de Engajamento e o Indicador SSI no LinkedIn

Gil Ewerton Almeida
14 min readMay 22, 2024

Sinopse:

Este artigo apresenta uma análise sobre a relação entre o indicador Social Selling Index (SSI) da rede profissional LinkedIn e métricas de engajamento, como visualizações do perfil, ocorrência em resultados de busca, número de seguidores, frequência de postagens e comentários.

O objetivo do estudo é entender como esses fatores se relacionam e quais insights podem ser extraídos para otimizar o desempenho dos usuários no LinkedIn.

Para isso, foram utilizadas técnicas e metodologias de gerenciamento de projetos, como SIPOC para mapeamento de processos, a metodologia CRISP-DM para o desenvolvimento do projeto de dados, além do controle efetivo de cronogramas de atividades, tarefas resumo e custo geral do projeto.

A análise abrange desde o entendimento do negócio e planejamento do projeto até a modelagem e análise exploratória dos dados coletados resultando em conclusões relevantes que podem nortear os usuários a aproveitar melhor a plataforma profissional.

Principais descobertas extraídas da análise:

  • 33% da variabilidade do valor do SSI pode ser explicada pela frequência de postagens, indicando que aumentar a frequência de postagens pode levar a um aumento no valor do SSI;
  • 29% da variação do número de visualizações do perfil pode ser explicada pela frequência de postagens;
  • A frequência de comentários tem pouca influência (6% a 2%) na variabilidade das métricas de visualizações, ocorrência em buscas e número de seguidores;
  • Manter uma frequência alta de postagens está associado a uma maior estabilidade na popularidade do perfil e efetividade nas buscas;
  • Para maximizar a consistência no engajamento, é benéfico para o usuário do LinkedIn postar e comentar frequentemente;
  • Para maior estabilidade na popularidade e visibilidade do perfil, postagens frequentes são mais eficazes.

Sumário:

Entendimento do Negócio
Objetivo
Premissas
Riscos Envolvidos — Análise SWOT
Custo X Benefício
Critérios De Sucesso
Planejamento Do Projeto
SIPOC
EAP do Projeto
Cronograma de Atividades
Visão de Custo do Projeto
Entendimento dos Dados
Descrição dos Dados e Coleta
Modelagem dos Dados
•Histograma;
•Diagrama de Pareto;
•Box-Plot
•Medidas resumo (Mínimo, Máximo, Média, Mediana, Desvio Padrão)
•R-Quadrado;
•Correlação
Análise Exploratória — Univariada
Análise Exploratória — Bivariada
Feature Engineering
Conclusão

Entendimento do Negócio

Objetivo

Entender a relação entre o indicador SSI (Social Selling Index) da rede profissional LinkedIn, e métricas de engajamento, como visualizações do perfil, ocorrência no resultado de buscas, número de seguidores, quantidade média de posts realizados por semana, assim como a quantidade de comentários realizados.

Objetivo SMART

Premissas

A pesquisa e levantamento dos dados foi conduzida pelo Vinícius Souza Head Of Data da escola de dados Preditiva.ai:

· Os participantes voluntários da pesquisa fornecerão dados importantes e não sensíveis de seus perfis públicos no LinkedIn como número de visitas ao perfil entre outros;
· A pesquisa se dará de forma anônima e independente sem qualquer viés de seleção.

Riscos Envolvidos — Análise SWOT

Para mapeamento dos riscos, foi utilizado a ferramenta SWOT para identificação das forças, fraquezas, oportunidade e ameaças envolvidas no processo:

Análise SWOT

Custo X Benefício

Para um melhor entendimento e explanação dos benefícios esperados, foi desenvolvido uma tabela e matriz de custo x benefícios que visa avaliar e comparar os custos tangíveis e intangíveis do projeto em relação aos benefícios esperados. A classificação dos custos e benefícios esperados assumem pesos de 1 a 5, sendo 1 baixo custo e baixo benefício esperado e 5 sendo alto custo e alto benefício esperado.

Fonte: Tabela Custo x Benefício - Gil Ewerton
Fonte: Matriz Custo x Benefício dos Dados- Gil Ewerton

Sendo assim, com base nos valores apresentados, o projeto apresenta-se como sendo viável por apresentar um alto benefício esperado e custo baixo-médio, justificando assim o seu desenvolvimento.

Critérios De Sucesso

· Identificação de correlações relevantes que possam fornecer insights sobre a importância e impacto do SSI;
· Analisar se a frequência de postagens tem uma relação mais forte com a Popularidade do Perfil ou outra métrica de engajamento;

Planejamento Do Projeto

Nessa etapa do planejamento, serão utilizadas técnicas e metodologias de mapeamento dos processos macro como SIPOC para identificar os fornecedores, entradas, processos envolvidos, a saída e os clientes. Outras técnicas de gerenciamento de projetos serão utilizadas para trazer maior clareza e controle do projeto a ser desenvolvido.

O SIPOC é uma ferramenta de mapeamento de processos que ajuda a clarificar o escopo de um projeto, identificar os fornecedores, entradas, processos, saídas e clientes.

SIPOC

Quadro SIPOC - Gil Ewerton

EAP do Projeto

Foi desenvolvida uma EPA (Estrutura Analítica do Projeto) seguindo as fazes ou etapas da metodologia CRISP-DM para desenvolvimento de projetos de dados. Dessa forma, garante uma abordagem estruturada, eficiente e lógica do projeto na condução de todo o projeto para todos os envolvidos.

EAP - Estrutura Analítica de Projeto

Cronograma de Atividades

Com o intuito de garantir a organização e pontualidade e eficiência durante a execução do projeto, foi necessário criar um cronograma de atividades previstas dentro de cada etapa da metodologia CRISP-DM. O cronograma abaixo detalha todas as atividades necessárias, duração prevista, interdependências das atividades, recursos utilizados, custo previsto por tarefa e tarefas resumo (Grupo de tarefas) assim como margem de atraso permitida, ou seja, caso aquela tarefa atrase impactará diretamente na tarefa subsequente e por sequência o projeto.

Cronograma do Projeto

Durante a construção do cronograma também foi definido a linha de base do projeto, assim poderemos analisar o planejado versus executado dos prazos definidos no início do projeto. Além disso, cabe destacar também as tarefas críticas do projeto, ou seja, são aquelas tarefas que caso atrasem impactaram negativamente no cronograma final do projeto, que por sua vez possuem margem de atraso permitida na tabela anterior como 0 dias.

EAP com Gráfico de Gantt e Tarefas Criticas

Visão de Custo do Projeto

Trazendo uma visão de custo geral do projeto e por recusos, temos uma projeção de custo geral de R$ 2.634,68 com com um dedicação em horas de trabalho em 101,2hs a um custo por hora de R$ 25,90/hr para um analista de dados e 42,90/hr para o Coordenador de dados.

Entendimento dos Dados

Descrição dos Dados e Coleta — Origem dos dados

Os dados utilizados no projeto, foram coletados via formulário de pesquisa criado pela empresa Preditiva.ai e compartilhado na rede social LinkedIn para participação voluntária dos usúarios. Os dados coletados foram disponibilizados em arquivo Excel aos participantes da pesquisa posteriormente.

Tipo de dados:
Os dados disponibilizados são do tipo data, numérico e categórico sendo elas:
• Submission data
• Qual o valor do seu SSI?
• Qual o seu número de visualizações de perfil nos últimos 90 dias?
• Qual o seu número de ocorrências em resultados de busca na semana anterior?
• Qual o seu número de seguidores?
• Qual a sua quantidade de posts média por semana?
• Qual a sua quantidade de comentários?
• Submission id
Dados Numéricos: Valor do SSI, número de visualizações de perfil, número de ocorrências em resultados de busca, número de seguidores.
Categóricos: Frequência de posts, quantidade de comentários.

Amostra da Base de Dados

Volume dos Dados:
Analisando o conjunto de dados, nota-se que possui 02 (dois) dados faltantes (Missing data) no total, sendo 01 (um) coluna de “valor do seu SSI” e 01(um) na coluna “Quantidade de comentários”.

Modelagem dos Dados

As técnicas estatísticas a serem utilizadas durante o projeto para resolução do problema de negócio serão:

  • Histograma;
  • Diagrama de Pareto;
  • Box-Plot
  • Medidas resumo (Mínimo, Máximo, Média, Mediana, Desvio Padrão)
  • R-Quadrado;
  • Correlação.
  • Com a aplicação das técnicas acima, já será possível ter uma boa ideia dos dados e extrair insights relevantes.

Análise Exploratória — Univariada

Nesta etapa do projeto, será feita a análise univariada que tem como objetivo fazer a leitura e interpretação de cada variável individualmente. Dito isso, faremos a análise da primeira variável “Qual o valor do seu SSI?”

Gráfico Histograma
Tabela de frequência – Valor do SSI

· A maioria dos voluntários tem pontuações concentradas na faixa de 28 a 38, o que indica que essa é a faixa de pontuação mais comum entre os participantes;
· Os scores estão distribuídos principalmente entre (28, 38) pontos, com uma frequência significativa também na faixa de (38 a 48);
· As faixas de pontuação mais baixas (8 a 18) e mais altas (58 a 78) são menos comuns, indicando que poucos voluntários possuem pontuações muito baixas ou muito altas;
· A presença de pontuações na faixa mais alta (68 a 78) sugere a existência de outliers, ou seja, voluntários com pontuações muito acima da média.

Ao analisamos o Box-Plot, podemos notar que não há outliers o que poderia no valor da média por exemplo. Dito isso, podemos fazer a seguinte leitura do gráfico abaixo da variável “Qual o valor do seu SSI?”:

· O gráfico nos mostra que na variável valor do SSI apresenta valor Mínimo de 8 pontos e máximo de 74;
· A amplitude amostral apresentada (Valor máximo — Valor mínimo) é de 66 pontos, indicando que há uma variação considerável no indicador SSI entre os usuários do LinkedIn;
· A média e mediana do conjunto de dados é de 40 e 39 pontos respectivamente;
· O Q1 (1º Quartil) mostra que 25% dos voluntários que participaram da pesquisa possuem uma pontuação de até 31 pontos;
· O Q2 (2º Quartil) que representa 50% dos dados e por sua vez, o mesmo valor da mediana 39 pontos;
· O Q3 (3º Quartil) mostra que 75% dos usuários participantes da pesquisa possuem uma pontuação de até 49 pontos.

Gráfico Box-Plot

Na pesquisa realizada, foi solicitado para que os usuários informassem o número de visualizações em seus perfis nos últimos 90 dias, que é a variável que iremos analisar em seguida.

Ao fazer a separação por faixa de visualizações, nota-se que 94% dos usuários receberam nos últimos 90 dias um volume de até 999 visualizações em seus respectivos perfis.

Gráfico Pareto

Entendo melhor os dados de número de visitas no perfil, podemos notar um número alto de outliers, apresentados no Box-Plot abaixo, impactando diretamente na média mensal e diária. No geral, podemos notar um baixo número de visitas nos últimos 90 dias:

· Os dados mostram que 25% dos usuários tiveram até 41 visitas em seus perfis nos últimos 90 dias;
· 50% usuários que corresponde a mediana, demonstram ter tido até 90 visitas em seus perfis nos últimos 90 dias;
· 75% dos usuários tiveram até 217 visitas em seus perfis nos últimos 90 dias;
· Média de visitas apresentadas foi de 343 visitas nos últimos 90 dias com um desvio padrão de 1029, indicando uma alta variabilidade nos dados apresentados.

A média pode não refletir de maneira precisa o número típico de visitas que a maioria dos usuários recebe. Isso é evidenciado pela comparação com a mediana (90 visitas), que é uma medida de tendência central menos sensível a outliers (Valores extremos) e pode proporcionar uma visão mais fiel do comportamento dos dados. Portanto, para uma melhor interpretação do comportamento no número de visitas, além da média, é fundamental considerar outras medidas estatísticas como a mediana e os quartis para um melhor entendimento dos dados.

A próxima métrica que iremos analisar é “número de ocorrências em resultados de busca na semana anterior.” Essa métrica indica quantas vezes seu perfil apareceu nos resultados de busca, refletindo sua visibilidade na rede.

Tabela de Frequência - Resultado de Busca Semana Anterior

· O Q1 (1º Quartil), que representa os primeiros 25% dos dados, mostra que os participantes tiveram até 12 ocorrências de busca em relação à semana anterior;
· O Q2 (2º Quartil) mostra que 50% dos participantes tiveram um resultado de 22 ocorrências em relação à semana anterior;
· O Q3 (3º Quartil) os dados mostram que até 75% dos voluntários participantes apresentam um resultado de até 42 ocorrências de busca se comparado com a semana anterior;
· Ao analisar a média do número de ocorrências, nota-se um aumento significativo devido a presença de Outilers nos dados analisados, indo para 86 o número de ocorrências em relação à semana anterior com um desvio padrão de 427 o que pode não refletir a realidade, uma vez que 78,8% dos voluntários participantes apresentaram até 49 ocorrências de buscas.

A variável “número de seguidores” como o próprio nome sugere, é o número de seguidores e conexões presente da rede profissional do usuário.

Tabela de Frequência - Nº de Seguidores

· O Q1 (1º Quartil) mostra que 25% dos participantes possuem até 539 seguidores em seu perfil;
· O Q2 (2º Quartil) os dados revelam que até 50% dos voluntários apresentam um número de até 981 seguidores;
· O Q3 (3º Quartil) mostra 75% dos participantes da pesquisam possuem um número de seguidores abaixo de 2000;

Gráfico - Box-Plot Nº de Seguidores

Quanto mais seguidores você tem, maior é o alcance orgânico dos seus conteúdos. Isso significa que suas publicações podem ser vistas por um público mais amplo.

Na pesquisa foi questionado qual a frequência média de post semanal que era realizado no LinkedIn. Certa de 67% dos respondentes informaram que quase nunca posta algo na rede, e 19% declara postar cerca de uma vez por semana. Ou seja, cerca de 87% dos respondentes, fazem parte do grupo de usuários que nunca postam ou postam apenas uma vez por semana.

Gráfico - Pareto Freq de Post Semanal
Tabela de Frequência - Post Semanal

· O comportamento quanto a frequência de comentários realizados mostra que 44% dos usuários quase nunca costumam fazer comentários;
· 24% dos usuários relataram fazer comentários de duas a três vezes;
· 13% afirmaram fazer algum comentário diariamente no LinkedIn.

Análise Exploratória — Bivariada

Análise R Quadrado:

O R-quadrado é uma medida estatística de quão próximos os dados estão da linha de regressão ajustada. Ele também é conhecido como o coeficiente de determinação ou o coeficiente de determinação múltipla para a regressão múltipla.
Fonte: https://blog.minitab.com/

Em termos simples, o R-quadrado é um número que indica o quanto uma variável explica a variação de outra variável. Quanto mais próximo de 01 estiver, mais forte a associação.
- R² igual a (0) zero: Indica a inexistência de associação entre as variáveis.
- R² igual a (1) um: Indica forte associação entre as variáveis.

Tabela R- Quadrado

· 33% da variabilidade do valor do SSI pode ser explicada pela frequência de post/publicações. Aumentar a frequência de postagens pode levar a um aumento no valor do SSI, indicando a importância da consistência e da interação com a audiência;
· 29% da variação do número de visualizações no perfil pode ser explicada pela frequência de post;
· A frequência de comentários pode explicar pouco a variabilidade da Visualização do perfil (6%), número de ocorrência no resultado de busca (3%), e seguidores (2%) respectivamente. Embora os comentários sejam importantes para o engajamento, podem não ser tão determinantes quanto a frequência de postagens para essas métricas específicas.

Gráfico - Correlograma frequência de Postagem

· As correlações encontradas no gráfico acima, indica que a frequência de postagem está fortemente relacionada com o número de seguidores e o valor do seu SSI;
· A análise anterior mostrou que manter uma frequência alta de postagens está associado a uma maior estabilidade na popularidade do perfil e efetividade nas buscas. A correlação na matriz acima corrobora essa relação, mostrando que a frequência de postagem diária tem fortes correlações com o número de seguidores e o valor do seu SSI.

Feature Engineering

Para extrair novos insights dos dados disponíveis, será preciso a criação de novas variáveis a partir das variáveis existentes na base de dados. Dessa forma, espera-se obter um maior entendimento do comportamento e as relações ocultas ou não implícitas dos dados.

  • Será feito a conversão dos dados qualitativos “Textos” por valores numéricos para uma análise quantitativa:

A partir disso, será criado variáveis para auxiliar no maior entendimento dos dados. As variáveis são: “Engajamento Total”, “Taxa de Engajamento”, “Popularidade do Perfil”, “Efetividade nas Buscas”.

Tabela Novas Variáveis - Formulação
Tabela Novas Variáveis

Iremos aplicar a técnica estatística desvio padrão para analisar as novas variáveis. Dessa forma, podemos comparar a variabilidade do engajamento, popularidade do perfil e efetividade nas buscas.

Tabela Desvio Padrão - Novas Variáveis

Engajamento:
· Nota-se que, o grupo que comenta quase que diariamente possui um desvio padrão menor (0,007). Ou seja, tem maior estabilidade quanto ao engajamento na rede profissional;
· A variabilidade do engajamento para quem posta quase que diariamente e duas a três vezes mostrou-se como nula (0,00). Isso pode indicar que, para quem possui frequência de post >02 a 03 vezes por semana, também mostra possui uma variabilidade no engajamento menor.

Sendo assim, a leitura que podemos fazer com base nos dados acima é que, tanto para quem posta, quanto para quem comenta, manter uma frequência alta está ligeiramente associado a um engajamento mais consistente.

Popularidade do Perfil:
· A maior variabilidade na popularidade do perfil é para quem posta “de duas a três vezes” (0,27);
· A menor variação é para quem posta “quase diariamente” (0,13) e “quase nunca” (0,10).

Podemos compreender que, a variabilidade na
popularidade do perfil é maior para os grupos que têm uma frequência de comentários e postagens intermediária, enquanto é mais estável para os extremos (quase diariamente e quase nunca).

Efetividade nas Buscas:
· A maior variabilidade na efetividade nas buscas é para quem posta “de duas a três vezes” (0,26), enquanto a menor é para quem posta “quase diariamente” (0,01).

A efetividade nas buscas é mais variável para atividades de frequência intermediária e mais estável para atividades diárias (quase diariamente).

Sendo assim, podemos compreender com os dados apresentados que:

Para maximizar a consistência no engajamento, é benéfico para o usuário do LinkedIn postar e comentar frequentemente, enquanto para maior estabilidade na popularidade e visibilidade do perfil, postagens frequentes são mais eficazes, enquanto comentários frequentes podem causar flutuações significativas na popularidade e visibilidade do perfil na rede social profissional.

Conclusão

Com base na análise realizada, podemos concluir que o objetivo inicial do projeto foi alcançado. Identificamos correlações relevantes entre algumas variáveis, como a frequência de postagens e o valor do SSI, além da relação entre a frequência de postagens e o número de visualizações de perfil.

Frequência de Postagens e SSI:
· 33% da variabilidade do valor do SSI pode ser explicada pela frequência de postagens. Isso indica que aumentar a frequência de postagens pode levar a um aumento no valor do SSI, reforçando a importância da consistência e interação com a rede.

Frequência de Postagens e Visualizações do Perfil:
· 29% da variação do número de visualizações do perfil pode ser explicada pela frequência de postagens.

Entretanto, a análise inicial não permitiu conclusões sobre a relação entre SSI e a geração de novas oportunidades profissionais, pois não possuía variáveis que permitissem tal análise. Além disso, não foi possível fazer inferências sobre distribuições por gênero, região, área de atuação/setores e formação, pois esses dados não foram coletados inicialmente, deixando espaço para futuros estudos que venham a complementar esta análise inicial.

💻: https://www.linkedin.com/in/gil-ewerton-almeida/
✉️: gilewerton80@gmail.com
Portfólio: https://biyo.page/p/gilewerton

--

--