• Home
  • Seminário 1
    • Artigo 1: Differentiable Pattern Set Mining
    • Artigo 2: Discovering frequent parallel episodes in complex event sequences by counting distinct occurrences
  • Seminário 2
    • Artigo 3: Interpretable Patterns from Neural Networks: Creating Meaning from Complex Data
    • Artigo 4: Local Subgroup Discovery on Attributed Network Graphs
  • Seminário 3
    • Artigo 5: Modeling Match Performance in Elite Volleyball Players: Importance of Jump Load and Strength Training Characteristics
    • Artigo 6: Exceptional Subitizing Patterns: Exploring Mathematical Abilities of Finnish Primary School Children with Piecewise Linear Regression
  • Projetos

Nesta página

  • 1 Introdução
  • 2 O que é subitização?
  • 3 Ferramentas e metodologia utilizadas
    • 3.1 Mineração de Modelos Excepcionais (EMM)
    • 3.2 Regressão Linear Segmentada
    • 3.3 Avaliação dos subgrupos
    • 3.4 Modelo matemático
    • 3.5 Avaliação da qualidade dos subgrupos
    • 3.6 Pré-processamento dos dados
    • 3.7 Implementação
  • 4 Resultados encontrados
    • 4.1 Impacto e aplicações
    • 4.2 Limitações e críticas metodológicas
    • 4.3 Questões éticas
  • 5 Conclusão
  • 6 Referências

Artigo 6: Exceptional Subitizing Patterns: Exploring Mathematical Abilities of Finnish Primary School Children with Piecewise Linear Regression

1 Introdução

A subitização é uma das primeiras habilidades numéricas que emergem no desenvolvimento cognitivo infantil. Trata-se da capacidade de reconhecer automaticamente, de forma rápida e precisa, pequenas quantidades de objetos geralmente até três ou quatro sem a necessidade de contagem explícita. Essa habilidade, observável já em bebês e em animais, é considerada uma manifestação do chamado “sistema número aproximado” (ANS – Approximate Number System), e representa um alicerce importante para o desenvolvimento posterior de competências matemáticas mais elboradas, como a contagem, o cálculo mental e o raciocínio algébrico.

Estudos na área da psicologia cognitiva e neurociência vêm mostrando que o desempenho em tarefas de subitização está fortemente associado à fluência aritmética e pode servir como um indicador precoce de dificuldades de aprendizagem, como a discalculia. Assim, entender como essa habilidade se manifesta, quais variáveis influenciam sua eficiência e como ela se relaciona com outras dimensões do desempenho matemático é essencial tanto para a pesquisa quanto para a prática pedagógica.

É nesse contexto que se insere o artigo “Exceptional Subitizing Patterns: Exploring Mathematical Abilities of Finnish Primary School Children with Piecewise Linear Regression”, de Rianne Schouten et al. O trabalho propõe uma abordagem onde utiliza métodos de mineração de padrões locais para identificar subgrupos de crianças cujas curvas de subitização se desviam do padrão esperado. A proposta metodológica se destaca por combinar técnicas estatísticas como a regressão linear segmentada com mecanismos inteligentes de descoberta de padrões, possibilitando a detecção de comportamentos atípicos que poderiam passar despercebidos em análises tradicionais.

O artigo busca aplicar esses métodos para identificar sutilezas no comportamento de crianças em idade escolar, com o objetivo de favorecer tanto o diagnóstico precoce de dificuldades cognitivas quanto o desenvolvimento de estratégias educacionais mais personalizadas. Ao integrar ciência de dados, psicologia do desenvolvimento e educação, a pesquisa exemplifica o potencial das abordagens interdisciplinares na geração de novos insights e soluções práticas.

2 O que é subitização?

Subitização é a capacidade de reconhecer a quantidade de poucos itens (geralmente 1 a 4) de forma imediata e sem contagem. Quando a quantidade de objetos ultrapassa esse limite, o tempo de resposta aumenta, pois o indivíduo precisa contar. Isso cria um ponto de inflexão natural nos gráficos que relacionam tempo de resposta e quantidade de itens. Alterações nesses padrões podem indicar dificuldades como a discalculia, tornando essa habilidade um importante marcador de desenvolvimento cognitivo.

3 Ferramentas e metodologia utilizadas

3.1 Mineração de Modelos Excepcionais (EMM)

Ao contrário da mineração de subgrupos convencional, que se concentra em anomalias em variáveis individuais, a Mineração de Modelos Excepcionais (EMM) investiga as conexões entre variáveis. No contexto deste artigo, o objetivo é identificar grupos de crianças que exibem uma relação atípica entre a quantidade de itens e o tempo de resposta, em comparação com a maioria.

3.2 Regressão Linear Segmentada

O modelo matemático adotado é uma regressão linear segmentada, ideal para capturar dois comportamentos distintos: um trecho inicial com tempo de resposta estável (subitização) e outro com crescimento mais acentuado (contagem). O modelo estima os coeficientes de cada trecho e o ponto de transição entre eles (breakpoint).

3.3 Avaliação dos subgrupos

A qualidade dos subgrupos identificados é medida pela diferença entre o erro de um modelo global (treinado com todos os dados) e de um modelo local (treinado apenas com o subgrupo). Se o modelo local for muito melhor, o subgrupo é considerado “excepcional”.

Para possibilitar esse tipo de análise, os autores precisaram lidar com a estrutura complexa do conjunto de dados do estudo FUNA. Diferentemente de bases tabulares convencionais, cada criança possui múltiplas observações por tarefa, o que inviabiliza o uso direto em algoritmos padrão de mineração de padrões. Para contornar esse problema, os autores aplicaram um processo de “achatamento” (flattening), em que cada variável descritora é agregada em um único valor por criança. Isso foi feito por meio de funções estatísticas específicas, como média de tempo de resposta, proporção de acertos, escore de eficiência inversa (IES), entre outras.

Este procedimento assegura que cada instância (cada criança) seja representada por um vetor fixo de atributos, o que possibilita a aplicação do algoritmo de Mineração de Modelos Excepcionais. Os subgrupos foram subsequentemente definidos por descrições baseadas em faixas de valores (por exemplo, crianças com IES acima de um limiar específico em uma tarefa de adição), utilizando esses atributos agregados. Tal processo é vital para converter os dados brutos em um formato adequado para as técnicas empregadas no estudo.

Durante o processo de achatamento da base de dados, os autores aplicaram diferentes funções de agregação para transformar séries temporais ou listas de valores (vindas das tarefas cognitivas) em atributos únicos por criança. Essas funções foram extraídas da literatura e escolhidas de acordo com sua relevância para o desempenho cognitivo. Entre as principais, destacam-se:

!## Funções de Agregação Utilizadas

Nome da Função Descrição Exemplo de Aplicação
MaxItem Conta o número total de itens respondidos em uma tarefa. Número total de questões respondidas na tarefa NC.
SumAnsC Soma o número de respostas corretas em uma tarefa. Total de acertos em adição simples (SA).
PropAnsC Calcula a proporção de acertos em relação ao número de tentativas. Percentual de acertos em subtração simples (SS).
MeanTC Média dos tempos de resposta para os itens respondidos corretamente. Tempo médio nas tarefas de comparação de números.
MedTC Mediana dos tempos de resposta para os itens corretos. Tempo mediano na tarefa de combinação de adição (CA).
IES (Inverse Efficiency Score) Combina tempo de resposta e acurácia, penalizando respostas lentas e/ou incorretas. IES na tarefa de comparação numérica (NC).
IcNumD / SNumD Intercepto e inclinação da regressão entre tempo de resposta e a distância entre dois números. Medidas de sensibilidade numérica (NC).
IcNumR / SNumR Intercepto e inclinação da regressão entre tempo de resposta e a razão entre os números comparados. Avaliação da dificuldade relativa na tarefa NC.

3.4 Modelo matemático

Para modelar a relação entre o tempo de resposta das crianças e o número de itens apresentados na tarefa de enumeração (Dot Enumeration – DE), os autores utilizaram uma regressão linear segmentada, uma técnica que permite representar dois comportamentos distintos com uma única equação.

A fórmula do modelo é:

Onde:

  • y é o tempo de resposta;
  • é o número de itens (tamanho do conjunto de pontos);
  • é o ponto de inflexão (breakpoint), que separa a fase de subitização da fase de contagem;
  • representa a inclinação da curva durante a subitização (espera-se que seja baixa, pois o tempo de resposta é quase constante);
  • é o aumento de inclinação após o ponto de inflexão (refletindo o esforço da contagem);
  • é uma função indicadora que assume valor zero para e para

Na prática, isso significa que:

  • Quando o número de itens está dentro da faixa de subitização, o modelo é aproximadamente linear com inclinação \alpha;
  • Quando ultrapassa essa faixa, o tempo de resposta aumenta com uma nova inclinação + , caracterizando a fase de contagem.

Essa formalização permite ao modelo capturar precisamente o ponto onde o comportamento cognitivo da criança muda, o que é central para os objetivos do estudo. A escolha da regressão segmentada se justifica pela estrutura esperada da curva de subitização, onde há um trecho inicial plano seguido de crescimento mais acentuado.

Para facilitar a compreensão intuitiva do modelo, podemos imaginar a curva de subitização como uma estrada com duas partes: a primeira é uma reta plana (representando a subitização), onde o carro (a criança) anda em velocidade constante; a segunda parte é uma ladeira (a contagem), onde o esforço para subir aumenta o tempo gasto. O ponto onde a estrada começa a inclinar é justamente o breakpoint (ψ). Ou seja, o limite até onde a criança consegue identificar a quantidade de pontos “de relance”, sem contar.

O gráfico acima ilustra o modelo de regressão linear segmentada utilizado para representar o tempo de resposta das crianças na tarefa de enumeração de pontos. No eixo horizontal está o número de pontos apresentados (variável x) e, no eixo vertical, o tempo de resposta (variável y). Observa-se que, até o ponto de inflexão , a curva é praticamente linear e com baixa inclinação, caracterizando a fase de subitização, quando a criança identifica rapidamente a quantidade de itens sem precisar contar.

Após esse ponto, a curva se torna mais inclinada, indicando a fase de contagem, em que o tempo de resposta cresce proporcionalmente à quantidade de estímulos. A linha vermelha pontilhada marca o ponto de transição entre esses dois comportamentos cognitivos. Essa modelagem permite captar com precisão onde ocorre a mudança de estratégia e é central para identificar padrões atípicos nas curvas individuais.

3.5 Avaliação da qualidade dos subgrupos

Para determinar se um subgrupo de crianças apresenta um padrão de subitização realmente distinto da população geral, os autores utilizaram métricas baseadas em erro quadrático e verossimilhança estatística.

A principal medida adotada foi a soma dos erros quadráticos (SSR – Sum of Squared Residuals) do modelo de regressão ajustado ao subgrupo. A ideia é comparar o erro do modelo local (ajustado apenas aos dados do subgrupo) com o erro que esse mesmo subgrupo teria se fosse modelado pelo modelo global (ajustado aos dados da população inteira). Quanto maior for essa diferença, ou seja, quanto melhor o modelo local se ajusta aos seus dados em comparação ao modelo global, mais “excepcional” é considerado o subgrupo.

Para evitar que subgrupos pequenos com bom ajuste por acaso fossem erroneamente considerados excepcionais, os autores propuseram uma segunda métrica, chamada SSR balanceado (ssrb). Essa versão pondera a diferença entre os erros local e global pelo tamanho do subgrupo, garantindo que apenas grupos estatisticamente relevantes sejam destacados. Além disso, o estudo utiliza critérios auxiliares como a entropia conjunta (JE) e a similaridade de Jaccard (JSIM) para avaliar a diversidade e redundância entre os subgrupos encontrados.

De forma intuitiva, a soma dos erros quadráticos (SSR) representa o total de “desvios” entre os valores observados e os valores estimados pela regressão. Em outras palavras, mede o quanto os pontos reais se afastam da linha ajustada pelo modelo. Quanto menor esse valor, melhor o modelo representa os dados daquele grupo.

Imagine que queremos ajustar uma linha aos tempos de resposta de um grupo de crianças. Se a linha passar perto de todos os pontos, os erros individuais (diferença entre valor observado e previsto) serão pequenos e, ao elevá-los ao quadrado e somá-los, o SSR será baixo. Já se a linha estiver distante dos pontos, os erros serão grandes, e o SSR também será elevado.

3.6 Pré-processamento dos dados

O estudo foi conduzido com base na base de dados do projeto Functional Numerical Assessment (FUNA), um levantamento em larga escala desenvolvido na Finlândia e Suécia com o objetivo de investigar habilidades matemáticas e dificuldades como discalculia e dislexia em estudantes do ensino fundamental. A base é composta por tarefas cognitivas administradas de forma cronometrada e em uma ordem quasi-aleatória, com tarefas mais simples apresentadas primeiro.

Diferentemente de conjuntos de dados tabulares tradicionais, o FUNA registra múltiplas medições por criança e por tarefa, o que exigiu dos autores uma abordagem específica de pré-processamento. Para tornar os dados compatíveis com os algoritmos de mineração utilizados, os registros foram transformados em uma estrutura agregada por meio do processo de “achatamento” (flattening). Esse processo gerou atributos únicos por criança, como tempo médio de resposta em acertos, proporção de acertos e métricas derivadas da literatura, como o IES (Inverse Efficiency Score).

3.7 Implementação

A implementação da metodologia apresentada no artigo foi disponibilizada por seus autores no repositório FUNA_EMM, que contém os scripts em Python responsáveis pela execução do pipeline completo de análise, incluindo pré-processamento, modelagem e avaliação dos subgrupos identificados.

3.7.1 Configuração do ambiente

A configuração do ambiente exige a criação de um ambiente virtual e a instalação das dependências listadas no arquivo requirements.txt. No entanto, foi necessário realizar ajustes manuais nas versões de bibliotecas, uma vez que o arquivo original apresentava inconsistências. O procedimento padrão inclui:

python -m venv venv
venv/Scripts/activate # ou source venv/bin/activate no Linux/macOS
pip install -r requirements.txt

3.7.2 Acesso aos dados

Os autores não disponibilizaram o conjunto completo de dados do estudo. Em vez disso, apenas uma amostra de 5% dos dados reais do dataset FUNA foi tornada pública. Essa amostra contém atributos semi-identificadores (como sexo, idioma e ano escolar) e medidas extraídas de tarefas cognitivas, como tempo de resposta, número de acertos e escores compostos. Embora limitada, essa porção permite a reprodução parcial dos experimentos descritos no artigo.

3.7.3 Execução dos testes

O código principal (main.py) é parametrizado para rodar diferentes configurações do experimento. A mineração de padrões é realizada por meio de busca em feixe (beam search) combinada com o Weighted Coverage Scheme (WCS), que penaliza a sobreposição entre subgrupos. Alguns dos parâmetros ajustáveis incluem:

  • d: profundidade máxima da descrição dos subgrupos.
  • q: número máximo de subgrupos a serem encontrados.
  • gamma: fator de penalização por sobreposição.
  • min_size: tamanho mínimo de um subgrupo (por exemplo, 5% da amostra).
  • run_beam_search, make_dfd, run_redun_metrics: ativam métricas como entropia conjunta (JE), similaridade de Jaccard (JSIM) e validação por distribuição de falsas descobertas (DFD).

3.7.4 Resultados gerados

A saída da execução é organizada em diretórios contendo:

  • Arquivos .txt com os parâmetros utilizados e as descrições dos subgrupos encontrados.
  • Arquivos .xlsx com os resultados quantitativos das métricas avaliadas.
  • Relatórios sobre tempo de execução, qualidade dos modelos e diversidade entre subgrupos.

Embora a ausência do dataset completo limite a reprodutibilidade total do estudo, o repositório permite compreender a lógica de funcionamento do pipeline e testar a metodologia em conjuntos de dados alternativos.

3.7.5 Adaptação para outras bases de dados

Para aplicar essa metodologia em um conjunto de dados próprio, o usuário precisará preparar os dados no formato esperado pelo pipeline. Isso significa garantir que cada instância (por exemplo, cada estudante) seja representada por um vetor fixo de atributos numéricos, derivados por meio de funções de agregação (como média, mediana, proporção de acertos ou IES). Após esse pré-processamento, basta ajustar os parâmetros no script main.py e apontar o caminho do novo arquivo de entrada. Essa flexibilidade permite que a técnica seja aplicada em outros contextos, como avaliações educacionais, triagens clínicas ou estudos cognitivos em populações distintas.

4 Resultados encontrados

A análise conduzida pelos autores foi dividida em duas etapas principais. Na primeira, aplicou-se a regressão linear segmentada ao conjunto completo de dados com o objetivo de verificar se o padrão esperado de subitização seria reproduzido. O modelo confirmou esse comportamento: crianças responderam rapidamente a estímulos com até 3 ou 4 itens, indicando reconhecimento imediato (subitização), e passaram a responder de forma mais lenta a partir desse ponto, caracterizando o início da contagem consciente. O ponto de inflexão (breakpoint) foi consistentemente localizado entre 3 e 4 elementos, alinhado à literatura sobre desenvolvimento numérico.

Na segunda etapa, os autores aplicaram a Mineração de Modelos Excepcionais (EMM) sobre os dados agregados para identificar subgrupos de crianças com padrões de subitização significativamente distintos. Utilizando métricas como SSR, SSRB e validação via DFD, foram encontrados diversos subgrupos com comportamento atípico em relação à curva geral.

Um dos achados mais relevantes foi a identificação de aproximadamente 5% das crianças com padrões considerados excepcionais, ou seja, subgrupos cujos tempos de resposta, breakpoints e inclinações da curva de subitização diferiam substancialmente do esperado, conforme figura abaixo.

Esses subgrupos foram descritos por variáveis como ano escolar, desempenho em tarefas de adição e subtração, e escores compostos como o IES (Inverse Efficiency Score). Por exemplo, foi identificado um grupo de alunos do 3º ano com baixa precisão e altos tempos de resposta em tarefas de comparação numérica, o que sugere dificuldades cognitivas iniciais com possíveis implicações clínicas e pedagógicas.

Além disso, os autores mostraram que o modelo é capaz de capturar nuances de desempenho que não seriam facilmente observáveis com métodos tradicionais, revelando, por exemplo, subgrupos com transições mais suaves entre subitização e contagem, ou com desempenho fortemente influenciado por variáveis contextuais.

Esses achados reforçam a utilidade do método proposto não apenas para identificar casos extremos, mas também para compreender a diversidade de estratégias cognitivas utilizadas por diferentes grupos de alunos em tarefas numéricas. A abordagem tem, portanto, grande potencial como ferramenta de triagem educacional e de apoio a políticas públicas voltadas à aprendizagem em matemática.

4.1 Impacto e aplicações

A descoberta desses padrões atípicos é especialmente relevante do ponto de vista educacional e clínico, pois pode indicar sinais precoces de dificuldades matemáticas ou mesmo revelar estilos cognitivos alternativos. Esses achados reforçam o potencial do método como ferramenta para triagem inicial em contextos escolares, além de evidenciar a riqueza analítica que técnicas locais de mineração de padrões podem oferecer quando bem integradas a modelos estatísticos interpretáveis.

Neste contexto, os resultados do estudo têm implicações significativas para a área da educação e do diagnóstico de dificuldades de aprendizagem. Em primeiro lugar, a identificação de padrões atípicos de subitização pode servir como um indicador precoce de dificuldades matemáticas, possibilitando intervenções pedagógicas mais rápidas e eficazes, antes que os problemas se consolidem.

Os descritores dos subgrupos encontrados revelam características específicas que podem orientar o desenvolvimento de estratégias de ensino mais personalizadas, adequadas às necessidades cognitivas de diferentes perfis de alunos. Isso representa um passo importante em direção a uma educação mais inclusiva e baseada em evidências.

Adicionalmente, a aplicação de técnicas como a Mineração de Modelos Excepcionais (EMM) possibilita a descoberta de relações complexas e não triviais entre diferentes habilidades cognitivas e o desempenho escolar. Esses insights, muitas vezes invisíveis à observação direta, ampliam nossa compreensão sobre os processos de aprendizagem e oferecem novas oportunidades para inovação pedagógica.

4.2 Limitações e críticas metodológicas

O estudo apresenta algumas limitações metodológicas relevantes que devem ser consideradas na interpretação dos resultados. Primeiramente, o modelo estatístico adotado assume que cada medição é independente, mas no experimento várias medições foram realizadas com a mesma criança. Isso viola a premissa de independência dos dados e pode introduzir vieses nos resultados.

Além disso, o estudo não leva em conta possíveis variáveis de confusão que poderiam impactar o desempenho das crianças, como a qualidade da conexão com a internet, o ambiente familiar, ou mesmo fatores como cansaço e atenção no momento da avaliação.

Por fim, a base de dados utilizada é composta exclusivamente por crianças finlandesas, um país com características educacionais e sociais bastante específicas. Isso pode limitar a generalização dos achados para outras populações e contextos culturais.

4.3 Questões éticas

O estudo levanta preocupações relevantes sobre o uso de dados sensíveis, especialmente por envolver crianças:

  • Publicação parcial de dados sensíveis: Embora os autores afirmem que os dados são protegidos, aproximadamente 5% do dataset foi publicado em repositórios públicos. Esses dados contêm atributos semi-identificadores como sexo, idioma e ano escolar.
  • Descritores de subgrupos publicados: As características dos subgrupos considerados “de risco” também foram divulgadas. Isso permite que um agente mal-intencionado combine as informações dos descritores com os atributos semi-identificadores para isolar, e potencialmente reidentificar, crianças específicas no conjunto público de dados.
  • Risco real de reidentificação: A publicação desses dados pode facilitar ataques de ligação, nos quais bases externas (como registros escolares ou censitários) são cruzadas para identificar indivíduos, colocando em risco a privacidade das crianças envolvidas.
  • Contradição institucional: Os autores afirmam que os dados completos são restritos e requerem aprovação formal para acesso, mas ao mesmo tempo disponibilizam parte desses dados publicamente com metadados suficientes para representar um risco. Isso levanta uma incoerência nos princípios de transparência e ética da pesquisa.
  • Consentimento e compreensão: Considerando que as crianças participaram de forma lúdica e mediada por adultos, é possível que não tenham compreendido plenamente o destino de seus dados, o que reforça a responsabilidade ética dos pesquisadores.

Esses aspectos mostram como a linha entre avanço científico e exposição indevida é tênue, especialmente ao lidar com dados de populações vulneráveis como crianças.

5 Conclusão

O artigo demonstra como técnicas modernas de mineração de dados, como a Mineração de Modelos Excepcionais (EMM) combinada com regressão linear segmentada, podem contribuir significativamente para o diagnóstico precoce de dificuldades cognitivas e o aprimoramento de estratégias educacionais. A capacidade de identificar subgrupos de alunos com padrões atípicos de desempenho, como no caso da subitização, oferece um novo horizonte para o desenvolvimento de ferramentas pedagógicas mais precisas, inclusivas e adaptadas às necessidades reais dos estudantes.

Contudo, os mesmos métodos que revelam padrões ricos e úteis também trazem consigo desafios éticos importantes. Ao lidar com dados sensíveis de crianças é imprescindível adotar uma postura ética rigorosa. Questões como a possibilidade de reidentificação de indivíduos, a transparência na coleta e no compartilhamento de dados, e o uso responsável das informações obtidas, devem estar no centro de qualquer iniciativa que envolva ciência de dados em contextos educacionais e de saúde.

Além disso, é fundamental reconhecer os limites da própria metodologia. A confiabilidade dos resultados depende da qualidade dos dados, da validação estatística adequada e da consideração de variáveis contextuais frequentemente ausentes. Uma leitura crítica e interdisciplinar dos achados é essencial para evitar conclusões simplistas ou generalizações indevidas.

Como cientistas de dados e educadores, devemos buscar não apenas identificar padrões excepcionais, mas também exercer uma responsabilidade igualmente excepcional. Isso implica combinar competência técnica com sensibilidade ética, promovendo avanços que sejam não apenas cientificamente sólidos, mas também socialmente justos, transparentes e benéficos para todos os envolvidos.

6 Referências

SCHOUTEN, Rianne M.; DUIVESTEIJN, Wouter; RÄSÄNEN, Pekka; PAUL, Jacob M.; PECHENIZKIY, Mykola. Exceptional subitizing patterns: exploring mathematical abilities of Finnish primary school children with piecewise linear regression. In: MACHINE LEARNING AND KNOWLEDGE DISCOVERY IN DATABASES. APPLIED DATA SCIENCE TRACK: European Conference, ECML PKDD 2024, Vilnius, Lithuania, September 9–13, 2024. Proceedings, Part X. Cham: Springer, 2024. p. 66–82. DOI: 10.1007/978-3-031-70381-2_5.