Spelling suggestions: "subject:"deste adaptative"" "subject:"deste adaptativa""
1 |
Ensaio da Ferramenta DIA Diagnóstico e Informação do aluno / DIA: a computerized adaptative testing tool for assessing studentlearningRenata Cardoso Pires de Abreu 06 August 2012 (has links)
Weve presented the results of our research for the conception, execution and
evaluation of an informatized adaptive tool, known as DIA (in portuguese), that allows
evaluate and give a feedback to the student under the perspective of formative evaluation. At
the first stage, we used the PCN: Sciency of the Nature, Mathematics and its Technologies
(BRASIL, 1998) and the Curriculum Matrices of Reference from the Instituto Nacional de
Estudos e Pesquisas Educacionais -INEP, to the Sistem of Evaluation for Basic Education -
SAEB (BRASIL, 2005) to build a scale in wich the objectives are in increasing order,
according to the vertical development of the knowledge construction in Mathematics. We
linked the proposed objectives to create a Data Bank (BI, in portuguese) that was used in our
simulations. Weve analized the results of our essay to evaluate the comunication between the
data bank and the scale under the perspective of giving a diagnosis of the construction of the
mathematics knowledge. In our essay, we simulated the functionning of the DIA tool through
an adaptive informatized test based on the "Teoria de Resposta ao Item" (TRI). We were also
interested on determing a profile of a Data Bank (BI) that is able to significantly dialogue
with our scale through the TRI. The scale and the associated data bank should provide a
constructive feedback that will help the stundents develop their metacognitives competencies. / Apresentamos os resultados de nossa pesquisa para concepção, execuçãoo e avaliação
de uma ferramenta adaptativa informatizada, denominada DIA, que permita tanto avaliar
como fornecer feedback a estudantes sob uma perspectiva de avaliação formativa. Na
primeira etapa, usamos os PCN: Ciências da Natureza, Matemática e suas Tecnologias
(BRASIL, 1998) e as Matrizes Curriculares de Referência do Instituto Nacional de Estudos e
Pesquisas Educacionais - INEP, para o Sistema de Avaliação para a Educação Básica- SAEB
(BRASIL, 2005), para construir uma escala, em que os objetivos estão em ordem crescente,
de acordo com o desenvolvimento vertical da construção do conhecimento em Matemática.
Entrelaçamos os objetivos propostos para criar um Banco de Itens (BI), que foi usado em
nossas simulações. Analisamos os resultados obtidos em nosso ensaio para avaliar o diálogo
entre o BI e a escala sob a perspectiva de oferecer um diagnóstico de lacunas na construção do
conhecimento matemático. Em nosso ensaio, simulamos o funcionamento da ferramenta DIA
através de um teste adaptativo informatizado baseado na Teoria de Resposta ao Item (TRI).
Também estamos interessados em determinar um perfil de um Banco de Itens, que seja capaz
de forma significativa de dialogar com nossa escala através de TRI. A escala e o banco de
itens a ela associado devem viabilizar um feedback construtivo que ajude os alunos a
desenvolverem competências metacognitivas.
|
2 |
Ensaio da Ferramenta DIA Diagnóstico e Informação do aluno / DIA: a computerized adaptative testing tool for assessing studentlearningRenata Cardoso Pires de Abreu 06 August 2012 (has links)
Weve presented the results of our research for the conception, execution and
evaluation of an informatized adaptive tool, known as DIA (in portuguese), that allows
evaluate and give a feedback to the student under the perspective of formative evaluation. At
the first stage, we used the PCN: Sciency of the Nature, Mathematics and its Technologies
(BRASIL, 1998) and the Curriculum Matrices of Reference from the Instituto Nacional de
Estudos e Pesquisas Educacionais -INEP, to the Sistem of Evaluation for Basic Education -
SAEB (BRASIL, 2005) to build a scale in wich the objectives are in increasing order,
according to the vertical development of the knowledge construction in Mathematics. We
linked the proposed objectives to create a Data Bank (BI, in portuguese) that was used in our
simulations. Weve analized the results of our essay to evaluate the comunication between the
data bank and the scale under the perspective of giving a diagnosis of the construction of the
mathematics knowledge. In our essay, we simulated the functionning of the DIA tool through
an adaptive informatized test based on the "Teoria de Resposta ao Item" (TRI). We were also
interested on determing a profile of a Data Bank (BI) that is able to significantly dialogue
with our scale through the TRI. The scale and the associated data bank should provide a
constructive feedback that will help the stundents develop their metacognitives competencies. / Apresentamos os resultados de nossa pesquisa para concepção, execuçãoo e avaliação
de uma ferramenta adaptativa informatizada, denominada DIA, que permita tanto avaliar
como fornecer feedback a estudantes sob uma perspectiva de avaliação formativa. Na
primeira etapa, usamos os PCN: Ciências da Natureza, Matemática e suas Tecnologias
(BRASIL, 1998) e as Matrizes Curriculares de Referência do Instituto Nacional de Estudos e
Pesquisas Educacionais - INEP, para o Sistema de Avaliação para a Educação Básica- SAEB
(BRASIL, 2005), para construir uma escala, em que os objetivos estão em ordem crescente,
de acordo com o desenvolvimento vertical da construção do conhecimento em Matemática.
Entrelaçamos os objetivos propostos para criar um Banco de Itens (BI), que foi usado em
nossas simulações. Analisamos os resultados obtidos em nosso ensaio para avaliar o diálogo
entre o BI e a escala sob a perspectiva de oferecer um diagnóstico de lacunas na construção do
conhecimento matemático. Em nosso ensaio, simulamos o funcionamento da ferramenta DIA
através de um teste adaptativo informatizado baseado na Teoria de Resposta ao Item (TRI).
Também estamos interessados em determinar um perfil de um Banco de Itens, que seja capaz
de forma significativa de dialogar com nossa escala através de TRI. A escala e o banco de
itens a ela associado devem viabilizar um feedback construtivo que ajude os alunos a
desenvolverem competências metacognitivas.
|
3 |
Desafios e perspectivas da implementação computacional de testes adaptativos multidimensionais para avaliações educacionais / Challenges and perspectives of implementation of multidimensional adaptive test for educational assessmentPiton Gonçalves, Jean 17 December 2012 (has links)
Testes educacionais possibilitam a obtenção de medidas e resultados, a realização de análises e o estabelecimento de objetivos para os processos de ensino e a aprendizagem, além de subsidiarem processos seletivos e políticas públicas. A avaliação de desempenho dos examinados pode considerar uma única ou múltiplas habilidades e/ou competências. Como alternativa para testes via lápis e papel, o Teste Baseado em Computador (CBT) pode compor, aplicar e corrigir testes e produzir estatísticas individuais ou do grupo de examinados automaticamente. Considerando que o examinado possua múltiplas habilidades, o Teste Adaptativo baseado na Teoria de Resposta ao Item Multidimensional (MCAT) mantém a mesma acurácia de um teste tradicional, baseando-se no conhecimento do examinado a partir do histórico de itens anteriormente respondidos. A seleção de itens por Kullback Leibler entre Posteriores Subsequentes (\'K POT. p\') evita selecionar um item difícil para um examinado com baixa habilidade, sugerindo que \'K POT. p\' é um critério aplicável em testes educacionais. A revisão da literatura apontou para: (i) a carência de estudos para o critério \'K POT. P\', (ii) a carência de estudos com MCATs operacionais em contextos educacionais para usuários reais, (iii) a carência de estudos e propostas de critérios iniciais e de parada para MCATs, quando o número de itens administrados pelo teste é variável, e (iv) a ausência de trabalhos brasileiros na área de MCATs. Diante das lacunas apresentadas, esta tese de doutoramento trata da seguinte questão de pesquisa: Qual a abordagem para viabilizar o uso do critério KP em MCATs operacionais para contextos educacionais, que permita que o sistema implementado seja aprovado nos critérios de funcionalidade, confiabilidade, eficiência, manutenibilidade e portabilidade da ISO-9126, que é a base para avaliar testes computadorizados? Os objetivos específicos desta pesquisa foram os seguintes: (i) implementar e validar o critério de seleção \'K POT. P\', comparando-o com o critério bayesiano usual, (ii) propor melhorias e calcular o tempo computacional de processamento da seleção de itens por \'K POT. P\', (iii) propor critérios iniciais consistentes com a realidade e a necessidade das avaliações educacionais, (iv) validar o critério de parada inédito KPIC, quando a intenção é se ter MCATs que administrem um número variável de itens para os examinados, (v) desenvolver uma arquitetura que viabilize a aplicação via Web de MCATs com usuários reais, (vi) discutir aspectos teóricos e metodológicos da nova abordagem CBMAT via prova de conceito, por meio da implementação do sistema MADEPT, que avalia examinados na perspectiva da avaliação diagnóstica, (vii) avaliar o MADEPT de acordo com as normas internacionais de produto de software ISO-9126 e apontar a factibilidade, a viabilidade, as dificuldades, as vantagens e as limitações do desenvolvimento CBMATs para o ambiente Web. A metodologia utilizada para responder a questão de pesquisa foi: (i) organizar e selecionar as teorias, os métodos, os modelos e os resultados inerentes a MCATs, (ii) expandir a equação de \'K POT. P\', (iii) implementar o MCAT contemplando o critério de seleção \'K POT. P\' e a metodologia bayesiana para estimação e seleção de itens, (iv) validar estatisticamente \'K POT. P\' e KPIC, (v) implementar o CBMAT, contemplando o MCAT como um subsistema e (vi) avaliar o CBMAT via ISO-9126. Os resultados deste trabalho são vários: (i) uma ampla revisão da literatura nas teorias/métodos/critérios necessários para a implementação computacional de MCATs, (ii) a reformulação da equação que expressa a seleção por \'K POT. P\' para implementação via linguagem de programação científica, (iii) os estudos de simulações do MCAT quando a seleção de itens é por \'K POT. P\' e o critério de parada por KPIC mostram que \'K POT. P\' é um critério adequado e indicado quando o objetivo é ter um teste com um número baixo e variável de itens administrados, mantendo um vício adequado e com alta acurácia na estimação da habilidade, (iv) o desenvolvimento de algoritmos inéditos para os critérios iniciais, (v) a validação de uma nova arquitetura que viabiliza a aplicação via Web de MCATs com usuários reais e (vi) a implementação e avaliação via ISO-9126 do sistema computacionalWeb MADEPT. Conclui-se que é possível desenvolver uma arquitetura que viabilize a aplicação viaWeb de MCATs com usuários reais, utilizando o critério de seleção \'K POT. P\' e critérios iniciais condizentes com as avaliações educacionais. Quando a intenção é aplicar MCATs em cenários reais, a seleção de itens por \'K POT. P\' combinado com o critério de parada KPIC proporcionam um teste mais curto e com mais acurácia do que aqueles que utilizam a metodologia bayesiana usual, e com um tempo computacional de processamento condizente com as características da abordagem multidimensional / Educational tests provide measures and indicators that enable evaluations and guide the definition of educational goals, besides supporting selection processes and public policies formulation. The evaluation of the examinees performance may consider one or multiple skills and abilities. As an alternative to hand-written tests, the Computer Based Test (CBT) provides the setup, application and correction of tests as well as provide individual and/or collective statistics about the examinees performance. Considering that the examinee has several abilities, the Computer Adaptive Test based on the Multidimensional Item Response Theory (MCAT) keeps the same accuracy of a traditional test, building on the personal knowledge inferred from the track record of responses to previous items. The item selection through Kullback Leibler between Subsequent Posteriors (\'K POT. P\') avoids to select a difficult item for a low ability examinee, suggesting that \'K POT. P\' is a criterion applicable to educational tests. The literature review evidenced: (i) the insufficiency of studies about the \'K POT. P\' criterion; (ii) the insufficiency of studies on operational MCATs in educational contexts for real users; (iii) the shortage of studies and proposals for initial and stop criteria for MCATs, given a variable number of administered items, and (iv) the lack of Brazilian studies in the area of MCATs. To bridge these gaps, this doctoral thesis addresses the following research question: What is the approach that enables to employ the \'K POT. P\' criterion in operational MCATs for educational contexts, ensuring that the implemented system be in accordance with the functionality, reliability, efficiency, maintainability and portability criteria of ISO-9126 (which is the base for computer based tests evaluation)? The specific objectives of this research are to: (i) implement and validate the \'K POT. P\' selection criterion, comparing it to the usual Bayesian criterion; (ii) propose improvements and calculate the computational time for item selection processing through \'K POT. P\'; (iii) propose initial criteria consistent with the reality and the need of educational evaluation; (iv) validate the novel stop criterion KPIC, aiming at MCATs that administer a variable number of items for the examinees; (v) develop an architecture that enables the application of MCATs via web to real users; (vi) discuss theoretic and methodological issues related to the new CBMAT via proof-of-concept, implementing the MADEPT, which evaluates the examinees under the perspective of the diagnostic evaluation; (vii) evaluateMADEPT according to the international standards software ISO-9126 and point out feasibility, viability, difficulties, advantages and limitations of CBMATs development for web environment. The methodology used to answer the research question was to: (i) organize and select the theories, the methods, the models and results inherent to MCATs; (ii) rewrite the equation of \'K POT. P\'; (iii) implement the MCAT considering the \'K POT. P\' selection criterion and the Bayesian methodology for item estimation and selection (iv) validate \'K POT. P\' and KPIC statistically; (v) implement CBMAT, considering MCAT as a subsystem and (vi) evaluate CBMAT according to ISO-9126. This research has many results: (i) it presents a broad literature review regarding theories/methods/criteria for MCATs computational implementation; (ii) it rewrites in a scientific programming language the equation that expresses the selection through \'K POT. P\'; (iii) it shows, through MCAT simulations, that \'K POT. P\' is a criterion adequate and indicated for tests with a small and variable number of administered items, using \'K POT. P\' for item selection and KPIC as stop criterion; (iv) it develops novel algorithms for initial criteria; (v) it validates a new architecture to enable the application of MCATs via Web to real users; (vi) it implements and evaluates the web computational system MADEPT according to ISO-9126. We conclude that it is possible to develop an architecture that enables the application of MCATs via web to real users, using \'K POT. P\' selection criterion and initial criteria consistent with the educational evaluation. If the aim is to apply MCATs in real scenarios, the item selection through \'K POIT. \'P associated with the stop criterion KPIC provide a shorter and more accurate test in comparison to those using bayesian methodology. Moreover, its processing computational time is in line with the features of the multidimensional approach
|
4 |
Desafios e perspectivas da implementação computacional de testes adaptativos multidimensionais para avaliações educacionais / Challenges and perspectives of implementation of multidimensional adaptive test for educational assessmentJean Piton Gonçalves 17 December 2012 (has links)
Testes educacionais possibilitam a obtenção de medidas e resultados, a realização de análises e o estabelecimento de objetivos para os processos de ensino e a aprendizagem, além de subsidiarem processos seletivos e políticas públicas. A avaliação de desempenho dos examinados pode considerar uma única ou múltiplas habilidades e/ou competências. Como alternativa para testes via lápis e papel, o Teste Baseado em Computador (CBT) pode compor, aplicar e corrigir testes e produzir estatísticas individuais ou do grupo de examinados automaticamente. Considerando que o examinado possua múltiplas habilidades, o Teste Adaptativo baseado na Teoria de Resposta ao Item Multidimensional (MCAT) mantém a mesma acurácia de um teste tradicional, baseando-se no conhecimento do examinado a partir do histórico de itens anteriormente respondidos. A seleção de itens por Kullback Leibler entre Posteriores Subsequentes (\'K POT. p\') evita selecionar um item difícil para um examinado com baixa habilidade, sugerindo que \'K POT. p\' é um critério aplicável em testes educacionais. A revisão da literatura apontou para: (i) a carência de estudos para o critério \'K POT. P\', (ii) a carência de estudos com MCATs operacionais em contextos educacionais para usuários reais, (iii) a carência de estudos e propostas de critérios iniciais e de parada para MCATs, quando o número de itens administrados pelo teste é variável, e (iv) a ausência de trabalhos brasileiros na área de MCATs. Diante das lacunas apresentadas, esta tese de doutoramento trata da seguinte questão de pesquisa: Qual a abordagem para viabilizar o uso do critério KP em MCATs operacionais para contextos educacionais, que permita que o sistema implementado seja aprovado nos critérios de funcionalidade, confiabilidade, eficiência, manutenibilidade e portabilidade da ISO-9126, que é a base para avaliar testes computadorizados? Os objetivos específicos desta pesquisa foram os seguintes: (i) implementar e validar o critério de seleção \'K POT. P\', comparando-o com o critério bayesiano usual, (ii) propor melhorias e calcular o tempo computacional de processamento da seleção de itens por \'K POT. P\', (iii) propor critérios iniciais consistentes com a realidade e a necessidade das avaliações educacionais, (iv) validar o critério de parada inédito KPIC, quando a intenção é se ter MCATs que administrem um número variável de itens para os examinados, (v) desenvolver uma arquitetura que viabilize a aplicação via Web de MCATs com usuários reais, (vi) discutir aspectos teóricos e metodológicos da nova abordagem CBMAT via prova de conceito, por meio da implementação do sistema MADEPT, que avalia examinados na perspectiva da avaliação diagnóstica, (vii) avaliar o MADEPT de acordo com as normas internacionais de produto de software ISO-9126 e apontar a factibilidade, a viabilidade, as dificuldades, as vantagens e as limitações do desenvolvimento CBMATs para o ambiente Web. A metodologia utilizada para responder a questão de pesquisa foi: (i) organizar e selecionar as teorias, os métodos, os modelos e os resultados inerentes a MCATs, (ii) expandir a equação de \'K POT. P\', (iii) implementar o MCAT contemplando o critério de seleção \'K POT. P\' e a metodologia bayesiana para estimação e seleção de itens, (iv) validar estatisticamente \'K POT. P\' e KPIC, (v) implementar o CBMAT, contemplando o MCAT como um subsistema e (vi) avaliar o CBMAT via ISO-9126. Os resultados deste trabalho são vários: (i) uma ampla revisão da literatura nas teorias/métodos/critérios necessários para a implementação computacional de MCATs, (ii) a reformulação da equação que expressa a seleção por \'K POT. P\' para implementação via linguagem de programação científica, (iii) os estudos de simulações do MCAT quando a seleção de itens é por \'K POT. P\' e o critério de parada por KPIC mostram que \'K POT. P\' é um critério adequado e indicado quando o objetivo é ter um teste com um número baixo e variável de itens administrados, mantendo um vício adequado e com alta acurácia na estimação da habilidade, (iv) o desenvolvimento de algoritmos inéditos para os critérios iniciais, (v) a validação de uma nova arquitetura que viabiliza a aplicação via Web de MCATs com usuários reais e (vi) a implementação e avaliação via ISO-9126 do sistema computacionalWeb MADEPT. Conclui-se que é possível desenvolver uma arquitetura que viabilize a aplicação viaWeb de MCATs com usuários reais, utilizando o critério de seleção \'K POT. P\' e critérios iniciais condizentes com as avaliações educacionais. Quando a intenção é aplicar MCATs em cenários reais, a seleção de itens por \'K POT. P\' combinado com o critério de parada KPIC proporcionam um teste mais curto e com mais acurácia do que aqueles que utilizam a metodologia bayesiana usual, e com um tempo computacional de processamento condizente com as características da abordagem multidimensional / Educational tests provide measures and indicators that enable evaluations and guide the definition of educational goals, besides supporting selection processes and public policies formulation. The evaluation of the examinees performance may consider one or multiple skills and abilities. As an alternative to hand-written tests, the Computer Based Test (CBT) provides the setup, application and correction of tests as well as provide individual and/or collective statistics about the examinees performance. Considering that the examinee has several abilities, the Computer Adaptive Test based on the Multidimensional Item Response Theory (MCAT) keeps the same accuracy of a traditional test, building on the personal knowledge inferred from the track record of responses to previous items. The item selection through Kullback Leibler between Subsequent Posteriors (\'K POT. P\') avoids to select a difficult item for a low ability examinee, suggesting that \'K POT. P\' is a criterion applicable to educational tests. The literature review evidenced: (i) the insufficiency of studies about the \'K POT. P\' criterion; (ii) the insufficiency of studies on operational MCATs in educational contexts for real users; (iii) the shortage of studies and proposals for initial and stop criteria for MCATs, given a variable number of administered items, and (iv) the lack of Brazilian studies in the area of MCATs. To bridge these gaps, this doctoral thesis addresses the following research question: What is the approach that enables to employ the \'K POT. P\' criterion in operational MCATs for educational contexts, ensuring that the implemented system be in accordance with the functionality, reliability, efficiency, maintainability and portability criteria of ISO-9126 (which is the base for computer based tests evaluation)? The specific objectives of this research are to: (i) implement and validate the \'K POT. P\' selection criterion, comparing it to the usual Bayesian criterion; (ii) propose improvements and calculate the computational time for item selection processing through \'K POT. P\'; (iii) propose initial criteria consistent with the reality and the need of educational evaluation; (iv) validate the novel stop criterion KPIC, aiming at MCATs that administer a variable number of items for the examinees; (v) develop an architecture that enables the application of MCATs via web to real users; (vi) discuss theoretic and methodological issues related to the new CBMAT via proof-of-concept, implementing the MADEPT, which evaluates the examinees under the perspective of the diagnostic evaluation; (vii) evaluateMADEPT according to the international standards software ISO-9126 and point out feasibility, viability, difficulties, advantages and limitations of CBMATs development for web environment. The methodology used to answer the research question was to: (i) organize and select the theories, the methods, the models and results inherent to MCATs; (ii) rewrite the equation of \'K POT. P\'; (iii) implement the MCAT considering the \'K POT. P\' selection criterion and the Bayesian methodology for item estimation and selection (iv) validate \'K POT. P\' and KPIC statistically; (v) implement CBMAT, considering MCAT as a subsystem and (vi) evaluate CBMAT according to ISO-9126. This research has many results: (i) it presents a broad literature review regarding theories/methods/criteria for MCATs computational implementation; (ii) it rewrites in a scientific programming language the equation that expresses the selection through \'K POT. P\'; (iii) it shows, through MCAT simulations, that \'K POT. P\' is a criterion adequate and indicated for tests with a small and variable number of administered items, using \'K POT. P\' for item selection and KPIC as stop criterion; (iv) it develops novel algorithms for initial criteria; (v) it validates a new architecture to enable the application of MCATs via Web to real users; (vi) it implements and evaluates the web computational system MADEPT according to ISO-9126. We conclude that it is possible to develop an architecture that enables the application of MCATs via web to real users, using \'K POT. P\' selection criterion and initial criteria consistent with the educational evaluation. If the aim is to apply MCATs in real scenarios, the item selection through \'K POIT. \'P associated with the stop criterion KPIC provide a shorter and more accurate test in comparison to those using bayesian methodology. Moreover, its processing computational time is in line with the features of the multidimensional approach
|
5 |
Avaliação da proficiência em inglês acadêmico através de um teste adaptativo informatizado / Assessment of proficiency in academic English through an adaptive computerized testSilva, Vanessa Rufino da 09 April 2015 (has links)
Este trabalho descreve as etapas de transformação de um exame de proficiência em inglês acadêmico, aplicado via lápis-e-papel, com itens de múltipla escolha administrados segundo o método de Medida de Probabilidade Admissível (Shuford Jr et al., 1966), utilizado no programa de pós-graduação do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP), em um teste adaptativo informatizado (TAI-PI) baseado em um modelo da Teoria de Resposta ao Item (TRI). Apesar do programa aceitar diversos exames que atestam a proficiência em inglês para indivíduos não-nativos de abrangência e reconhecimento internacionais, como o TOEFL (Test of English as a Foreign Language), IELTS (International English Language Testing System) e CPE (Certicate of Proficiency in English), por exemplo, a sua obrigatoriedade é incoerente em universidades públicas do Brasil devido ao custo que varia de 200 a 300 dólares por exame. O software TAI-PI (Teste Adaptativo Informatizado para Proficiência em Inglês), que foi desenvolvido em Java e SQLite, será utilizado para a avaliação da proficiência em inglês dos alunos do programa a partir do segundo semestre de 2013, de forma gratuita. A metodologia estatística implementada foi definida considerando a história e objetivos do exame e adotou o modelo de resposta gradual unidimensional de Samejima (Samejima, 1969), o critério de Kullback-Leibler para seleção de itens, o método de estimação da esperança a posteriori para os traços latentes (Baker, 2001) e a abordagem Shadow test (Van der Linden e Pashley, 2010) para imposição de restrições (de conteúdo e tamanho da prova) na composição do teste de cada indivíduo. Uma descrição da estrutura do exame, dos métodos empregados, dos resultados das aplicações do TAI-PI a alunos de pós-graduação do ICMC e estudos de classificação dos alunos em aprovados e reprovados, são apresentados neste trabalho, evidenciando a boa qualidade da nova proposta adotada e aprimoramento do exame com a utilização dos métodos de TRI e TAI. / This work describes the steps for converting a linear paper-and-pencil English proficiency test for academic purposes, composed with multiple choice items that are administered following the admissible probability measurement procedure (Shuford Jr et al., 1966), adopted by the graduate program of Institute of Mathematical Sciences and Computing of University of São Paulo (ICMCUSP), Brazil, to a computerized adaptive test (TAI-PI) based on an item response theory model (IRT). Despite the Institute recognizes reliable international English-language exams for academic purposes and non-native speakers, as TOEFL (Test of English as a Foreign Language), IELTS (International English Language Testing System) and CPE (Cambridge English: Proficiency), for instance, it is inconsistent that public universities in Brazil require them as certification because of the cost of approximately US$ 200.00 to US$ 300.00 per exam. The software TAI-PI (computerized adaptive test for English proficiency) was implemented in Java language, used SQLite as database engine, and it shall be offered free of charge for English proficiency assessment of the graduate students from October 2013. The statistical methodology employed for TAI-PI construction was defined considering the history and the aims of the evaluation and adopted the Samejima\'s graded response model (Samejima, 1969), the Kullback-Leibler information criterion for item selection, the expected a posteriori Bayesian estimation for latent trait (Baker, 2001) and shadow test approach (Van der Linden e Pashley, 2010) for test constraints (content and size of the test, for example). A description of the test design, the employed statistical methods, study results of a real application of TAI-PI to graduate students are presented in this work and the validation studies of the new methodology for pass/fail classification, highlighting the good quality of the new evaluation system and examination of improvement with the use of the methods of IRT and CAT.
|
6 |
Avaliação da proficiência em inglês acadêmico através de um teste adaptativo informatizado / Assessment of proficiency in academic English through an adaptive computerized testVanessa Rufino da Silva 09 April 2015 (has links)
Este trabalho descreve as etapas de transformação de um exame de proficiência em inglês acadêmico, aplicado via lápis-e-papel, com itens de múltipla escolha administrados segundo o método de Medida de Probabilidade Admissível (Shuford Jr et al., 1966), utilizado no programa de pós-graduação do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP), em um teste adaptativo informatizado (TAI-PI) baseado em um modelo da Teoria de Resposta ao Item (TRI). Apesar do programa aceitar diversos exames que atestam a proficiência em inglês para indivíduos não-nativos de abrangência e reconhecimento internacionais, como o TOEFL (Test of English as a Foreign Language), IELTS (International English Language Testing System) e CPE (Certicate of Proficiency in English), por exemplo, a sua obrigatoriedade é incoerente em universidades públicas do Brasil devido ao custo que varia de 200 a 300 dólares por exame. O software TAI-PI (Teste Adaptativo Informatizado para Proficiência em Inglês), que foi desenvolvido em Java e SQLite, será utilizado para a avaliação da proficiência em inglês dos alunos do programa a partir do segundo semestre de 2013, de forma gratuita. A metodologia estatística implementada foi definida considerando a história e objetivos do exame e adotou o modelo de resposta gradual unidimensional de Samejima (Samejima, 1969), o critério de Kullback-Leibler para seleção de itens, o método de estimação da esperança a posteriori para os traços latentes (Baker, 2001) e a abordagem Shadow test (Van der Linden e Pashley, 2010) para imposição de restrições (de conteúdo e tamanho da prova) na composição do teste de cada indivíduo. Uma descrição da estrutura do exame, dos métodos empregados, dos resultados das aplicações do TAI-PI a alunos de pós-graduação do ICMC e estudos de classificação dos alunos em aprovados e reprovados, são apresentados neste trabalho, evidenciando a boa qualidade da nova proposta adotada e aprimoramento do exame com a utilização dos métodos de TRI e TAI. / This work describes the steps for converting a linear paper-and-pencil English proficiency test for academic purposes, composed with multiple choice items that are administered following the admissible probability measurement procedure (Shuford Jr et al., 1966), adopted by the graduate program of Institute of Mathematical Sciences and Computing of University of São Paulo (ICMCUSP), Brazil, to a computerized adaptive test (TAI-PI) based on an item response theory model (IRT). Despite the Institute recognizes reliable international English-language exams for academic purposes and non-native speakers, as TOEFL (Test of English as a Foreign Language), IELTS (International English Language Testing System) and CPE (Cambridge English: Proficiency), for instance, it is inconsistent that public universities in Brazil require them as certification because of the cost of approximately US$ 200.00 to US$ 300.00 per exam. The software TAI-PI (computerized adaptive test for English proficiency) was implemented in Java language, used SQLite as database engine, and it shall be offered free of charge for English proficiency assessment of the graduate students from October 2013. The statistical methodology employed for TAI-PI construction was defined considering the history and the aims of the evaluation and adopted the Samejima\'s graded response model (Samejima, 1969), the Kullback-Leibler information criterion for item selection, the expected a posteriori Bayesian estimation for latent trait (Baker, 2001) and shadow test approach (Van der Linden e Pashley, 2010) for test constraints (content and size of the test, for example). A description of the test design, the employed statistical methods, study results of a real application of TAI-PI to graduate students are presented in this work and the validation studies of the new methodology for pass/fail classification, highlighting the good quality of the new evaluation system and examination of improvement with the use of the methods of IRT and CAT.
|
7 |
Um modelo inteligente para seleção de itens em testes adaptativos computadorizadosGalvão, Ailton Fonseca 06 October 2013 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-05-31T14:57:31Z
No. of bitstreams: 1
ailtonfonsecagalvao.pdf: 1341901 bytes, checksum: 6bca81f10b97b6393ed399ed87e900ff (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-06-01T11:37:37Z (GMT) No. of bitstreams: 1
ailtonfonsecagalvao.pdf: 1341901 bytes, checksum: 6bca81f10b97b6393ed399ed87e900ff (MD5) / Made available in DSpace on 2017-06-01T11:37:37Z (GMT). No. of bitstreams: 1
ailtonfonsecagalvao.pdf: 1341901 bytes, checksum: 6bca81f10b97b6393ed399ed87e900ff (MD5)
Previous issue date: 2013-10-06 / Testes Adaptativos Computadorizados (TAC) são um tipo de avaliação aplicada utilizando
se de computadores que tem como principal característica a adequação do nível das ques-
tões do teste ao desempenho de cada indivíduo avaliado. Os dois principais elementos que
compõem um TAC são: (i) o banco de itens, que é o conjunto das questões disponíveis
para serem utilizadas no teste; (ii) o modelo de seleção, que faz a escolha de quais questões,
chamadas aqui de itens, são aplicadas aos indivíduos. O modelo de seleção de itens é o
núcleo do TAC, pois é o responsável por identificar o nível de conhecimento dos indivíduos
à medida que os itens são aplicados fazendo com que o teste se adapte, selecionando os
itens mais adequados para produzir uma medida precisa. Nesta dissertação, é proposto
um modelo para seleção de itens baseado em metas para a precisão do teste através da
estimativa do erro padrão da proficiência, por meio de um controle específico do mesmo
para cada fase do teste. Utilizando simulações de testes, os resultados são comparados
aos de outros dois modelos tradicionais de seleção, avaliando o desempenho do modelo
proposto em termos da precisão do resultado e do nível de exposição dos itens do banco.
Por fim, é feita uma análise específica sobre o cumprimento das metas ao longo dos testes
e a possível influência no resultado final, além de considerações sobre o comportamento
do modelo em relação às características do banco de itens. / Computerized Adaptive Tests (CAT) are a type of assessment tests applied through
computers which main feature is the adequacy of the test questions to the performance of
each examinee. The two main elements of a CAT are: (i) the item pool, which is the set
of available questions for testing; (ii) the selection model, which pick out the questions,
named items, applied to the examinees. The item selection model is the core of CAT,
and its main task is to identify examinees knowledge level as the items are applied and
to adapt the test, selecting the most proper items to produce an accurate measure. This
thesis proposes a model for item selection based on goals for the test precision using the
estimation of the proficiency standard error. For that, an specific control of the goals
for each step of the test is developed. Using simulated tests, the results are compared to
two traditional item selection models, evaluating the performance of the proposed model
in terms of measure accuracy and the level of exposure of the items. Finally, a specific
analysis is performed on the accomplishment of goals over the tests and the possible
influence on the final result, in addition to considerations on the behavior of the model in
relation to the characteristics of the item pool.
|
8 |
Teste adaptativo informatizado da Provinha Brasil: a construção de um instrumento de apoio para professores(as) e gestores(as) de escolas / Computerized adaptive test of Provinha Brasil: the construction of a supportive instrument for teachers and school administratorsCatalani, Érica Maria Toledo 29 March 2019 (has links)
Esta Tese resulta de um projeto de construção de um Teste Adaptativo Informatizado (TAI) para a versão em papel e lápis da Provinha Brasil (PB), focado na avaliação da proficiência em leitura. O teste da PB Leitura, apesar de possuir elementos de ordem técnica e conceitual para a constituição de uma avaliação educacional e de seu amplo uso por professores dos anos iniciais do ensino fundamental, apresentava limitações que poderiam ser superadas por testes adaptados aos perfis de aprendizagem dos estudantes e com resultados mais fidedignos para apoiar as decisões pedagógicas de professores(as) e gestores(as) escolares. Assim, buscou-se responder à questão: É possível construir um TAI para a versão impressa da PB Leitura que seja ponto de apoio para professores(a) na avaliação de alunos(as) dos anos iniciais do ensino fundamental?. Para a construção dessa ferramenta TAI da PB Leitura foi necessário articular engenheiros de softwares, elaboradores de testes, pesquisadores e profissionais da educação de 15 escolas públicas do município de São Paulo. Para que pudessem participar da construção da ferramenta e da validação dos resultados obtidos, foi realizada formação de professores(as) e gestores(as) educacionais sobre medida educacional, leitura e avaliação. Após a verificação de que os aspectos psicométricos dos itens da versão impressa poderiam ser mantidos para a versão informatizada, o TAI da PB Leitura foi aplicado e os resultados indicaram que ele permitiu testes personalizados aos domínios dos(as) alunos(as), mais rápidos e de menor comprimento, sem prejuízo da precisão. Por apresentar resultados embasados em uma escala com importante interpretação pedagógica, o TAI da PB Leitura se revelou capaz de apoiar a prática avaliativa de professores(as) e gestores(as) e o trabalho pedagógico na alfabetização e no letramento inicial. Esse apoio foi potencializado com o acréscimo de uma regra ao critério de parada do TAI, utilizada em testes que visam a classificação do respondente em níveis de resultado. Verificouse também a necessidade de aprofundar as investigações sobre: a formação de professores(as) na temática da medida e avaliação; a ampliação do banco de itens, com a finalidade de controle de taxas de exposição e balanceamento de conteúdo, e a produção de relatórios pedagógicos. / This thesis results from a project of construction of a Computerized Adaptive Test (CAT) for the paper and pencil version of Provinha Brasil (PB), focused on the assessment of proficiency in reading. The PB Reading test, despite having technical and conceptual elements for the constitution of an educational assessment and its wide use by teachers of the initial years of elementary school, presented limitations that could be overcome by tests adapted to the learning styles of students and with much more reliable outcomes to support the pedagogical decisions of teachers and school administrators. Thus, it was sought to answer the question: \"Is it possible to create a CAT for the printed version of PB Reading test which would be a base of assistance for teachers in the assessment of students in the initial years of elementary education?\" For the creation of this CAT tool from PB Reading test it was necessary to articulate software engineers, test designers, researchers and education professionals from 15 public schools from São Paulo city. In order to take part in the creation of the tool and the validation of the achieved results, it was made teachers and educational managers training on educational measures, reading and assessment. After verifying that the psychometric aspects of the printed version items could be kept for the computerized version, the PB Reading CAT was applied and the results indicated that it allowed customized testing to the students domains, faster and of smaller length, without prejudice of the precision. Based on a scale with an important pedagogical interpretation, the PB Reading CAT was able to support the assessment practice of teachers and managers and the pedagogical work in literacy and initial literacy. This support was strengthened by adding a rule to the CAT stopping criterion, used in tests that aim to classify the respondent into outcome levels. There was also a need to deepen the research on: teacher training in the subject of measurement and assessment; the expansion of the item base, for the purpose of controlling exposure rates and content balancing, and the production of pedagogical reports.
|
9 |
Teoria e a prática de um teste adaptativo informatizado / Theory and practice of computerized adaptive testingSassi, Gilberto Pereira 10 April 2012 (has links)
O objetivo deste trabalho é apresentar os conceitos relacionados a Teste Adaptativo Informatizado, ou abreviadamente TAI, para o modelo logístico unidimensional da Teoria de Resposta ao Item. Utilizamos a abordagem bayesiana para a estimação do parâmetro de interesse, chamado de traço latente ou habilidade. Apresentamos os principais algoritmos de seleção de itens em TAI e realizamos estudos de simulação para comparar o desempenho deles. Para comparação, usamos aproximações numéricas para o Erro Quadrático Médio e para o Vício e também calculamos o tempo médio para o TAI selecionar um item. Além disso, apresentamos como instalar e usar a implementação de TAI desenvolvida neste projeto chamada de TAI2U, que foi desenvolvido no VBA-Excel usando uma interface com o R / The main of this work is to introduce the subjects related to Computerized Adaptive Testing, or breafly CAT, for the unidimensional three-parameter logistic model of Item Response Theory. We use bayesian approach to estimate the parameter of interest. We present several item selection algorithms and we perform simulations comparing them. The comparisons are made in terms of the mean square error, bias of the trait estimates, the average time for item selection and the average length of test. Furthermore, we show how to install e use the CAT implementation of this work called built in MIcrosoft Excel - VBA using interface with the statistical package R
|
10 |
Teste adaptativo computadorizado nas avaliações educacionais e psicológicas / Computerized adaptative test in educational and psychological evaluationRicarte, Thales Akira Matsumoto 04 April 2013 (has links)
Testes Adaptativos Computadorizados (TAC) são aqueles que selecionam gradativamente as questões (itens) a serem apresentadas ao indivíduo de acordo com o seu nível de conhecimento (traco latente). Um TAC pode se basear em um modelo da Teoria da Resposta ao Item (TRI) para a estimação do traco latente e escolha do item a ser apresentado em cada passo do teste. Este trabalho apresenta modelos da TRI utilizados em TAC encontrados na literatura e descreve alguns métodos de calibração de itens para a formação e manutenção do banco de questões do teste sob o modelo de Samejima (1969), estimação do traço latente, seleção de itens com restrições utilizando a abordagem Shadow test e critérios de parada normalmente utilizados. Foram realizadas simulações com um banco grande (500 itens) e com um banco pequeno (21 itens) e avaliada a qualidade das estimativas dos traços latente (através do cálculos dos vícios e erros quadráticos médios) de TACs com diferentes números de itens. Foi aplicado o modelo de Samejima às respostas de estudantes do Exame ao proficiência em inglês (EPI) do ICMC - USP, que é aplicado semestralmente no formato lápis e papel, para a formação de um banco de itens e posterior construção de um TAC. Também foi aplicado o modelo às respostas de pacientes clínicos do Hospital das Clínicas da Medicina da USP, cedido pelo doutor Yuang-Pang Wang, ao Inventário de Depressão de Beck (BDI) para os mesmos propósitos. Comparações com a atual metodologia para avaliação da proficiência em língua inglesa do EPI (Medida de Probabilidade Admissível, MPA) e para o diagnóstico de depressão do BDI (critério sugerido por Kendall et al., 1987) foram realizadas demonstrando as vantagens e maior riqueza dos resultados obtidos com a TRI e com os TACs implementados. Adcionalmente foi desenvolvido um programa Same-CAT que armazena bancos de itens e possibilita a criação e aplicação de TACs com restrições, através da abordagem Shadow test / Computerized Adaptive Tests (CAT) are those that select questions (items) gradually to be presented to an individual according to their proficiency (latent trait level). A CAT can be based on an Item Response Theory (IRT) model for estimation of the latent trait and selection of the next item to be presented in each step of the test. This paper presents IRT models used in CATs found in literature and describes some methods of item calibration for creation and maintenance of a test items bank under the Samejima\'s model (Samejima; 1969), estimation of latent trait, item selection with constraints using the Shadow test approach and usuals stopping criteria. Simulations were conducted with a large bank (500 items) and a small bank (21 items) and the quality of the estimatives of latent traits were evaluated (through calculations of mean squared errors and bias) TACs with different item numbers. Samejima\'s model were applied for the responses of students to the English Proficiency Exam (EPE) of ICMC - USP, a test applied twice a year in paper and pencil format, to create an item bank and subsequent construction of a CAT. The model was also applied to the responses of clinical patients from the Hospital das Clnicas - USP, given by Dr. Yuang-Pang Wang, to the Beck Depression Inventory (BDI) for the same purposes. Comparisons using the current methodology to evaluate the English Language Proficiency of EPE (Measure of Probability Allowable, MPA) and the BDI (criterion suggested by Kendall et al., 1987) were performed, and the CATs provided better and richer results. Furthermore a program, Same-CAT, that stores item banks and allows CAT\'s applications with constraints was created
|
Page generated in 0.0937 seconds