Return to search

Anàlisi de dades diiscretes: freqüència de freqüències i dades multinomials

La Tesi la integren dues parts molt diferenciades que tenen en comú
tractar de l'anàlisi de dades discretes i l'utilitzar conjunts de
dades com a punt de partida.
La primera part està escrita en anglès i s'adapta al format d'una
tesi escrita per articles. Aquesta part gira al voltant del modelat
i l'anàlisi de freqüències de freqüències fent servir models de
barreja de Poisson truncats a zero. Primer es mostra com al truncar
l'espai mostral del model Inversa Gaussiana-Poisson, es pot ampliar
l'espai de paràmetres del model i es comprova els avantatges de
fer-ho. A continuació es comprova que una generalització del model
Inversa Gaussiana-Poisson ajusta molt bé aquest tipus de dades, i
explora què passa si intercanvies l'ordre entre barrejar i truncar
la distribució de Poisson. L'últim capítol d'aquesta primera part
defensa que la gràcia de fer servir el truncament de la barreja de
Poissons per ajustar aquest tipus de dades és que permet estimar la
densitat de la freqüència de paraules del vocabulari de l'autor.
També proposa estimar mesures de diversitat a través de la
variabilitat d'aquestes estimacions de la freqüència de paraula del
vocabulari. Aquests models permeten estimar la distribució de
vocabulari d'un autor i donen peu a comparar la riquesa i diversitat
de vocabulari entre autors.
La segona part de la tesi, escrita en català, segueix el format de
tesi tradicional i està motivada al voltant de l'anàlisi dels
resultats a les últimes cinc eleccions al Parlament de Catalunya.
Mitjançant models Bayesians per a l'anàlisi cluster per a dades
categòriques identificarem l'existència de patrons de vot, veurem
quines àrees geogràfiques pertanyen a cada patró de vot i estudiarem
com aquests patrons han anat variant al llarg de les diferents
eleccions. L'objectiu d'aquesta segona part és doble. Per un cantó
ajudem a desenvolupar metodologia per comparar i validar models
Bayesians en el context de l'anàlisi cluster de resultats electorals
fent servir eines de representació gràfica. Per un altre cantó
analitzem l'evolució dels resultats electorals observats. Queda
pendent estendre els models Bayesians seleccionats de forma que
permetin estimar les matrius de transició de vot entre eleccions
consecutives. / This phD thesis is composed of two very different parts that have incommon the fact that they deal with the analysis of discrete dataand the use data as the starting point.The first part is written in English and it is formatted as a thesiswritten by articles. This part focuses on the modeling and theanalysis of frequencies of frequencies using zero truncated Poissonmixture models. First, it shows that by truncating the sample spaceof the inverse Gaussian-Poisson model one is allowed to extend itsparameter space and in that way improve its fit. A three parametergeneralization of this model is the zero truncated generalizedinverse Gaussian-Poisson mixture model. In this thesis we also checkthat this three parameter model provides excellent fits for thesetype of data, and also we compare the fit of the truncatedgeneralized inverse Gaussian-Poisson mixture model with the fit ofthe model that results from switching the order of the mixing andtruncation stages. The last chapter of this first part argues thatusing zero truncated Poisson mixture models to fit this type of dataallows one to estimate the density of the frequency of words in thevocabulary of the author. It also proposes to estimate measures ofdiversity through the variability of these estimates of the wordfrequencies of vocabulary. These models allow one to estimate thedistribution of the vocabulary of an author and in that way allowone to compare the richness and diversity of vocabulary amongauthors.The second part of the thesis, written in Catalan, follows thetraditional phD thesis format, and it is motivated by the analysisof the results on the last five elections to the Parliament ofCatalonia. Through the use of Bayesian models for the clusteranalysis of categorical data we identify the existence of votingpatterns, we allocate the areas to each patterns of vote and westudy how these patterns have varied along the different elections.The aim of this second part is double. On one hand we help developmethodology to compare and validate Bayesian models in the contextof the cluster analysis of electoral data using graphical tools. Onthe other hand, we analyze the evolution of the observed electoralresults. In the near future we plan to extend these Bayesian modelsin order to estimate the vote transition matrices from one electionto the next.Lloc

Identiferoai:union.ndltd.org:TDX_UPC/oai:www.tdx.cat:10803/85058
Date18 December 2009
CreatorsPuig, Xavier (Puig Oriol)
ContributorsGinebra, Josep, Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa
PublisherUniversitat Politècnica de Catalunya
Source SetsUniversitat Politècnica de Catalunya
LanguageCatalan
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Format360 p., application/pdf
SourceTDX (Tesis Doctorals en Xarxa)
Rightsinfo:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Page generated in 0.0021 seconds