I P ERTENECE A L C LÚSTER A F UENTE (R OUSSEEUW (1987)).

DE MOVILIDAD RESIDENCIAL

I P ERTENECE A L C LÚSTER A F UENTE (R OUSSEEUW (1987)).

CAGT 134

Así mismo, en la Figura 17, éste es el promedio de la longitud de todas las líneas que van de i a C. Después del cómputo de d(i,C) para todos los clústers C≠A, donde se selecciona el menor de todos los números y es denotado como (15):

(15)

El clúster B cuyo mínimo es alcanzado (esto es, d(i,B) = b(i)), se llamará el vecino del objeto i. Esto es como la “segunda mejor opción” para el objeto i: si es que éste no pudiera ser acomodado en el clúster A, que el clúster B sería el competidor más cercano. En la Figura 17 el clúster B de hecho parece ser el más “cercano” (en promedio) al objeto i, cuando A por sí misma es descartada. Por lo tanto, es muy útil conocer el vecino de cada objeto en el grupo de datos. Nótese que la construcción de b(i) depende de la disponibilidad de otros clústeres además de A, por lo tanto, es necesario asumir que el número de clústeres k es más de uno.

El número s(i) se obtiene mediante la combinación de a(i) con b(i) como se muestra abajo:

La expresión matemática por lo tanto puede ser (16):

(16)

Cuando el clúster A contiene sólo un objeto es incierto como debe definirse a(i), por lo tanto, simplemente se propone que s(i) sea igual a cero. Esta opción es un tanto arbitraria, pero un valor de cero tiende a ser lo más neutral. De hecho por la definición es fácil de visualizar.

Nótese que si la s(i) definida arriba permanece invariable cuando todas las disimilaridades originales se multiplican por una constante positiva, pero sin permitir que esa constante sea sumada. Esto explica por qué se ha asumido explícitamente que las disimilaridades son una escala proporcional, lo que significa que, por ejemplo, una disimilaridad de 6 puede ser considerada el doble de larga que una disimilaridad de 3, mientras que las distancias euclidianas responden a una escala proporcional.

CAGT 135

Más allá del fortalecimiento de la evidencia intuitiva acerca del significado de s(i), es necesario recalcar algunas situaciones anómalas. Cuando s(i) se encuentra en su mayor (esto es, s(i) cercano a 1) esto implica que la disimilaridad “dentro de” a(i) es mucho menor que la disimilaridad menor “en medio de” b(i). Más allá, es posible decir que si i está “clusterizado” de manera tal que deje pocas dudas de que ha sido asignado al clúster más apropiado, la segunda mejor opción B no es ni remotamente cercana a su situación actual A.

Una situación diferente ocurre cuando s(i) tiende a cero. En este caso, a(i) y b(i) tienden a ser similares, y por lo tanto no es claro que i deba ser asignado a A o B, por lo tanto, el objeto i se sitúa igualmente distante de ambos clústeres, y puede ser considerado como un “caso intermediario”.

El peor de los casos sucede cuando s(i) tiende a ser -1. Entonces a(i) es mucho más grande que b(i), por lo que i se sitúa en promedio mucho más cerca de B que de A. Habría parecido mucho más natural, por ello, asignar el objeto i al clúster B, lo que llevaría a concluir que el objeto i ha sido clasificado erróneamente.

Para concluir, s(i) mide qué tan bien el objeto i coincide con el clúster a la mano (esto es, qué tan bien ha sido clasificado). En dado caso de que existan sólo dos clústeres (k=2), se ha observado que cambiar el objeto i de un clúster a otro convierte a s(i) en -s(i).

En el caso de que los datos coincidan con similaridades, que también debería ser en escala proporcional, es necesario hacer una aproximación ligeramente distinta. Defínanse a’(i) y d’(i,C)

como los promedios correspondientes de las similaridades, entonces en (17):

(17)

El valor de s(i) está dado por:

Que sería interpretado de la misma manera que con las disimilaridades.

4.1.16.LOS ANOVA

Por otro lado, para poder caracterizar tanto a los residentes como al parque inmobiliario predominante dentro de cada submercado, utilizaremos el análisis de varianza (ANOVA) de un

CAGT 136

factor pues este sirve para comparar varios grupos en una variable cuantitativa. Se trata por tanto, de una generalización de la prueba para dos muestras independientes para el caso de diseños con más de dos muestras.

Así pues por un lado, la variable categórica (nominal u ordinal) que define los grupos que se desea comparar generalmente se le llama variable independiente ( ). Por otro lado, la variable cuantitativa en la que se desea comparar los grupos generalmente se le llama dependiente ( ). De tal manera que por ejemplo si deseamos entender si la comunidad inmigrante de un país cualquiera se distribuye de manera homogénea en Barcelona o si existe una preferencia dada hacia un sector residencial específico, tendremos por un lado una categórica (el submercado residencial de pertenencia de cada barrio)cuyos niveles deseamos comparar entre sí, y por otro lado una cuantitativa (el porcentaje de habitantes con esa nacionalidad en cada barrio). Así pues, el ANOVA de un factor permite obtener un estadístico de prueba sobre esa comparación, es decir, permite concluir si una comunidad de inmigrantes tiende a asentarse en un cierto sector residencial.

En concreto, la hipótesis nula que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las medias de la en cada nivel de la ) son iguales, versus la alternativa en donde al menos una es distinta. Si las medias poblacionales son iguales, eso significa que los grupos no difieren en la y que, en consecuencia, la o factor es independiente de la .

La estrategia para poner a prueba la hipótesis de igualdad de las medias, consiste en obtener un estadístico llamado (20), que refleja la similitud existente entre las medias que se están poniendo a prueba. El numerador del estadístico es una estimación de la varianza poblacional basada en la variabilidad existente entre las medias de cada grupo (18). El denominador del estadístico también es una estimación de la varianza poblacional, pero basada en la variabilidad existente dentro de cada grupo (19) ( se refiere a los distintos grupos o niveles del factor).

(18)

(19)

(20)

Si las medias poblacionales son iguales, las medias muestrales serán parecidas, existiendo entre ellas tan sólo diferencias atribuibles al azar. En ese caso, la estimación (basada en las diferencias entre

CAGT 137

las medias) reflejará el mismo grado de variación que la estimación (basada en las diferencias entre las puntuaciones individuales) y el cociente tomará un valor próximo a 1. Si las medias muestrales son distintas, la estimación reflejará mayor grado de variación que la estimación y el cociente tomará un valor mayor que 1. Cuando más diferentes sean las medias, mayor será el valor de .

Además si se valida el supuesto de normalidad y la igualdad en sus varianza el estadístico se distribuye según el modelo de probabilidad de Fisher-Snedecor (los grados de libertad del numerador son el número de grupos menos 1; los del denominador, el número total de observaciones menos el número de grupos). De tal manera, si se supone cierta la hipótesis nula de igualdad de medias, es posible conocer la probabilidad de obtener un valor como el obtenido o mayor (ver Pardo y San Martín, 1998, págs. 248-250).

4.1.17.CONCLUSIONES.

Finalmente podemos decir que con las técnicas estadísticas anteriores conseguimos:

— Modelar las relaciones interactivas (valor de interacción) que las distintas entidades geográficas (barrios) tienen entre sí y consigo mismas.

— Abordar los problemas que se presentan con la multidimensionalidad de los datos mediante el MDS, es necesario decir que siguiendo a Spence y Ogilvie (1973) proponemos un modelo basado en 2 dimensiones y no en 3.

— Segmentar el espacio bidimensional resultante en subconjuntos basados en su similaridad mediante el uso de los PAM.

— Medir la eficiencia de un modelo de segmentación PAM dado mediante el uso de la teoría de siluetas para poder elegir el arreglo óptimo de submercados residenciales basado en la movilidad residencial presente en Barcelona a escala barrios.

— Caracterizar el parque residencial y los residentes de cada submercado residencial revelando diferencias significativas de los mismos entre los submercados.

138

CAPÍTULO 5

In document La estructura del mercado residencial en Barcelona : un análisis de una metodología de identificación de los submercados a partir de la movilidad residencial (página 153-158)