La
estadística es una ciencia formal y una herramienta que estudia el uso y los
análisis provenientes de una muestra representativa de datos, busca explicar
las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia
en forma aleatoria o condicional.
Sin embargo,
la estadística es más que eso, es decir, es la herramienta fundamental que
permite llevar a cabo el proceso relacionado con la investigación científica.
Es
transversal a una amplia variedad de disciplinas, desde la física hasta las
ciencias sociales, desde las ciencias de la salud hasta el control de calidad.
Se usa para
la toma de decisiones en áreas de negocios o instituciones gubernamentales.
La
estadística se divide en dos grandes áreas:
Estadística
descriptiva: Se dedica a la descripción, visualización y resumen de datos
originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos
numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la
media y la desviación estándar. Algunos ejemplos gráficos son: histograma,
pirámide poblacional, gráfico circular, entre otros.
Estadística
inferencial: Se dedica a la generación de los modelos, inferencias y
predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la
aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y
extraer inferencias acerca de la población bajo estudio. Estas inferencias
pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis),
estimaciones de unas características numéricas (estimación), pronósticos de
futuras observaciones, descripciones de asociación (correlación) o modelamiento
de relaciones entre variables (análisis de regresión). Otras técnicas de
modelamiento incluyen anova, series de tiempo y minería de datos.
Ambas ramas
(descriptiva e inferencial) comprenden la estadística aplicada. La estadística
inferencial, por su parte, se divide en estadística paramétrica y estadística
no paramétrica.
Hay también
una disciplina llamada estadística matemática, la que se refiere a las bases
teóricas de la materia.
La palabra
«estadísticas» también se refiere al resultado de aplicar un algoritmo
estadístico a un conjunto de datos, como en estadísticas económicas,
estadísticas criminales, entre otros.
El término
alemán Statistik, introducido originalmente por Gottfried Achenwall en 1749, se
refería al análisis de datos del Estado, es decir, la «ciencia del Estado» (o
más bien, de la ciudad-estado). También se llamó aritmética política de acuerdo
con la traducción literal del inglés. No fue hasta el siglo XIX cuando el
término estadística adquirió el significado de recolectar y clasificar datos.
Este concepto fue introducido por el militar británico sir John Sinclair
(1754-1835).
En su
origen, por tanto, la estadística estuvo asociada a los Estados o ciudades
libres, para ser utilizados por el gobierno y cuerpos administrativos (a menudo
centralizados). La colección de datos acerca de estados y localidades continúa
ampliamente a través de los servicios de estadística nacionales e
internacionales. En particular, los censos comenzaron a suministrar información
regular acerca de la población de cada país. Así pues, los datos estadísticos
se referían originalmente a los datos demográficos de una ciudad o Estado
determinados. Y es por ello que en la clasificación decimal de Melvil Dewey,
empleada en las bibliotecas, todas las obras sobre estadística se encuentran
ubicadas al lado de las obras de o sobre la demografía.
Ya se
utilizaban representaciones gráficas y otras medidas en pieles, rocas, palos de
madera y paredes de cuevas para controlar el número de personas, animales o
ciertas mercancías. Hacia el año 3000 a. C. los babilonios usaban ya pequeños
envases moldeados de arcilla para recopilar datos sobre la producción agrícola
y de los géneros vendidos o cambiados. Los egipcios analizaban los datos de la
población y la renta del país mucho antes de construir las pirámides en el
siglo XI a. C. Los libros bíblicos de Números y Crónicas incluyen en algunas partes
trabajos de estadística. El primero contiene dos censos de la población de la
Tierra de Israel y el segundo describe el bienestar material de las diversas
tribus judías. En China existían registros numéricos similares con anterioridad
al año 2000 a. C. Los antiguos griegos realizaban censos cuya información se
utilizaba hacia el 594 a. C. para cobrar impuestos.
Orígenes
en probabilidad
Los métodos
estadístico-matemáticos emergieron desde la teoría de probabilidad, la cual
data desde la correspondencia entre Pascal y Pierre de Fermat (1654). Christian
Huygens (1657) da el primer tratamiento científico que se conoce a la materia.
El Ars coniectandi (póstumo, 1713) de Jakob Bernoulli y la Doctrina de
posibilidades (1718) de Abraham de Moivre estudiaron la materia como una rama
de las matemáticas.1 En la era moderna, el trabajo de Kolmogórov ha sido un
pilar en la formulación del modelo fundamental de la Teoría de Probabilidades,
el cual es usado a través de la estadística.
La teoría de
errores se puede remontar a la Ópera miscellánea (póstuma, 1722) de Roger Cotes
y al trabajo preparado por Thomas Simpson en 1755 (impreso en 1756) el cual
aplica por primera vez la teoría de la discusión de errores de observación. La
reimpresión (1757) de este trabajo incluye el axioma de que errores positivos y
negativos son igualmente probables y que hay unos ciertos límites asignables
dentro de los cuales se encuentran todos los errores; se describen errores
continuos y una curva de probabilidad.
Pierre-Simon
Laplace (1774) hace el primer intento de deducir una regla para la combinación
de observaciones desde los principios de la teoría de probabilidades. Laplace
representó la Ley de probabilidades de errores mediante una curva y dedujo una
fórmula para la media de tres observaciones. También, en 1871, obtiene la
fórmula para la ley de facilidad del error (término introducido por Lagrange,
1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el
principio del máximo producto de las probabilidades de un sistema de errores
concurrentes.
Fotografía
de Ceres por el telescopio espacial Hubble. La posición fue estimada por Gauss
mediante el método de mínimos cuadrados.
El método de
mínimos cuadrados, el cual fue usado para minimizar los errores en mediciones,
fue publicado independientemente por Adrien-Marie Legendre (1805), Robert
Adrain (1808), y Carl Friedrich Gauss (1809). Gauss había usado el método en su
famosa predicción de la localización del planeta enano Ceres en 1801. Pruebas
adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823), James Ivory
(1825, 1826), Hagen (1837), Friedrich Bessel (1838), W.F. Donkin (1844, 1856),
John Herschel (1850) y Morgan Crofton (1870). Otros contribuidores fueron Ellis
(1844), Augustus De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli
(1875). La fórmula de Peters para r, el probable error de una observación
simple es bien conocido.
El siglo XIX
incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard
Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion y Karl
Pearson. Augustus De Morgan y George Boole mejoraron la presentación de la
teoría. Adolphe Quetelet (1796-1874), fue otro importante fundador de la
estadística y quien introdujo la noción del «hombre promedio» (l’homme moyen)
como un medio de entender los fenómenos sociales complejos tales como tasas de
criminalidad, tasas de matrimonio o tasas de suicidio
Estado
actual
Durante el
siglo XX, la creación de instrumentos precisos para asuntos de salud pública
(epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa
de desempleo, econometría, etc.) necesitó de avances sustanciales en las
prácticas estadísticas.
Hoy el uso
de la estadística se ha extendido más allá de sus orígenes como un servicio al
Estado o al gobierno. Personas y organizaciones usan la estadística para
entender datos y tomar decisiones en ciencias naturales y sociales, medicina,
negocios y otras áreas. La estadística es entendida generalmente no como un sub-área
de las matemáticas sino como una ciencia diferente «aliada». Muchas
universidades tienen departamentos académicos de matemáticas y estadística
separadamente. La estadística se enseña en departamentos tan diversos como
psicología, educación y salud pública.
Regresión
lineal – Gráficos de dispersión en estadística.
Al aplicar
la estadística a un problema científico, industrial o social, se comienza con
un proceso o población a ser estudiado. Esta puede ser la población de un país,
de granos cristalizados en una roca o de bienes manufacturados por una fábrica
en particular durante un periodo dado. También podría ser un proceso observado
en varios instantes y los datos recogidos de esta manera constituyen una serie
de tiempo.
Por razones
prácticas, en lugar de compilar datos de una población entera, usualmente se
estudia un subconjunto seleccionado de la población, llamado muestra. Datos
acerca de la muestra son recogidos de manera observacional o experimental. Los
datos son entonces analizados estadísticamente lo cual sigue dos propósitos:
descripción e inferencia.
El concepto
de correlación es particularmente valioso. Análisis estadísticos de un conjunto
de datos puede revelar que dos variables (esto es, dos propiedades de la
población bajo consideración) tienden a variar conjuntamente, como si hubiera
una conexión entre ellas. Por ejemplo, un estudio del ingreso anual y la edad
de muerte podría resultar en que personas pobres tienden a tener vidas más
cortas que personas de mayor ingreso. Las dos variables se dice que están
correlacionadas. Sin embargo, no se puede inferir inmediatamente la existencia
de una relación de causalidad entre las dos variables. El fenómeno
correlacionado podría ser la causa de una tercera, previamente no considerada,
llamada variable confusora.
Si la
muestra es representativa de la población, inferencias y conclusiones hechas en
la muestra pueden ser extendidas a la población completa. Un problema mayor es
el de determinar cuán representativa es la muestra extraída. La estadística
ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el
proceso de recolección de los datos, así como métodos para diseñar experimentos
robustos como primera medida, ver diseño experimental.
El concepto
matemático fundamental empleado para entender la aleatoriedad es el de
probabilidad. La estadística matemática (también llamada teoría estadística) es
la rama de las matemáticas aplicadas que usa la teoría de probabilidades y el
análisis matemático para examinar las bases teóricas de la estadística.
El uso de
cualquier método estadístico es válido solo cuando el sistema o población bajo
consideración satisface los supuestos matemáticos del método. El mal uso de la
estadística puede producir serios errores en la descripción e interpretación,
lo cual podría llegar a afectar políticas sociales, la práctica médica y la
calidad de estructuras tales como puentes y plantas de reacción nuclear.
Incluso
cuando la estadística es correctamente aplicada, los resultados pueden ser
difíciles de interpretar por un inexperto. Por ejemplo, el significado estadístico
de una tendencia en los datos, que mide el grado al cual la tendencia puede ser
causada por una variación aleatoria en la muestra, puede no estar de acuerdo
con el sentido intuitivo. El conjunto de habilidades estadísticas básicas (y el
escepticismo) que una persona necesita para manejar información en el día a día
se refiere como «cultura estadística.
Métodos
estadísticos
Estudios experimentales
y observacionales
Un objetivo
común para un proyecto de investigación estadística es investigar la
causalidad, y en particular extraer una conclusión en el efecto que algunos
cambios en los valores de predictores o variables independientes tienen sobre
una respuesta o variables dependientes. Hay dos grandes tipos de estudios
estadísticos para estudiar causalidad: estudios experimentales y
observacionales. En ambos tipos de estudios, el efecto de las diferencias de
una variable independiente (o variables) en el comportamiento de una variable
dependiente es observado. La diferencia entre los dos tipos es la forma en que
el estudio es conducido. Cada uno de ellos puede ser muy efectivo.
No hay comentarios:
Publicar un comentario