I. Présentation des données

Quelle est la formation la plus pertinente pour le foisonnement de données ? Le but est de hiérarchiser les informations. Les outils que nous allons utiliser dans le cadre de ce cours vont nous permettre d’arriver à ce but. Il existe plusieurs manières de présenter l’information/les données :

A. Données chronologiques / temporelles

Comme leur nom l’indique, ce sont des données qui varient dans le temps, par exemple macroéconomique : PIB, production, consommation nationale… Variable X=consommation, Xt, si t=années alors la variable est annuelle. Quand on écrit ces variables, on les écrit avec un indice relatif au temps, par exemple Xt avec X pour la consommation et t pour le temps, ici t peut etre en années (variable annuelle), en semestre (variable semestrielle), en trimestre (variable trimestrielle), jusqu’aux variables journalières

Contre exemple : nombre de départements sur décision administrative, nombre de personnes dans un ménage…

Exemple : La consommation augmente naturellement d’une année sur l’autre, car l’on est dans un système capitaliste.

Quelles sont les caractéristiques des données chronologiques, pour les distinguer des autres ?

  • Elles se caractérisent par l’évolution continue à travers le temps. On a un mouvement ascendant ou descendant, un trend haussier (tendance à la hausse) ou un trend baissier (tendance à la baisse).
  • Ce sont des séries chronologiques entachées par des événements accidentels, ponctuels, et qui ne durent pas dans le temps. Exemple : crise de 2008, qui a disparu 3-4 ans après en France. On a une chute, qui va se résorber en quelques années. En France on a pas de croissance très importante mais en compensation on résorbe vite les crises grâce à la protection sociale, la crise frappe moins forts que dans les pays à l’économie plus flexible. Cela a un impact durable sur ces autres pays (25% de chômage en Espagne en 2008, 50% des jeunes sud-espagnoles…).
  • Elles sont aussi entachées par des événements cycliques. Exemple : Noël, soldes. Ils seront pris en considération dans la construction des modélisations. Comment ces événements impactent la variable étudiée et comment faire en sorte qu’ils ne l’affectent pas (à vie) dans la modélisation ? L’idée est de minimiser les erreurs.

Le temps varie mais les individus sont figés.
Xt : série chronologique ( t= 1,…, T avec T qui est la taille de l’échantillon)
Dans l’éxemple de la consommation en France, on a un seul individu, c’est la France, donc
i = 1, l’individu est figé, ce qui bouge c’est le temps.
Dans une série chronologique, T = 1, … , T et i = 1.

B. Coupe transversale

Xt : t=1, où T est la taille de l’échantillon

Une coupe transversale est une série qui varie entre les individus mais pas à travers le temps. Elle se différencie d’une série chronologique dans la mesure où elle n’est pas sujette à des éléments accidentels relatifs au temps, ni aux événements cycliques. Ainsi, les problèmes techniques rencontrés divergent entre une série chronologique et une coupe transversale. « Hétérogénéité non-observable ».

On suppose que nous avons des observations pour l’année 1980 uniquement.
t=1, c’est à dire 1980, ici t est figé, ce qui change c’est i, car i = 1, … , n (avec n = taille d’échantillon = nombre d’individus), on a n individus.

Par exemple, la consommation des ménages de l’UE en 1980. Supposons que les Etats-membres étaient 27 en 1980.

Individus

Consommation de l’UE

France (i=1)

100

Allemagne (i=2)

80

UK (i=3)

Luxembourg (i=27)

C. Données de panel

C’est une combinaison d’une coupe transversale et d’une série chronologique. L’intérêt évident est d’augmenter la taille de l’échantillon et donc d’augmenter l’efficacité des estimations. Plus la taille de l’échantillon augmente, plus les estimations sont efficaces et plus on est précis (les estimations ont un sens). Autrement dit, on a intérêt à ce que la taille de l’échantillon soit importante car le nombre d’observations est important.

Exemple :

On a Xit avec i = 1, … , N ; t = 1, … , T
Xit : on dispose d’une série qui varie avec le temps mais aussi entre les individus. Quelle est la taille de l’échantillon ? T*N : beaucoup plus représentatif (plus nombreux, plus complexe)

La série varie avec le temps mais aussi entre les individus. Quelle est la taille de l’échantillon maintenant ?
Série chronologique consommation des ménages français de 1980 à 2019, t=1, échantillon taille 40
Coupe transversale consommation des ménages de l’UE en 1980, taille échantillon 27
Données de panel T*N=40*27=1080
La taille de l’échantillon va être égale à T x N , T= 40, N= 27

Taille de l’échantillon : 40×27=1080

L’échantillon est plus représentatif, on est plus proche de la réalité que quand on a 27 ou 40 observations.
On ne va pas avoir les mêmes caractéristiques, on va en avoir plus, le traitement de données va être plus complexe.

France

Allemagne

Belgique

Grèce

1980

100

140

60

1981

80

120

50

2019

2000

3500

800

Cette présentation des données n’est pas opérationnelle car ce qui nous intéresse c’est de pouvoir faire des estimations, il faut donc avoir une seule série, on va donc faire une autre présentations qui se présente ainsi :

On effectue une concaténation ou juxtaposition par rapport aux pays, aux individus, à i.

Pour avoir ces données on a fait ce que l’on appelle une concaténation (juxtaposition) des données par pays.
Ici nous avons juxtaposé par rapport aux individus, on peut le faire par rapport au temps.

Dans le premier c’est une concaténation par pays et dans le second cas c’est une concaténation par rappot au temps.

Remarques :

  • dans les deux présentations la taille de l’échantillon est toujours la même
  • la présentation des données dans les deux cas n’a aucun impact sur le traitement statistique de la série
  • la moyenne sera la même dans le premier comme dans le second cas

II. Représentation graphique des données

A. Série chronologique

Il s’agit des données trimestrielles de CA de l’entreprise Biomenio entre 2010 et 2012, en millions d’€.

La représentation la plus naturelle est celle de faire varier le CA en fonction du temps. y=f(t)
La présentation la plus naturelle consiste à faire varier le chiffre d’affaire à travers le temps, on mettant en abscisses le temps et en ordonnée le chiffre d’affaires. La logique c’est qu’en fait le chiffre d’affaires varie avec le temps (on écrit y en fonction de t; y= f(t) ).

Ce graphique nous permet de voir l’évolution du chiffre d’affaires à travers le temps, on remarque que nous avons une évolution ascendante, c’est à dire que le chiffre d’affaire augmente d’une année sur l’autre.

Evolution du CA de l’entreprise de 2010 à 2012 :

On remarque aussi l’existence d’une irrégularité ou une évolution en dents de scie. On soupçonne également l’existence d’une saisonnalité. Pour etre sur de l’existence de cet élément saisonnier, on va essayer de faire une autre présentation des données qui va se baser sur le tableau suivant :

Graphique de courbes superposées :

Le but de ce graphique est de mettre en valeur les variations saisonnières. En effet on remarquera qu’au 3 eme trimestre, l’activité de cette entreprise diminue. On suppose donc qu’elle est dépendante de ce troisième trimestre.

B. Coupe transversale

La différence entre série chronologique et coupe transversale est que la série chronologique évolue avec le temps, donc on peut relier les points entre eux pour former une courbe, ce qui n’est pas le cas pour une coupe transversale. Dans ce cas, on utilise le graphique diagramme à bâtons.
Il ne faut pas non plus faire un histogramme.

 

Chapitre 1 – Introduction générale

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *