Les modèles log-linéaires de flux migratoires

Introduction aux applications des modèles

Le système de modèles log-linéaires offre plusieurs techniques intéressantes pour l’étude et l’estimation des flux migratoires dans le cadre d’un ensemble de régions. Jusqu’à présent, ces méthodes ont été le plus souvent appliquées à l’étude des migrations internes dans des groupes de régions définies comme unités administratives infranationales. Mais elles ne se limitent pas aux migrations internes, et on peut les appliquer également aux migrations internationales (Raymer 2007).

On définit un flux migratoire comme le nombre de migrations d’une région vers une autre observées sur une période déterminée. Il existe diverses manières de comptabiliser les migrations, et elles peuvent donner des résultats différents. Par exemple, Rees et Willekens (1986) font une distinction entre les registres de population, qui dénombrent les changements de résidence interrégionaux sur une période donnée, et les recensements, qui comptent les individus qui, à la date du recensement, vivent en un lieu différent de l’endroit où ils résidaient au début de la période d’observation.

Quelle que soit la méthode de mesure des flux migratoires, il est de tradition de les présenter sous forme de tableaux de contingence. Ce sont des tableaux carrés où sont consignés les nombres de déplacements entre régions d’origine et régions de destination. Les flux d’une telle matrice de migrations peuvent être parfaitement reproduits par le modèle à composantes multiplicatives, qui est un modèle log-linéaire saturé (c’est-à-dire où il y a autant de paramètres estimés que de points de données). Il a été utilisé par Willekens (1983), Rogers, Willekens, Little et al. (2002) et Rogers, Little et Raymer (2010) pour représenter la matrice des flux entre régions, et par Raymer et Rogers (2007), Raymer, Bonaguidi et Valentini (2006) et Rogers, Little et Raymer (2010) pour modéliser la structure des flux interrégionaux par groupes d’âge. Les composantes multiplicatives sont susceptibles d’interprétation et facilement utilisables pour décrire le régime des migrations entre les régions étudiées (Rogers, Willekens, Little et al. 2002). Si on les a calculées pour plusieurs séries de flux interrégionaux, relatives, par exemple, à des périodes différentes ou à des sous-populations différentes définies par l’âge, le sexe ou la race, les composantes multiplicatives peuvent servir à comparer les régimes de migration de ces diverses populations.

On peut utiliser les méthodes log-linéaires pour justifier des représentations simplifiées des régimes de migration, qui sont moins lourdes que le modèle saturé. La pertinence d’un modèle restreint est déterminée par l’adéquation entre les flux calculés et les flux observés et par le recours aux méthodes statistiques d’évaluation de la qualité d’ajustement. Si le modèle restreint convient, c’est-à-dire s’il s’ajuste bien aux données, on peut l’utiliser pour une estimation indirecte des flux. Le modèle d’indépendance, par exemple, repose sur l’hypothèse que les flux interrégionaux sont distribués conformément à la répartition qui aurait pu être prédite sur la base des distributions marginales des flux par régions d’origine et de destination. Si le modèle d’indépendance est validé, on peut prédire les flux interrégionaux et les estimer indirectement, mais avec précision, si les flux totaux d’entrée et de sortie de chacune des régions sont connus.

Parfois, on fait l’hypothèse que la structure des migrations est invariante par rapport aux facteurs tels que le temps, l’âge, le sexe et la race. Ces hypothèses peuvent être traduites et testées par des modèles log-linéaires. Portant sur des niveaux de migration différents, plusieurs recherches ont montré la remarquable stabilité des régimes de migration, en particulier les taux par âge, en fonction du temps (Mueser 1989 ; Nair 1985 ; Snickars et Weibull 1977). D’autres travaux ont montré la cohérence des structures par âge des migrations interrégionales au cours du temps (Raymer et Rogers 2007). En outre, la courbe de migration par âge des groupes les plus jeunes, que l’on peut élaborer à partir des effectifs par lieu de naissance, s’est révélée, dans certains cas, être un « proxy » du niveau de migration et a permis d’évaluer la migration des groupes les plus âgés (Raymer et Rogers 2007 ; Rogers, Little et Raymer 2010).

Tous ces travaux ont préparé le terrain pour l’élaboration de la méthode des offsets en tant qu’excellent outil d’estimation indirecte des flux migratoires. C’est une application particulière de la modélisation log-linéaire, qui plaque une structure de migration connue sur une série de flux migratoires interrégionaux qui peut comporter des lacunes ou des valeurs douteuses. Avec cette méthode, le schéma de migration connu d’une certaine période peut être adapté de celui d’une autre période. De plus, quand les flux sont répartis par âge, on peut appliquer la structure des flux interrégionaux par âge d’une période à une autre période. Enfin, Raymer et Rogers (2007) ont montré que le niveau de la migration des petits enfants peut être utilisé, avec la méthode des offsets, pour évaluer indirectement les flux migratoires des personnes âgées.

Diverses applications des modèles log-linéaires, avec les hypothèses correspondantes, sont détaillées dans les sections qui suivent, en commençant par le cas à deux variables, c’est-à-dire l’analyse des flux par origine et destination. Dans cette section, ayant défini le modèle log-linéaire dans le cadre de matrices de flux à deux dimensions, nous calculerons et nous interpréterons les formes multiplicative et additive du modèle saturé. Le modèle log-linéaire d’indépendance et le modèle de quasi-indépendance « limité aux migrants » seront exposés, avec quelques illustrations et une brève description des méthodes d’évaluation de la qualité d’ajustement.

Cette section s’achèvera sur une illustration de l’emploi de la méthode des offsets pour estimer indirectement les flux interrégionaux d’une période à partir de la structure de ceux d’une autre période. Si on dispose des flux migratoires de deux périodes différentes, on peut tester l’hypothèse d’invariance par rapport au temps avec un modèle log-linéaire et la méthode des offsets. Nous examinerons les modèles qui répartissent les flux d’origine et de destination par groupes d’âge. Nous terminerons par une illustration de la manière dont le modèle multiplicatif prenant en compte l’âge peut, en association avec la méthode des offsets, servir à l’estimation indirecte des flux interrégionaux par âge d’une autre période.

Applications du modèle à deux variables

Pour illustrer le modèle log-linéaire à deux variables, nous considérons les migrations, observées en 1973 et en 1976, entre communes néerlandaises groupées en six catégories selon leur degré d’urbanisation. Les données, publiées par Willekens (1983), sont présentées dans le tableau 1. Dans cet exemple, il y a deux variables, la région d’origine (O) et la région de destination (D). Aucune d’elles n’est désignée comme la variable dépendante. Le résultat peut prendre la forme des flux migratoires interrégionaux, notés nij, dans la variante multiplicative du modèle, ou celle des logarithmes naturels des flux, notés ln(nij), dans la variante additive.

Les décompositions du modèle saturé, reproduisant chacune parfaitement les données observées, sont décrites dans les sous-sections présentant le modèle à composantes multiplicatives et le modèle additif linéaire, et trois techniques d’estimation indirecte sont illustrées dans les trois sous-sections suivantes, consacrées au modèle d’indépendance, au modèle de quasi-indépendance et à la méthode des offsets.

Tableau 1 Migrations entre communes selon le degré d’urbanisation*, Pays-Bas, 1973 et 1976

A. Migrations 1973

 

 

 

 

 

Origine  

Destination

1    

2    

3    

4    

5    

6    

Total  

1

50 498

23 829

8 566

21 846

16 264

18 856

139 859

2

25 005

27 536

6 953

14 326

16 212

18 282

108 314

3

15 675

10 710

13 874

6 266

9 819

19 701

76 045

4

23 457

14 169

4 431

10 209

9 386

10 973

72 625

5

29 548

25 267

11 802

13 160

15 979

20 406

116 162

6

46 815

39 123

42 399

25 012

26 830

23 304

203 483

Total

190 998

140 634

88 025

90 819

94 490

111 522

716 488

B. Migrations 1976

 

 

 

 

 

Origine  

Destination

1    

2    

3    

4    

5    

6    

Total  

1

14 473

14 327

6 077

11 689

10 618

9 897

67 081

2

14 833

36 258

13 289

17 391

20 899

21 869

124 539

3

8 330

17 764

25 113

10 489

18 171

29 220

109 087

4

11 315

16 498

8 935

10 537

10 762

12 519

70 566

5

11 875

24 370

19 151

12 312

16 724

22 591

107 023

6

16 582

32 336

52 415

22 264

28 182

27 810

179 589

Total

77 408

141 553

124 980

84 682

105 356

123 906

657 885

    *1 : communes purement rurales
      2 : communes rurales industrielles
      3 : communes de résidence des navetteurs
      4 : villes à caractère rural et petites villes
      5 : villes moyennes
      6 : grandes villes (plus de 100 000 habitants)
  Source : Bureau central des statistiques, La Haye.

Application 1 : Le modèle à composantes multiplicatives

La forme multiplicative du modèle log-linéaire saturé, dite modèle à composantes multiplicatives, reproduit les éléments de la matrice des flux de la manière suivante :

n ij =(T)( O i )( D j )(O D ij ).

Comme tous les modèles saturés, ce n’est pas, à proprement parler, un modèle, mais une manière de représenter les données. nij est le flux observé de la région i vers la région j, et les paramètres mesurant l’effet des facteurs intervenants sont T, Oi, Dj et ODij. Ainsi, chaque flux de i vers j, occupant une cellule dans les matrice 6 × 6 du tableau 1 (hors marges), peut être représenté par une équation de la même forme que l’équation 1, avec la série de paramètres correspondante. T représente l’effet global de l’ensemble des facteurs intervenants, Oi l’effet de la région d’origine, Dj celui de la région de destination, et ODij l’effet de l’interaction entre Oi et Dj. Pris tous ensemble, les paramètres du modèle saturé représentent la structure spatiale de la migration (Rogers, Willekens, Little et al. 2002).

Deux séries différentes de paramètres satisfaisant le modèle à composantes multiplicatives ont été utilisées dans les recherches sur la migration. Nous les présentons toutes les deux ici. Chacune offre une manière différente de représenter et d’interpréter le régime de migration. On appelle la première « calcul des effets des facteurs sur la base de la moyenne géométrique » (en anglais : geometric mean effect coding) (Knoke et Burke 1980 ; Willekens 1983), et la seconde « calcul des effets des facteurs sur la base du total général » (en anglais : total sum reference coding) (Raymer et Rogers 2007 ; Rogers, Little et Raymer 2010). Un troisième modèle à composantes multiplicatives est développé dans la sous-section consacrée au modèle log-linéaire additif.

Application 2 : Calcul des effets des facteurs sur la base de la moyenne géométrique

Le calcul des effets des facteurs sur la base de la moyenne géométrique a été la première décomposition de l’équation 1 utilisée dans l’analyse des migrations. Proposé par Birch (1963), il est, par sa forme, équivalent au modèle de gravitation (Willekens 1983). Le tableau 2 présente les composantes multiplicatives résultant de l’application du calcul des effets des facteurs sur la base de la moyenne géométrique aux données néerlandaises du tableau 1. Notons que la composante globale (T) se trouve dans les totaux généraux du tableau, les composantes de la région d’origine (Oi) dans les totaux de lignes, les composantes de la région de destination (Dj) dans les totaux de colonnes, et les composantes de l’interaction origine-destination (ODij) dans les cellules intérieures des deux matrices (hors marges).

Tableau 2 Composantes multiplicatives obtenues par application du calcul des effets des facteurs sur la base de la moyenne géométrique

A. Migrations 1973

 

 

 

 

 

Origine  

Destination

1  

2  

3  

4  

5  

6  

Total 

1

1,457

0,940

0,656

1,352

0,933

0,882

1,180

2

0,885

1,332

0,653

1,087

1,140

1,048

0,962

3

0,771

0,720

1,811

0,661

0,959

1,570

0,692

4

1,275

1,052

0,639

1,190

1,014

0,966

0,627

5

0,943

1,102

1,000

0,901

1,013

1,055

1,067

6

0,838

0,957

2,015

0,960

0,954

0,676

1,903

Total

1,711

1,252

0,644

0,798

0,861

1,056

17 168,003

B. Migrations 1976

 

 

 

 

 

Origine  

Destination

1  

2  

3  

4  

5  

6  

Total 

1

1,753

0,984

0,571

1,317

0,979

0,787

0,656

2

0,986

1,366

0,686

1,075

1,057

0,954

1,195

3

0,655

0,792

1,533

0,767

1,088

1,508

1,010

4

1,277

1,055

0,783

1,106

0,925

0,927

0,704

5

0,900

1,047

1,127

0,868

0,965

1,124

1,048

6

0,769

0,850

1,888

0,960

0,995

0,847

1,712

Total

0,768

1,354

0,989

0,825

1,008

1,169

16 401,919

L’effet global, T, est décrit comme la constante de proportionnalité ou l’effet principal de la taille (Willekens 1983). C’est la moyenne géométrique de tous les flux interrégionaux :

T= [ ij n ij ] ( 1 m×m ) ,

m est le nombre de régions d’origine (lignes), égal au nombre de régions de destination (colonnes). T est égal à 17 168,003 en 1973 et à 16 401,919 en 1976.

Pour une région déterminée i, l’effet principal de cette région d’origine est le rapport de la moyenne géométrique des flux partant de i à la moyenne géométrique générale.

O i = 1 T [ j n ij ] 1 m .

L’effet principal Oi mesure l’importance relative de la région i comme source de migrations (Alonso 1986). Par exemple, selon les données de 1973, l’effet de région d’origine des communes de la 4e catégorie est égal à :

O 4 = 1 17168,003 [23457×14169×4431×10209×9386×10973] 1 6 =0,627.

C’est le plus faible des effets de région d’origine (lignes), ce qui signifie que la 4e catégorie était la moins importante des sources de migrations en 1973.

De même, l’effet principal de la région de destination, Dj, mesure l’importance relative de la région j comme destination des migrants. C’est le rapport de la moyenne géométrique de la colonne j à la moyenne géométrique générale, et sa formule est :

D j = 1 T [ i n ij ] 1 m .

Par exemple, pour les communes de la 4e catégorie, l’effet de région de destination en 1973 est égal à :

D 4 = 1 17168,003 [21846×14326×6266×10209×13160×25012] 1 6 =0,798.

Tous les autres effets, en ligne comme en colonne, se calculent de la même manière. Chaque effet est égal au rapport de la moyenne géométrique des éléments d’une ligne (ou d’une colonne) à la moyenne géométrique générale. Ils sont l’équivalent des facteurs d’équilibre du modèle de gravitation (Willekens 1983).

On peut comparer ces effets entre régions et entre périodes. Par exemple, la 6e catégorie était la plus importante source de migrations en 1973 (1,903 est supérieur à tous les autres effets de région d’origine) et en 1976 (1,712 est supérieur à tous les autres effets de région d’origine). La 1re catégorie était moins importante comme destination des migrations en 1976 qu’en 1973 (0,768 est inférieur à 1,711), et, en 1973, elle était moins importante comme origine que comme destination (1,180 est inférieur à 1,711).

Les cadres A et B du tableau 2 sont parfois appelés matrices d’interaction spatiale. Ils contiennent les effets d’interaction ODij de l’équation 1, et chaque effet est égal au rapport du flux observé entre i et j au flux calculé, qui est le produit des trois autres paramètres. La formule est :

O D ij = n ij (T)( O i )( D j ) .

Chaque ODij exprime l’écart entre le flux observé, nij, et le flux calculé sous l’hypothèse d’indépendance entre région de destination j et région d’origine i, c’est-à-dire (T)(Oi)(Dj). On interprète ces coefficients comme des indicateurs d’accessibilité, ou de facilité d’interaction ou d’attractivité entre deux régions (Rogers, Willekens, Little et al. 2002).

Des valeurs égales à 1,0 signifient l’indépendance, c’est-à-dire l’absence d’association entre origine et destination. Selon l’équation 1, si un coefficient ODij vaut 1,0, nij est déterminé uniquement par les valeurs de T, Oi et Dj. Un écart par rapport 1,0 dans n’importe quel sens est le signe d’une association entre origine et destination. Des valeurs supérieures à 1,0 représentent des niveaux d’accessibilité/attractivité supérieurs aux attentes, et des valeurs inférieures à 1,0 représentent des niveaux d’accessibilité/attractivité inférieurs aux attentes.

Comme les effets de la diagonale de 1973 sont généralement supérieurs à 1,0, il semble que, de manière imprévue, les migrants aient été attirés par des destinations appartenant à la même catégorie que leurs communes d’origine. La 6e catégorie fait exception : les migrants originaires de grandes villes de plus de 100 000 habitants étaient plus attirés par des communes de navetteurs (3e catégorie) que par d’autres grandes villes (2,015 est supérieur à 0,676).

Le tableau 2 présente tous les paramètres dont on a besoin pour reproduire les flux de 1973 et de 1976. Pour vérifier que n’importe quel flux du tableau 1 peut être reproduit par les composantes multiplicatives, prenons, par exemple, le flux de la 2e catégorie vers la 3e en 1973 :

n 2,3 =6953=17168,003×0,962×0,644×0,653.

Les valeurs des paramètres ne sont pas toutes indépendantes les unes des autres. En d’autres termes, les valeurs de certains paramètres peuvent être déduites de celles des autres. Pour une année d’observation et pour toutes les combinaisons de i et de j, il y a 36 effets d’interaction, 6 effets principaux de la région d’origine et 6 de la région de destination, ainsi qu’un effet général, comme on le voit dans le tableau 2. Mais ces 49 paramètres, pour chaque année, ont été établis à partir de 36 flux observés seulement, ce qui veut dire que 13 paramètres sont redondants. Autrement dit, 13 des 49 paramètres peuvent être déduits des 36 autres, et la relation entre les paramètres est déterminée par les contraintes suivantes associées au calcul des effets des facteurs sur la base de la moyenne géométrique. La première série de contraintes oblige les produits des effets principaux de la région d’origine (et ceux de la région de destination) à être égaux à 1. Ce qui s’écrit :

i O = i 1et j D = j 1.

La deuxième série de contraintes concerne les éléments d’interaction de chaque ligne et de chaque colonne : les produits des éléments intérieurs de chaque ligne (et de chaque colonne) doivent être égaux à 1. En d’autres termes, si cinq des effets d’interaction associés à une région d’origine (ou de destination) sont connus, le sixième s’en déduit automatiquement. Ceci s’écrit :

i O = ij 1et    j D = ij 1.

En général, s’il y a m régions, il y a m2 paramètres linéairement indépendants et 1+m+m+(m×m) composantes multiplicatives. Pour l’ensemble des calculs des effets des facteurs sur la base de la moyenne géométrique, voir le tableau 2 de la feuille de calcul Multiplicative Components du manuel d’exercices en ligne.

Application 3 : Calcul des effets des facteurs sur la base du total général

Le calcul des effets des facteurs sur la base de la moyenne géométrique, qui utilise la moyenne géométrique comme valeur de référence, est le plus ancien mode de décomposition employé pour décrire la migration (Rogers, Willekens, Little et al. 2002 ; Willekens 1983). Mais récemment, le calcul des effets des facteurs sur la base du total général est devenu plus populaire (Raymer et Rogers 2007 ; Rogers, Little et Raymer 2010). Les deux types de décomposition satisfont l’équation 1, mais le calcul des effets des facteurs sur la base du total général est plus transparent. Par exemple, l’effet global T est maintenant le nombre total de migrants, noté n++, Oi est la proportion de l’ensemble des migrants qui sortent de la région i (soit ni+/n++), et Dj est la proportion de tous les migrants qui entrent dans la région j (soit n+j/n++). La composante d’interaction, ODij, est maintenant définie comme nij/[(T)(Oi)(Dj)], soit le rapport du nombre observé de migrants, nij, au nombre calculé, (T)(Oi)(Dj). Tous ces effets pris ensemble constituent une autre manière de représenter la structure spatiale des migrations.

Les composantes multiplicatives obtenues par le calcul des effets des facteurs sur la base du total général sont présentées dans le tableau 3. Considérons, par exemple, la décomposition des 8 566 migrations des communes de la 1re catégorie vers celles de la 3e en 1973 selon les quatre composantes multiplicatives :

n 13 =(T)( O 1 )( D 3 )(O D 13 ) = n ++ ( n 1+ n ++ )( n +3 n ++ )[ n 13 ( n ++ )( n 1+ n ++ )( n +3 n ++ ) ] =(716488)( 139859 716488 )( 88025 716488 )( 8566 17183 ) =716488(0,102)(0,190)(0,477) =8566.

Les interprétations de ces composantes sont relativement évidentes. La composante globale est le nombre total de migrations constatées en 1973, soit 716 488. La composante de la région d’origine représente la proportion du total des migrants sortant de chaque région (par exemple, 10 % de toutes les migrations sont des sorties de communes de la 1re catégorie). La composante de la région de destination représente la proportion du total des migrants entrant dans chaque région (par exemple, 19 % de toutes les migrations sont des entrées dans des communes de la 3e catégorie). Finalement, la composante d’interaction représente le rapport du nombre de migrants observés au nombre de migrants attendus ; il y a eu ainsi, en gros, 48 migrations observées entre les régions 1 et 3 pour 100 attendues. Le flux attendu est basé sur le total marginal, (T)(O1)(D3).

Tableau 3 Composantes multiplicatives obtenues par application du calcul des effets des facteurs sur la base du total général

A. Migrations 1973

 

 

 

 

 

Origine  

Destination

1  

2  

3  

4  

5  

6  

Total 

1

1,354

0,868

0,499

1,232

0,882

0,866

0,195

2

0,866

1,295

0,523

1,043

1,135

1,084

0,151

3

0,773

0,718

1,485

0,650

0,979

1,664

0,106

4

1,212

0,994

0,497

1,109

0,980

0,971

0,101

5

0,954

1,108

0,827

0,894

1,043

1,129

0,162

6

0,863

0,980

1,696

0,970

1,000

0,736

0,284

Total

0,267

0,196

0,123

0,127

0,132

0,156

716 488

B. Migrations 1976

 

 

 

 

 

Origine  

Destination

1  

2  

3  

4  

5  

6  

Total 

1

1,834

0,993

0,477

1,354

0,988

0,783

0,102

2

1,012

1,353

0,562

1,085

1,048

0,932

0,189

3

0,649

0,757

1,212

0,747

1,040

1,422

0,166

4

1,363

1,087

0,667

1,160

0,952

0,942

0,107

5

0,943

1,058

0,942

0,894

0,976

1,121

0,163

6

0,785

0,837

1,536

0,963

0,980

0,822

0,273

Total

0,118

0,215

0,190

0,129

0,160

0,188

657 885

Comme dans le cas du calcul des effets des facteurs sur la base de la moyenne géométrique, la décomposition obtenue par le calcul des effets des facteurs sur la base du total général donne plus de paramètres que de points de données originaux. Les contraintes qui définissent les relations entre les paramètres, et ainsi permettent le calcul des paramètres redondants, sont les suivantes :

i O i =1; j D j =1; i O i j O D ij m =1,et j O i i O D ij m =1.

m est le nombre de régions (Raymer, Bonaguidi et Valentini 2006).

Pour l’ensemble des calculs des effets des facteurs sur la base du total général, voir le tableau 3 de la feuille de calcul Multiplicative Components du manuel d’exercices en ligne.

Comparaison des deux modèles à composantes multiplicatives

Si on applique le même mode de décomposition à deux séries de flux migratoires dans un ensemble de régions, tous les paramètres sauf T sont des nombres sans dimension. Cela signifie que mesurer le rapport entre deux séries de composantes fournit une méthode simple d’évaluation de la stabilité du régime de migration indépendamment de l’élévation ou de la diminution du niveau général de la migration (Rogers, Willekens, Little et al. 2002). Le tableau 4 présente les rapports des composantes de 1976 à celles de 1973. Plusieurs s’écartent sensiblement de 1, ce qui indique que le régime de migration a changé en trois ans, de 1973 à 1976. Par exemple, le rapport des composantes pour OD11 est égal à 1,354, ce qui signifie que la migration entre communes de la 1re catégorie était plus attractive en 1976 qu’en 1973. Par contre, le rapport des composantes pour OD33 est égal à 0,816, c’est-à-dire que la migration entre communes de la 3e catégorie était moins attractive en 1976 qu’en 1973.

Tableau 4 Rapports entre les composantes multiplicatives de 1976 et celles de 1973

Origine  

Destination

1  

2  

3  

4  

5  

6  

Total 

1

1,354

1,144

0,957

1,099

1,121

0,904

0,522

2

1,169

1,045

1,075

1,040

0,923

0,860

1,252

3

0,839

1,055

0,816

1,149

1,062

0,854

1,562

4

1,125

1,093

1,342

1,046

0,972

0,970

1,058

5

0,988

0,955

1,139

1,000

0,936

0,993

1,003

6

0,909

0,854

0,906

0,993

0,980

1,117

0,961

Total

0,441

1,096

1,546

1,015

1,214

1,210

0,918

Application 4 : Le modèle log-linéaire additif

À côté du modèle à composantes multiplicatives, une forme alternative du modèle log-linéaire saturé est le modèle linéaire additif. Que l’on utilise la forme additive ou la forme multiplicative, les paramètres représentent la structure spatiale de la migration (Rogers, Willekens, Little et al. 2002), et la valeur de chaque flux peut être parfaitement reproduite par ces paramètres.

Étant donné que le modèle multiplicatif est, dans la forme, équivalent au modèle de gravitation (Willekens 1983), on le considère comme plus adéquat que le modèle linéaire additif pour la représentation des structures spatiales de la migration. D’un autre côté, la forme linéaire additive est beaucoup utilisée en statistique, et quand on emploie un logiciel statistique classique (par exemple SPSS, Stata, R) pour calculer un modèle log-linéaire, on obtient toujours les paramètres de la forme linéaire additive. C’est pourquoi nous présentons dans cette sous-section les calculs et interprétations habituels des paramètres du modèle linéaire additif.

Le modèle additif est une combinaison linéaire de logarithmes, ce qui justifie son appellation de modèle log-linéaire (Knoke et Burke 1980). Mathématiquement équivalent au modèle à composantes multiplicatives, il consiste à prendre les logarithmes des deux membres de l’équation 1 :

ln( n ij )=ln(T)+ln( O i )+ln( D j )+ln(O D ij )

ou, sous une forme plus condensée :

ln( n ij )=λ+ λ i O + λ j D + λ ij OD .

Les 

λ

sont simplement les logarithmes naturels des paramètres de l’équation 1. Les lettres O, D et OD servent à distinguer les paramètres (ce ne sont pas des exposants), et les indices i et j renvoient respectivement aux catégories des régions d’origine et de destination.

En prenant les logarithmes naturels des paramètres des tableaux 2 et 3, on obtiendrait les séries correspondantes de paramètres du modèle linéaire additif. Mais, tout comme il y a au moins deux décompositions du modèle à composantes multiplicatives, le calcul des effets des facteurs sur la base de la moyenne géométrique et le calcul des effets des facteurs sur la base du total général, il y a plusieurs stratégies pour parvenir à des séries de paramètres qui satisfont le modèle linéaire additif (Powers et Xie 2008), et les approches retenues par les logiciels statistiques classiques ne sont pas simplement les transformations logarithmiques des composantes multiplicatives calculées précédemment.

Rappelons-nous qu’un système de migration à m régions a m×m paramètres linéairement indépendants. Les modèles à composantes multiplicatives décrits plus haut donnent des valeurs interprétables de 1+m+m+(m×m) paramètres, mais qui ne sont pas tous linéairement indépendants les uns des autres. Par ailleurs, les procédures statistiques de SPSS, Stata et R calculent uniquement des paramètres linéairement indépendants, soit 1 valeur pour

λ T

, m–1 valeurs pour

λ i O

, m-1 valeurs pour

λ j D

, et
(m-1) ×(m-1) valeurs pour

λ ij OD .

La série de valeurs calculées des paramètres dépend du mode de codage de contraste (en anglais : contrast coding) utilisé par le logiciel. Le codage de contraste fige une région en donnant à tous ses paramètres linéaires additifs la valeur 0. SPSS, par exemple, annule les paramètres de la dernière région, numérotée m, ici :

λ m O = λ m D = λ mj OD = λ im OD =0.

Les paramètres obtenus par SPSS à partir des données néerlandaises sont détaillés dans le tableau 5. Les instructions de SPSS qui conduisent à ces résultats pour la matrice de migrations de 1973, ainsi que la sortie SPSS, sont présentées dans l’Appendice 1 (en ligne sur le site web de Tools for Demographic Estimation). Le tableau 5 et les formules Excel de calcul des paramètres sont disponibles sur la feuille de calcul Contrast coding du manuel d’exercices en ligne.

Tableau 5 Paramètres linéaires additifs obtenus par codage de contraste de la « dernière région »

A. Migrations 1973

 

 

 

 

 

Origine  

Destination

1  

2  

3  

4  

5  

6  

Total 

1

0,288

-0,284

-1,388

0,076

-0,289

0,000

-0,212

2

-0,384

-0,109

-1,565

-0,315

-0,261

0,000

-0,243

3

-0,926

-1,128

-0,949

-1,216

-0,837

0,000

-0,168

4

0,062

-0,262

-1,505

-0,143

-0,297

0,000

-0,753

5

-0,327

-0,304

-1,146

-0,509

-0,385

0,000

-0,133

6

0,000

0,000

0,000

0,000

0,000

0,000

0,000

Total

0,698

0,518

0,598

0,071

0,141

0,000

10,056

B. Migrations 1976

 

 

 

 

 

Origine  

Destination

1  

2  

3  

4  

5  

6  

Total 

1

0,897

0,219

-1,122

0,389

0,057

0,000

-1,033

2

0,129

0,355

-1,132

-0,007

-0,059

0,000

-0,240

3

-0,738

-0,648

-0,785

-0,802

-0,488

0,000

0,049

4

0,416

0,125

-0,971

0,050

-0,165

0,000

-0,798

5

-0,126

-0,075

-0,799

-0,385

-0,314

0,000

-0,208

6

0,000

0,000

0,000

0,000

0,000

0,000

0,000

Total

-0,517

0,151

0,634

-0,222

0,013

0,000

10,233

Les paramètres de la dernière région sont tous égaux à 0, et donc n’apportent rien à l’équation 2. L’interprétation des paramètres du tableau 5 est un peu compliquée, car ils sont exprimés en logarithmes. Les retransformer en composantes multiplicatives par exponentiation donne une nouvelle série de composantes multiplicatives qui satisfont l’équation 1. Ces composantes multiplicatives associées au codage de contraste de la « dernière région » figurent dans le tableau 6. En général, elles ne servent pas à décrire la structure spatiale des migrations, mais elles ont leur utilité pour la description des systèmes de migration, car les paramètres d’interaction, ODij, sont assimilables à des odds ratios.

Tableau 6 Composantes multiplicatives obtenues par codage de contraste de la « dernière région »

A. Migrations 1973

 

 

 

 

 

Origine  

Destination

1  

2  

3  

4  

5  

6  

Total 

1

1,333

0,753

0,250

1,079

0,749

1,000

0,809

2

0,681

0,897

0,209

0,730

0,770

1,000

0,785

3

0,396

0,324

0,387

0,296

0,433

1,000

0,845

4

1,064

0,769

0,222

0,867

0,743

1,000

0,471

5

0,721

0,738

0,318

0,601

0,680

1,000

0,876

6

1,000

1,000

1,000

1,000

1,000

1,000

1,000

Total

2,009

1,678

1,819

1,073

1,151

1,000

23 304

B. Migrations 1976

 

 

 

 

 

Origine  

Destination

1  

2  

3  

4  

5  

6  

Total 

1

2,453

1,245

0,326

1,475

1,059

1,000

0,356

2

1,138

1,426

0,322

0,993

0,943

1,000

0,786

3

0,478

0,523

0,456

0,448

0,614

1,000

1,051

4

1,516

1,133

0,379

1,051

0,848

1,000

0,450

5

0,882

0,928

0,450

0,681

0,731

1,000

0,812

6

1,000

1,000

1,000

1,000

1,000

1,000

1,000

Total

0,596

1,163

1,885

0,801

1,013

1,000

27 810

Par exemple, le paramètre global

λ T

pour les migrations de 1973 du tableau 5 donne le logarithme naturel des migrations observées de la région de référence :

  • ln(n66) = 10,056, et à partir du tableau 6, le paramètre correspondant T donne le flux migratoire n66 :
    • n66 = exp(10,056) = 23 304.

Un autre exemple concernant les migrations de 1973 du tableau 5 montre comment les effets principaux des régions d’origine,

λ i O

, s’ajoutent au paramètre global pour reproduire les migrations des communes de 1re catégorie vers celles de la catégorie de référence, la 6e, du tableau 1. Par exemple :

  • ln(n16) = 10,056 – 0,212 = 9,845, et la composante multiplicative correspondante, O1 multipliée par le T du tableau 6 donne :
    • n16 = 27 810 × 0,356 = 18 856.

Avec la même approche, on peut reproduire les logarithmes de tous les flux migratoires en appliquant l’équation 1, avec les paramètres appropriés du tableau 6, ou reproduire les flux observés en appliquant l’équation 2 avec les paramètres du tableau 5.

Les paramètres d’interaction du modèle linéaire,

λ ij OD

, sont des logarithmes d’odds ratios (LOR) : un LOR est le logarithme du rapport de deux cotes (odds) : (1) la cote de la migration vers la région j par rapport à la migration vers la région de référence, sous la condition que la région d’origine soit la région i, et (2) la cote de la migration vers la région j par rapport à la migration vers la région de référence, sous la condition que la région d’origine soit la région de référence. Par exemple, à partir de la matrice de 1973 du tableau 5,

λ 23 OD

= –1,565, calculé ainsi :

λ 23 OD =ln[ n 23 n 26 n 63 n 66 ]=ln[ 6953 18282 42399 23304 ]=1,565.

Pour le dire avec des mots, ce paramètre est le logarithme du rapport entre la cote de la migration vers une commune de la 3e catégorie plutôt que de la 6e, pour un migrant sortant d’une commune de 2e catégorie et cette même cote pour un migrant sortant d’une commune de la 6e catégorie.

Les odds ratios mesurent la probabilité d’un événement comparativement à celle d’un autre événement. Comme ils sont plus classiques que les LOR, il peut être plus facile de passer à l’exponentielle des LOR et d’interpréter les paramètres d’interaction du tableau 6 comme des odds ratios. Par exemple, le paramètre OD23, dans le cas des données de 1973, se calcule ainsi :

O D 23 =exp(1,565)=[ n 23 n 26 n 63 n 66 ]=0,209.

En une phrase, les chances qu’un migrant sortant d’une commune de 2e catégorie entre dans une commune de 3e catégorie plutôt que dans une commune de 6e catégorie valent approximativement 1/5 des chances qu’un migrant sortant d’une commune de 6e catégorie opte pour une commune de 3e catégorie plutôt que pour une commune de 6e catégorie. Les odds ratios sont toujours positifs et dépendent toujours du choix de la catégorie de référence. Un odds ratio égal à 1 signifie l’absence de toute relation, c’est-à-dire l’indépendance statistique. Une valeur supérieure à 1 indique une association positive, et une valeur inférieure à 1 indique une association négative.

Stata et R utilisent le codage de contraste de la « première région », alors que SPSS emploie le codage de contraste de la « dernière région ». Dans ces deux logiciels, on donne la valeur 0 aux paramètres de la première région, celle à qui est affectée la première modalité, soit

λ 1 O = λ 1 D = λ 1j OD = λ i1 OD =0.

Les instructions de Stata et de R pour le calcul des paramètres linéaires additifs, ainsi que les résultats correspondants, sur l’exemple des flux migratoires de 1973, peuvent être téléchargés à partir de l’Appendice 1 associé à ce chapitre (en ligne sur le site web de Tools for Demographic Estimation).

Toutes les variantes du modèle saturé et toutes les méthodes statistiques d’estimation des paramètres d’interaction sont concordantes, et leurs résultats sont très largement similaires. Les formules de calcul des paramètres sont disponibles dans la feuille de calcul Linear Additive Parameters du manuel d’exercices en ligne. De plus, SPSS et Stata vérifient automatiquement que chaque paramètre d’interaction linéaire additif est égal à 0. On trouvera ces résultats dans l’Appendice 1 associé à ce chapitre (en ligne sur le site web de Tools for Demographic Estimation), et ils montrent que chaque paramètre d’interaction non redondant est statistiquement significatif. Pour les variances des estimations, voir Agresti et Finlay (2009) et Powers et Xie (2008).

Application 5 : Le modèle d’indépendance

Tous les modèles vus jusqu’à présent sont des modèles saturés, et par conséquent, ils représentent parfaitement les flux observés. En général, les paramètres les plus intéressants sont les paramètres d’interaction, parce qu’ils indiquent les associations entre paires de régions. Le modèle d’indépendance, quant à lui, repose sur l’hypothèse que les paramètres d’interaction sont sans intérêt et superflus, parce que tous les paramètres d’interaction multiplicatifs, ODij, sont égaux à 1, ou, ce qui revient au même, tous les paramètres d’interaction additifs,

λ ij OD

, sont égaux à 0. Le modèle d’indépendance implique que les termes d’interaction doivent sortir du modèle, ce qui réduit celui-ci à la forme plus modeste d’un modèle à deux variables, soit

n ij =(T)( O i )( D j )

 ou

ln( n ij )=λ+ λ i O + λ j D .

 

L'examen visuel des paramètres d’interaction du modèle log-linéaire saturé est un moyen de tester l’hypothèse d’indépendance. Une autre méthode consiste à calculer les distributions conditionnelles de ligne ou de colonne. Si les distributions conditionnelles des lignes (origine) sont identiques, il y a indépendance entre régions d’origine et de destination. En outre, l’indépendance étant une propriété symétrique, si les distributions conditionnelles des lignes (origines) sont identiques, celles des colonnes (destinations) le sont également (Agresti et Finlay, 2009 ; Powers et Xie, 2008). Sur la feuille de calcul Independence du manuel d’exercices en ligne, on a calculé la répartition en pourcentage des migrations néerlandaises dans chaque colonne (destinations). Ces pourcentages de colonne sont très variés, et cela signifie, comme l’indiquent aussi les paramètres d’interaction, que l’indépendance statistique n’est pas vérifiée dans ce cas.

L’hypothèse d’indépendance implique que chaque flux interrégional puisse être déterminé à partir du volume des flux marginaux. Soit Nij le flux attendu entre les régions i et j si l’hypothèse d’indépendance est vérifiée. Nij est alors égal au total des flux du système de migration, n++, multiplié par la proportion de l’ensemble des migrants qui sortent de la région i, ni+/n++, et par la proportion de l’ensemble des migrants qui entrent dans la région j, n+j/n++, soit Nij = n++(ni+/n++)(n+j/n++). Si on peut soutenir l’hypothèse d’indépendance, Nij est une bonne estimation d’un flux interrégional, et le problème de l’estimation des flux migratoires interrégionaux s’en trouve réellement simplifié.

Les différences entre flux observés, nij, et flux attendus, Nij, sont à la base de l’évaluation de la qualité d’ajustement et du chi-carré de Pearson,

χ 2

, largement utilisé pour résumer ces différences. Il se calcule par la formule :

χ 2 = ( n ij N ij ) 2 N ij ,

où la sommation porte sur toutes les cellules intérieures de la matrice de migration. Quand les flux observés et les flux attendus concordent parfaitement, dans toutes les cellules du tableau, le

χ 2

est égal à 0, ce qui signifie que le modèle d’indépendance s’ajuste parfaitement aux données observées. Plus l’écart entre nij et Nij est important, plus la valeur du

χ 2

est élevée, et plus il est clair que le modèle d’indépendance ne convient pas. De manière générale, les faibles valeurs indiquent un bon ajustement et les valeurs élevées un ajustement médiocre.

Si l’hypothèse d’indépendance est vérifiée, le

χ 2

 est déterminé par la distribution de probabilités du

χ 2

 à (m–1)×(m–1) degrés de liberté. C’est sur la base de cette distribution que l’on teste la significativité du

χ 2

 (Agresti 2007 ; Agresti et Finlay 2009). Si le

χ 2

se situe vers l’extrémité droite de sa distribution, cela signifie qu’il y a peu de chances (par exemple p < 0,05) que l’hypothèse d’indépendance soit vérifiée, et le modèle est alors rejeté. Les valeurs du

χ 2

associées au modèle d’indépendance appliqué aux données néerlandaises du tableau 1 ont été calculées dans la feuille de calcul Independence du manuel d’exercices en ligne. Pour les instructions SPSS, Stata et R permettant de tester le modèle d’indépendance avec les données de 1973, voir l’Appendice 2 (disponible sur le site web de Tools for Demographic Estimation).

La valeur du

χ 2

associée aux données de 1973 de notre exemple est 47 623, avec 25 degrés de liberté (df). La valeur de p correspondante est inférieure à 0,000, et l’hypothèse d’indépendance est rejetée. (Cependant, on trouvera plus loin des commentaires sur les limites de ce test quand on a affaire à un grand échantillon.) Cela ne doit pas surprendre, vu les trois décompositions multiplicatives des données néerlandaises présentées dans les tableaux 2, 3 et 6. Les données montrent de façon constante de fortes associations entre régions, et beaucoup de paramètres d’interaction multiplicatifs sont très différents de 1. De plus, les variances fournies par SPSS et Stata, présentées dans l’Appendice 1 (disponible sur le site web de Tools for Demographic Estimation), indiquent que les paramètres d’interaction linéaires additifs sont nettement différents de 0.

Une alternative au

χ 2

 est le rapport de vraisemblance, ou déviation, ou coefficient G2. Ce sont des appellations différentes du même test, et le choix de l’une ou l’autre dépend des préférences des auteurs de manuels et des concepteurs de logiciels. Par simplicité, nous emploierons ici G2. Le G2 est similaire au

χ 2

en ce que des valeurs proches de zéro indiquent un bon ajustement du modèle, et des valeurs élevées un ajustement médiocre. Si l’hypothèse du modèle d’indépendance est valable, le G2 a une distribution du type de celle du

χ 2

.

L’utilité du G2 dépasse largement le test du modèle d’indépendance dans une analyse log-linéaire. Il sert souvent à comparer un modèle simple à un modèle plus complexe. Il se calcule à partir du rapport entre deux probabilités : (1) la probabilité que le modèle contraint (ici le modèle d’indépendance) s’ajuste bien aux données, et (2) la probabilité que le modèle non contraint (ici le modèle saturé) s’ajuste bien aux données. Si ce rapport est proche de 1, on préférera le modèle contraint, plus simple et plus parcimonieux, car il représente les données aussi bien que le modèle plus complexe.

Le rapport de ces deux probabilités n’a pas de distribution de type

χ 2

. Mais, si le rapport est transformé en logarithme naturel et multiplié par -2, il devient G2, variable qui a une distribution de type

χ 2

avec (m–1)×(m–1) degrés de liberté. Si on appelle Lc la probabilité associée au modèle contraint (le modèle d’indépendance) et Lu la probabilité associée au modèle non contraint (le modèle saturé), G2 se calcule comme suit :

G 2 =2ln( L c L u )=2ln L c +2ln L u .

Puisque le modèle saturé s’ajuste parfaitement aux données (c’est-à-dire que Lu = 1), G2 = –2ln Lc. Ses valeurs, selon l’exemple traité et le logiciel choisi, se trouvent dans l’Appendice 2 (voir le site web). Pour SPSS et Stata, il s’appelle « Deviance » et vaut 46 477,63 ; pour R, il s’appelle « Residual Deviance » et est arrondi à 46 480. Avec 25 degrés de liberté, la probabilité que le modèle d’indépendance convienne est bien égale à 0.

Les paramètres

χ 2

et G2 sont asymptotiquement équivalents (Powers et Xie 2008) et constituent, respectivement, les bases du test du chi-carré de Pearson et du test du rapport de vraisemblance. Comme pour tous les tests inférentiels, l’utilisateur doit être attentif aux hypothèses sous-jacentes et aux limites. Ces deux tests reposent sur l’hypothèse que chaque flux interrégional de la matrice de migrations suit une distribution de Poisson propre (Powers et Xie 2008), et ils ont tous les deux des limites importantes liées à la taille de l’échantillon. Le

χ 2

est artificiellement « gonflé » quand l’échantillon est grand. Le chi-carré de Pearson n’est donc pas indiqué en présence de gros échantillons. Le G2 et le test du rapport de vraisemblance sont préférables en pareil cas (Powers et Xie 2008). On opte plutôt pour le test du chi-carré de Pearson quand les effectifs attendus sont, en moyenne, compris entre 1 et 10, mais aucun test n’est vraiment satisfaisant quand la plupart des effectifs attendus sont inférieurs à 5 (Agresti et Finlay 2009 ; Powers et Xie 2008).

On a également mis en doute l’efficacité du G2 dans le cas de grands échantillons (Raftery 1986, 1995), et on s’accorde de plus en plus à estimer que des mesures d’information doivent être envisagées parallèlement aux tests de significativité traditionnels pour évaluer la qualité d’ajustement d’un modèle. Le critère d’information bayésien (en anglais : Bayesian Information Criterion, BIC) est étroitement relié à G2, et il se calcule en Stata par la formule :

BIC= G 2 dfln(m×m),

et en SPSS par la formule :

BIC=2ln L c +pln(m×m),

p est le nombre de paramètres estimés par le modèle d’indépendance, soit 2m–1. Une valeur faible incite à préférer le modèle d’indépendance au modèle saturé (Powers et Xie 2008).

Le critère d’information d’Akaike (en anglais : Akaike’s Information Criterion, AIC) est un outil alternatif qui accepte les valeurs faibles afin d’apprécier l’ajustement des meilleurs modèles, car il évalue la proximité entre valeurs ajustées et valeurs attendues (Agresti 2007). En SPSS et en R, il se calcule ainsi :

AIC=2(ln L c p),

p est le nombre de paramètres estimés dans le modèle d’indépendance, soit 2m–1. En Stata, la formule est :

AIC= 2(ln L c p) m×m .

On peut constater dans l’Appendice 2 (disponible sur le site web de Tools for Demographic Estimation) que SPSS et Stata calculent le BIC et l’AIC, tandis que R ne donne qu’une valeur arrondie de l’AIC. Comme on l’a déjà signalé, les formules utilisées présentent des différences. La valeur du BIC est 46 934,237 selon SPSS et 46 388,04 selon Stata. L’AIC, seul fourni par R, vaut 46 920, sa valeur arrondie étant 46 916,818 selon SPSS. Stata en donne une estimation beaucoup plus faible : 1 303,245. Toutes les valeurs du BIC et de l’AIC sont grandes, et renforcent l’idée que le modèle d’indépendance ne convient pas à cet exemple.

Le modèle de quasi-indépendance

Le modèle d’indépendance s’ajuste rarement bien à des données migratoires. Cela est dû en partie à la très forte tendance des gens à rester dans la région où ils vivent. Le modèle de quasi-indépendance permet d’éliminer ces « effets d’immobilité » (Powers et Xie 2008), et cela a souvent comme résultat d’améliorer l’estimation des flux interrégionaux attendus. Ce modèle a été appliqué avec succès à des données migratoires provenant de recensements nationaux (Agresti 1990 ; Rogers, Little et Raymer 2010 ; Rogers, Willekens, Little et al. 2002), les personnes qui ont déclaré habiter la même région qu’au début de la période de référence figurant dans la diagonale de la matrice de migrations.

À titre d’illustration, le cadre A du tableau 7 présente les migrations effectuées aux États-Unis entre 1985 et 1990 par des Américains de naissance. Manifestement, les effectifs des quatre cases de la diagonale de la matrice (hors marges) sont nettement supérieurs à ceux des autres cases, ce qui signifie que la propension à rester dans la région où l’on vit est beaucoup plus répandue que la migration d’une région à l’autre.

Cette concentration des effectifs le long de la diagonale est largement responsable du mauvais ajustement du modèle d’indépendance, et le poids écrasant des personnes qui ne quittent pas leur région d’origine a incité les chercheurs à les retirer du modèle. Les migrants étant définis comme les personnes qui changent de région de résidence, ce type de matrice des flux est parfois appelé « matrice limitée aux migrants ». Elle est particulièrement utile pour l’étude de la structure de la migration, puisqu’elle écarte les personnes qui n’ont pas migré ou qui ont déménagé sans changer de région. Le tableau 7 présente, dans le cadre B, la matrice des flux où les éléments de la diagonale ont été annulés et les totaux marginaux adaptés en conséquence.

Tableau 7 Flux migratoires des personnes nées aux États-Unis, 1985-1990

A. Matrice des migrations complète

Origine

Destination

Nord-Est

Midwest

Sud

Ouest

Total    

 Nord-Est

40 262 319

336 091

1 645 843

479 819

42 724 072

 Midwest

351 029

50 677 007

1 692 687

958 696

53 679 419

 Sud

778 868

1 197 134

69 563 871

1 150 649

72 690 522

 Ouest

348 892

668 979

1 082 104

37 872 893

39 972 868

 Total

41 741 108

52 879 211

73 984 505

40 462 057

209 066 881

B. Matrice des migrations limitée aux migrants

Origine

Destination

Nord-Est

Midwest

Sud

Ouest

Total    

 Nord-Est

0

336 091

1 645 843

479 819

2 461 753

 Midwest

351 029

0

1 692 687

958 696

3 002 412

 Sud

778 868

1 197 134

0

1 150 649

3 126 651

 Ouest

348 892

668 979

1 082 104

0

2 099 975

 Total

1 478 789

2 202 204

4 420 634

2 589 164

10 690 791

Les composantes multiplicatives, avec calcul des effets des facteurs sur la base du total général, fournies par ces deux types de matrices sont présentées dans le tableau 8. Les valeurs des paramètres du modèle à composantes multiplicatives basées sur la matrice complète s’éloignent manifestement de celles que l’on attendait sous l’hypothèse d’indépendance. Elles sont largement supérieures à 1,0 dans la diagonale, et très nettement inférieures à 1,0 en dehors. Par comparaison, quand on donne aux composantes multiplicatives basées sur la matrice limitée aux migrants la valeur 0 pour reproduire les 0 structurels de la diagonale, les composantes hors de la diagonale sont plus proches de 1,0.

Tableau 8 Composantes multiplicatives des flux migratoires des personnes nées aux États-Unis, 1985-1990

A. Matrice des migrations complète

Origine

Destination

Nord-Est

Midwest

Sud

Ouest

Total    

 Nord-Est

4,720

0,031

0,109

0,058

0,204

 Midwest

0,033

3,733

0,089

0,092

0,257

 Sud

0,054

0,065

2,704

0,082

0,348

 Ouest

0,044

0,066

0,076

4,896

0,191

 Total

0,200

0,253

0,354

0,194

209 066 881

B. Matrice des migrations limitée aux migrants

Origine

Destination

Nord-Est

Midwest

Sud

Ouest

Total    

 Nord-Est

0,000

0,663

1,617

0,805

0,230

 Midwest

0,845

0,000

1,363

1,318

0,281

 Sud

1,801

1,859

0,000

1,520

0,292

 Ouest

1,201

1,547

1,246

0,000

0,196

 Total

0,138

0,206

0,413

0,242

10 690 791

Le modèle de quasi-indépendance exige que seules les migrations d’une région à l’autre satisfassent l’hypothèse d’indépendance. On s’en assure par deux voies différentes mais équivalentes. Dans la première méthode, on considère la matrice complète (cadre A du tableau 7) et on donne la valeur 0 aux pondérations des effets d’interaction, ODij, quand la région de destination est identique à la région d’origine : nij = 0 si i=j. On parle alors de zéros structurels. Quand les régions d’origine et de destination sont différentes (ij), les effets d’interaction reçoivent la valeur 1,0, ce qui rejoint le modèle d’indépendance que nous connaissons et donne les flux hors diagonale attendus sous l’hypothèse de quasi-indépendance. L’Appendice 3 (disponible sur le site web de Tools for Demographic Estimation) présente l’application de cette méthode en SPSS, Stata et R.

La deuxième méthode s’appuie sur la matrice limitée aux migrants (cadre B du tableau 7). Elle se présente de préférence sous la forme additive :

ln( n ij )=λ+ λ i O + λ j D + δ i I

, où I est une variable dichotomique qui prend la valeur 1 pour les flux de la diagonale, donc quand i=j, et la valeur 0 pour les flux hors diagonale, donc quand ij (Agresti 2002). Un paramètre supplémentaire,

δ i

, est donc nécessaire pour estimer chaque flux de la diagonale ; pour les autres flux interrégionaux, le terme

δ i I

 disparaît, et le modèle de quasi-indépendance se ramène alors au modèle d’indépendance. Par conséquent, exactement comme dans le modèle d’indépendance, les termes d’interaction hors diagonale sont nécessairement égaux à 0 dans la forme additive du modèle (et à 1 dans la forme multiplicative). L’Appendice 3 présente l’application de cette méthode en Stata (sur le site web de Tools for Demographic Estimation).

Dans la première méthode, le modèle de quasi-indépendance assigne la valeur 0 aux m paramètres ODii pour i=1 à m. Dans la seconde méthode, m paramètres supplémentaires, les

δ i

, sont estimés et leurs exponentielles sont très proches de 0. Quelle que soit la méthode utilisée, le modèle de quasi-indépendance a m paramètres de plus que le modèle d’indépendance, et m degrés de liberté de moins.

L’Appendice 3 montre comment calculer le modèle de quasi-indépendance à l’aide des logiciels statistiques SPSS, Stata et R, en utilisant les données de migration aux États-Unis entre 1985 et 1990 des Américains de naissance. Quand le modèle d’indépendance exploite la totalité des données, tous les indices de qualité de l’ajustement sont, comme prévu, extrêmement élevés :

χ 2

= 544 479 395 (df=9) ; G2 = 461 411 576 (df=9) ; dans Stata, les valeurs du BIC et de l’AIC sont respectivement 461 000 000 et 28 800 000. Quand on calcule le modèle de quasi-indépendance, toutes ces valeurs sont considérablement réduites :

χ 2

 = 327 233 (df=5) ; G2 = 330 220 (df=5) ; dans Stata, les valeurs du BIC et de l’AIC sont respectivement 330 207 et 27 535.

Les tests inférentiels restent significatifs, et le modèle de quasi-indépendance ne peut pas être accepté comme véritable modèle de migration. Il ne faut pas comparer inférentiellement les modèles d’indépendance et de quasi-indépendance avec le test du rapport de vraisemblance, car ce ne sont pas des modèles emboîtés. Cependant, les mesures d’information sont directement comparables. Tant le BIC que l’AIC sont nettement réduits, ce qui avantage le modèle de quasi-indépendance par rapport au modèle d’indépendance.

Par ailleurs, le tableau 9 met en parallèle les flux attendus du modèle d’indépendance et ceux du modèle de quasi-indépendance. La comparaison visuelle des flux attendus du tableau 9 avec les données observées du tableau 7 montre combien le modèle de quasi-indépendance est plus proche des données. Deux indices résumés supplémentaires sont présentés : R2 et l’EAMP (écart absolu moyen en pourcentage). La comparaison des R2 montre que le modèle d’indépendance explique 10 % de la variation des données observées, tandis que le modèle de quasi-indépendance en explique 95 %. De plus, l’EAMP du modèle de quasi-indépendance, égal à 28, est considérablement plus faible que celui du modèle d’indépendance, qui vaut 2 492.

Comme l’ajustement du modèle de quasi-indépendance aux données observées n’est pas suffisamment précis, on ne peut pas considérer celui-ci comme le « vrai » modèle. Mais, en l’absence de données migratoires observées, le modèle de quasi-indépendance peut toujours constituer une solution de secours raisonnable pour estimer les flux interrégionaux.

Tableau 9 Flux migratoires attendus des Américains de naissance, sous les hypothèses d’indépendance et de quasi-indépendance, 1985-1990

A. Indépendance

Origine

Destination

1

2

3

4

1

8 530 046         

10 806 184         

15 119 178         

8 268 664         

2

10 717 328         

13 577 116         

18 996 052         

10 388 923         

3

14 512 977         

18 385 588         

25 723 693         

14 068 264         

4

7 980 756         

10 110 323         

14 145 583         

7 736 206         

 

 

R2=0,104         

 

EAMP=2 492,322         

B. Quasi-indépendance

Origine

Destination

1

2

3

4

1

0         

535 839         

1 349 561         

576 353         

2

442 768         

0         

1 793 640         

766 005         

3

720 681         

1 159 163         

0         

1 246 806         

4

315 340         

507 201         

1 277 434         

0         

 

 

R2=0,945         

 

EAMP=27,575         

Application 6 : La méthode des offsets

On peut évaluer la validité des modèles d’indépendance et de quasi-indépendance à l’aide des tests inférentiels associés aux résultats du modèle log-linéaire, et, même quand les modèles ne sont pas étayés par des tests de significativité, on peut les utiliser dans certains contextes pour obtenir des estimations valables des flux migratoires. La méthode des offsets suppose que les données auxiliaires ont une structure implicite des relations interrégionales similaire à la structure des migrations que l’on cherche à déterminer. Cette méthode emprunte la structure des données auxiliaires pour en déduire des estimations des flux migratoires inconnus.

Dans les recherches réalisées jusqu’à présent, c’est généralement une matrice de flux migratoires d’une autre période qui sert d’information auxiliaire (Rogers, Little et Raymer 2010 ; Rogers, Willekens, Little et al. 2002 ; Rogers, Willekens et Raymer 2003 ; Willekens 1983), mais elle pourrait concerner une autre catégorie d’âge (Raymer et Rogers 2007), de sexe ou de race. Il pourrait aussi bien s’agir de données provenant d’une autre source, comme les déclarations d’impôt ou les registres d’immatriculation des véhicules à moteur.

Les flux auxiliaires étant notés

n ij *

, le modèle log-linéaire avec offset prend la forme :

ln( n ^ ij )=λ+ λ i O + λ j D +ln( n ij * ).

  Il permet d’estimer des flux

n ^ ij

 dont la structure est aussi proche que possible de celle des flux auxiliaires, et, en même temps, ces flux estimés sont ajustés de manière à ce que leur somme corresponde aux totaux marginaux préalablement fixés par le chercheur. De cette manière, la méthode des offsets est similaire aux modèles d’indépendance et de quasi-indépendance en ce sens qu’elle fournit une distribution attendue des flux telle que les totaux marginaux de ligne et de colonne soient égaux aux estimations a priori.

Pour illustrer le fonctionnement de la méthode des offsets, prenons la matrice des flux migratoires aux Pays-Bas en 1976 (tableau 1). Supposons que nous voulons conserver les totaux marginaux, mais en même temps remplacer les effets d’interaction observés pendant cette année par ceux de 1973, en utilisant la méthode des offsets. Quelle serait la série correspondante de paramètres log-linéaires ? Le cadre A du tableau 10 présente la matrice des flux attendus obtenue par la méthode des offsets, et le cadre B, les composantes multiplicatives correspondantes avec calcul des effets des facteurs sur la base du total général. Notons que les valeurs de T, Oi et Dj de la matrice des flux attendus, c’est-à-dire le cadre B du tableau 10, sont identiques à celles de la matrice des flux observés de 1976 (cadre B du tableau 3). Mais les autres termes (les effets d’interaction ODij) reflètent l’influence de la structure des données observées de 1973 (cadre A du tableau 3), ainsi que les totaux marginaux des données de 1976. La méthode des substitutions applique la structure des données auxiliaires, celles de 1973 dans ce cas-ci, aux flux des cellules intérieures de la matrice tout en conservant le volume total des flux observés en 1976.

Tableau 10 Flux migratoires interrégionaux aux Pays-Bas (1976), calculés par la méthode des offsets à partir des totaux marginaux de 1976 et des flux de 1973

Cadre A. Calcul par la méthode des substitutions

Origine  

Destination

1    

2    

3    

4    

5    

6    

Total  

1

12 344

13 769

6 890

12 199

10 361

11 518

67 081

2

13 329

34 695

12 195

17 445

22 522

24 353

124 539

3

9 728

15 711

28 330

8 883

15 881

30 553

109 087

4

11 281

16 107

7 011

11 216

11 764

13 187

70 566

5

12 609

25 486

16 570

12 828

17 770

21 760

107 023

6

18 116

35 786

53 984

22 110

27 058

22 535

179 589

Total

77 408

141 553

124 980

84 682

105 356

123 906

657 885

         

R2 = 0,966

 

EAMP = 8,364

Cadre B. Composantes multiplicatives avec calcul des effets des facteurs sur la base du total général

Origine  

Destination

1    

2    

3    

4    

5    

6    

Total  

1

1,564

0,954

0,541

1,413

0,964

0,912

0,102

2

0,910

1,295

0,515

1,088

1,129

1,038

0,189

3

0,758

0,669

1,367

0,633

0,909

1,487

0,166

4

1,359

1,061

0,523

1,235

1,041

0,992

0,107

5

1,001

1,107

0,815

0,931

1,037

1,080

0,163

6

0,857

0,926

1,582

0,956

0,941

0,666

0,273

Total

0,118

0,215

0,190

0,129

0,160

0,188

657 885

Les valeurs attendues qui figurent au cadre A du tableau 10 ont été empruntées aux résultats des programmes SPSS, Stata et R de mise en œuvre de la méthode des offsets (Appendice 4, sur le site web de Tools for Demographic Estimation). D’autres exemples de calculs sont disponibles sur la feuille Excel Method of offsets du manuel d’exercices en ligne.

Étant donné que les flux ont été observés directement en 1976, nous avons plusieurs moyens d’évaluer la capacité de la méthode des offsets à reproduire les données. Une méthode simple consiste à examiner visuellement les rapports des composantes multiplicatives d’interaction, comme le montre le tableau 4. Une autre méthode s’appuie sur les tests inférentiels et les mesures d’information des procédures log-linéaires. Il s’agit de tester l’hypothèse que la structure des flux migratoires, c’est-à-dire les paramètres d’interaction, n’a pas changé entre 1973 et 1976. Dans l’exemple du tableau 10, le G2 correspondant est égal à 5 914 (df=25), et l’hypothèse que les données auxiliaires représentent le même régime de migration que celui des données observées doit donc être rejetée. Une dernière méthode proposée ici utilise R2 et l’EAMP pour évaluer l’adéquation entre flux attendus et flux observés. Ces deux paramètres, présentés au cadre A du tableau 10, valent respectivement 0,97 et 8,36. Avec les rapports du tableau 4, ces valeurs indiquent que cette application de la méthode des offsets donne une série d’estimations des flux migratoires de 1976 qui peut être tout à fait satisfaisante.

L’importance accordée aux indices de qualité de l’ajustement dépend de la qualité des flux observés introduits dans l’application de la méthode des offsets. Si la méthode doit être utile dans des cas pratiques, elle doit être applicable quand les flux interrégionaux n’ont pas été observés directement. En l’absence de données sur les flux, la méthode nécessite toujours des estimations préalables des totaux marginaux. D’ailleurs, si on applique la méthode comme le montre l’Appendice 4 (disponible sur le site web de Tools for Demographic Estimation), on doit introduire des estimations initiales des flux interrégionaux. Les estimations provisoires des totaux marginaux doivent donc être distribuées dans les cellules intérieures des lignes et colonnes correspondantes de la matrice des flux. Le cadre A du tableau 11 présente un scénario classique, quoiqu’il utilise toujours les totaux marginaux des données néerlandaises de 1976, qui sont des données observées. Une solution simple consiste à distribuer les flux conformément au modèle d’indépendance, c’est-à-dire

n ^ ij =(T)( O i )( D j )

, ce qui donne les estimations initiales des flux qui figurent au cadre B du tableau 11.

Tant que les flux interrégionaux initiaux ont pour sommes les totaux marginaux, les flux attendus ne sont pas affectés par la méthode de répartition des flux dans les cellules intérieures de la matrice, car, en fin de compte, les flux attendus auront été calculés à partir des données auxiliaires par la méthode des offsets, en utilisant l’algorithme itératif d’ajustement proportionnel (Agresti 1990 ; Deming et Stephan 1940). En d’autres termes, les estimations initiales des flux néerlandais de 1976, introduites dans le modèle log-linéaire avec offsets, pourraient être les valeurs des cellules internes du cadre B du tableau 1, ou celles du cadre B du tableau 11. L’une et l’autre séries d’estimations initiales donnera les flux attendus qui figurent au cadre A du tableau 10.

D’autre part, il est important de noter que les tests inférentiels et les mesures d’information qui accompagnent la méthode des offsets doivent être interprétés en référence aux estimations initiales des flux. Par exemple, si les flux initiaux sont ceux du cadre B du tableau 11, les paramètres

χ 2

 et G2 correspondants testent l’hypothèse que les valeurs attendues sont distribuées d’une manière compatible avec le modèle d’indépendance.

Tableau 11 Inputs de la méthode des offsets en l’absence de flux observés

Cadre A. Totaux marginaux pré-estimés, Pays-Bas, 1976

Origine  

Destination

1    

2    

3    

4    

5    

6    

Total  

1

 

 

 

 

 

 

67 081

2

 

 

 

 

 

 

124 539

3

 

 

 

 

 

 

109 087

4

 

 

 

 

 

 

70 566

5

 

 

 

 

 

 

107 023

6

 

 

 

 

 

 

179 589

Total

77 408

141 553

124 980

84 682

105 356

123 906

657 885

Cadre B. Distribution des estimations initiales des flux selon le modèle d’indépendance

Origine  

Destination

1    

2    

3    

4    

5    

6    

Total  

1

7 893

14 433

12 744

8 635

10 743

12 634

67 081

2

14 654

26 796

23 659

16 030

19 944

23 456

124 539

3

12 835

23 472

20 724

14 042

17 470

20 545

109 087

4

8 303

15 183

13 406

9 083

11 301

13 290

70 566

5

12 593

23 027

20 331

13 776

17 139

20 157

107 023

6

21 131

38 641

34 117

23 116

28 760

33 824

179 589

Total

77 408

141 553

124 980

84 682

105 356

123 906

657 885

Il n’est pas difficile d’aménager la méthode des substitutions pour l’appliquer au calcul des valeurs attendues d’une matrice limitée aux migrants. Les programmes SPSS, Stata et R ne demandent que de légères modifications, détaillées dans les commentaires de l’Appendice 4 (en ligne sur le site web de Tools for Demographic Estimation). Un exemple est traité dans la feuille de calcul Method of offsets, migrants only du manuel d’exercices en ligne (voir le site web). Il se base sur les flux observés aux États-Unis entre 1985 et 1990, pour estimer rétrospectivement les flux de migrants de la période 1975-1980 publiés par Rogers, Willekens, Little et al. (2002).

Référencés

Agresti A. 1990. Categorical Data Analysis. New York: Wiley.

Agresti A. 2002. Categorical Data Analysis. New York: Wiley-Interscience.

Agresti A. 2007. An Introduction to Categorical Data Analysis. Hoboken, NJ: Wiley-Interscience.

Agresti A and B Finlay. 2009. Statistical Methods for the Social Sciences. Upper Saddle River, NJ: Pearson Prentice Hall.

Alonso W. 1986. Systemic and log-linear models: From here to there, then to now, and this to that. Discussion paper 86-10. Cambridge, MA: Harvard University, Center for Population Studies.

Birch MW. 1963. "Maximum likelihood in three-way contingency tables", Journal of the Royal Statistical Society Series B-Statistical Methodology 25(1):220-233.

Deming WE and FF Stephan. 1940. "On a least squares adjustment of a sampled frequency table when the expected marginal totals are known", Annals of Mathematical Statistics 11(4):427-444. doi: http://dx.doi.org/10.1214/aoms/1177731829

Knoke D and PJ Burke. 1980. Log-linear Models. Beverly Hills, CA: Sage Publications.

Mueser P. 1989. "The spatial structure of migration: An analysis of flows between states in the USA over three decades", Regional Studies 23(3):185-200. doi: http://dx.doi.org/10.1080/00343408912331345412

Nair PS. 1985. "Estimation of period-specific gross migration flows from limited data: Bi-proportional adjustment approach", Demography 22(1):133-142. doi: http://dx.doi.org/10.2307/2060992

Powers DA and Y Xie. 2008. Statistical Methods for Categorical Data Analysis. Bingley, UK: Emerald.

Raftery AE. 1986. "Choosing models for cross-classifications", American Sociological Review 51(1):145-146. doi: http://dx.doi.org/10.2307/2095483

Raftery AE. 1995. "Bayesian model selection in social research", Sociological Methodology 25(1):111-163. doi: http://dx.doi.org/10.2307/271063

Raymer J. 2007. "The estimation of international migration flows: A general technique focused on the origin-destination association structure", Environment and Planning A 39(4):985-995. doi: http://dx.doi.org/10.1068/a38264

Raymer J, A Bonaguidi and A Valentini. 2006. "Describing and projecting the age and spatial structures of interregional migration in Italy", Population, Space and Place 12(5):371-388. doi: http://dx.doi.org/10.1002/psp.414

Raymer J and A Rogers. 2007. "Using age and spacial flow structures in the indirect estimation of migration streams", Demography 44(2):199–223. doi: http://dx.doi.org/10.1353/dem.2007.0016

Rees P and FJ Willekens. 1986. "Data and accounts," in Rogers, A and FJ Willekens (eds). Migration and Settlement: A Multiregional Comparative Study. Dordrecht: D. Reidel, pp. 19-58.

Rogers A, JS Little and J Raymer. 2010. The Indirect Estimation of Migration: Methods for Dealing with Irregular, Inadequate, and Missing Data. Dordrecht: Springer.

Rogers A, F Willekens, JS Little and J Raymer. 2002. "Describing migration spatial stucture", Papers in Regional Science 81(1):29-48.

Rogers A, FJ Willekens and J Raymer. 2003. "Imposing age and spatial structures on inadequate migration-flow datasets", The Professional Geographer 55(1):56-69.

Snickars F and JW Weibull. 1977. "A minimum information principle: Theory and practice", Regional Science and Urban Economics 7(1-2):137-168. doi: http://dx.doi.org/10.1016/0166-0462(77)90021-7

Willekens F. 1983. "Log-linear modeling of spatial interaction", Papers of the Regional Science Association 52:187-205. doi: http://dx.doi.org/10.1007/BF01944102

Author
Suggested citation
. 2015. Les modèles log-linéaires de flux migratoires. In (eds). Tools for Demographic Estimation. Paris: International Union for the Scientific Study of Population. https://demographicestimation.iussp.org/fr/content/les-modeles-log-lineaires-de-flux-migratoires. Accessed 2024-05-15.