Modèles relationnels synthétiques de Gompertz
Description de la méthode
Le modèle relationnel synthétique de Gompertz est une extension de la méthode relationnelle de Gompertz pour l’estimation des taux par âge et de l’indice synthétique de fécondité. Il s’appuie sur deux séries des données de parité, recueillies en différents points du temps, et sur des estimations de la fécondité du moment pour la période intermédiaire faites à partir des déclarations sur les naissances récentes classées par âge de la mère.
La méthode tient compte explicitement des variations de la fécondité ; elle est conçue pour des recensements ou des enquêtes réalisés à 5 ou 10 ans d’écart. Dans ces cas, les survivantes d’une cohorte de femmes observées à la première date peuvent être identifiées à la seconde, et la variation de la parité moyenne de la cohorte peut être calculée. Il en résulte, pour différentes cohortes, entre les deux dates, une série d’accroissements de parité qui peuvent être cumulés, déterminant ainsi les parités moyennes d’une cohorte fictive qui connaitrait la fécondité représentée par les accroissements de parité observés.
Quand de telles données ne sont pas aisément disponibles, ou qu’elles ne sont pas fiables, une procédure plus simple, et généralement acceptable, consiste à calculer des taux de fécondité par âge pour la première et la dernière année de la période et à estimer les taux de la période entière comme moyenne arithmétique de ces deux séries. Si on ne dispose pas d’enregistrement des naissances, mais que les deux enquêtes ou les deux recensements ont collecté des données sur les naissances de l’année écoulée, les taux de fécondité par âge peuvent être approximés de la même façon, en faisant la moyenne des taux observés au début et à la fin de la période. Si les naissances au cours des 12 mois précédant chaque enquête sont classées par âge de la mère au moment de l’enquête, les taux de fécondité observés correspondent à des groupes d’âge décalés de six mois. L’analyse devra en tenir compte.
Une fois les parités et les taux de fécondité correspondants calculés pour la période entre les deux enquêtes, le cumul et l’interpolation des taux et leur comparaison avec les parités moyennes sont réalisés exactement comme il a été décrit dans la présentation du modèle relationnel de Gompertz conventionnel.
Donnée nécessaires
Les données nécessaires sont :
- Le nombre d’enfants déjà nés classés par groupe quinquennal d’âge de la mère, tiré des deux enquêtes ou des deux recensements réalisés à cinq ou dix ans d’écart.
- SOIT le nombre de naissances au cours de l’année précédant chaque recensement classées par groupe quinquennal d’âge de la mère, SOIT les naissances enregistrées par groupe d’âge de la mère pour chaque année de la période intercensitaire. Si on ne dispose pas des données sur les naissances classées par âge de la mère aux points terminaux de la période intercensitaire, on peut utiliser un schéma approprié de fécondité par âge se référant à peu près au milieu de la période.
- Le nombre de femmes dans chaque groupe quinquennal d’âge aux deux enquêtes ou aux deux recensements.
- La population totale à chaque enquête ou recensement, si on doit calculer le taux brut de natalité, ou si on doit évaluer la complétude relative des données tirées du système d’enregistrement à l’état civil.
Hypothèses
La plupart des hypothèses sont celles sur lesquelles repose le modèle relationnel de Gompertz :
- Le schéma de fécondité standard choisi pour la procédure d’ajustement reflète de façon appropriée la forme de la distribution de la fécondité dans la population.
- Les changements intercensitaires de la fécondité ont été réguliers et graduels et ont affecté tous les groupes d’âge de manière comparable.
- Les erreurs dans les taux de fécondité avant ajustement sont proportionnellement les mêmes parmi les femmes dans les groupes d’âge centraux (20-39 ans), de sorte que la forme de la fécondité par âge des naissances récentes déclarées est raisonnablement correcte.
- Les parités déclarées par les jeunes femmes (20-29 ans) sont conformes à la réalité.
Le calcul des parités moyennes dans la cohorte synthétique suppose que la mortalité et la migration sont sans effet sur les distributions de parité effectives. En d’autres termes, on suppose que la parité moyenne des femmes qui décèdent ou qui migrent entre les deux enquêtes ne diffère pas significativement de la parité moyenne aux mêmes âges des femmes encore survivantes et présentes en fin de période.
Travail préparatoire et recherches préliminaires
Avant d’entreprendre l’analyse des niveaux de fécondité en recourant à cette méthode, l’analyste doit vérifier la qualité des données au moins sur les points suivants :
- structure par âge et sexe de la population;
- naissances déclarées au cours de l’année écoulée, et
- parités moyennes et nécessité d’une correction d’el Badry.
Précautions et mises en garde
Il est essentiel que les séries de taux de fécondité par âge dont on doit prendre la moyenne soient exprimées dans une même classification des âges. Si ce n’est pas le cas initialement, parce qu’une série se réfère à des groupes d’âge décalés de six mois et pas l’autre, la première doit être préalablement ajustée (par exemple, en appliquant la variante F-seul du modèle relationnel de Gompertz). En règle générale, on doit éviter de combiner des estimations des taux de fécondité par âge tirées de différentes sources (par exemple état civil et recensement), car les schémas de fécondité risquent d’être déformés de façon différente.
Si on ne dispose pas de taux de fécondité par âge pour le début et la fin de la période, on peut utiliser une série de taux se référant à peu près au milieu de celle-ci. On doit se souvenir que, dans l’application de la méthode relationnelle de Gompertz, seule importe la distribution des taux par âge de la période intercensitaire, de sorte que si cette distribution est plus ou moins constante dans cet intervalle, la date de référence exacte des taux utilisés importe peu.
Si on utilise des données de naissances enregistrées, des variations dans la complétude des données par groupe d’âge au fil du temps peuvent déformer la distribution de la fécondité. Si c’est le cas, la méthode doit être appliquée avec circonspection.
Application de la méthode
L’application de la méthode se fait selon les étapes suivantes.
Etape 1: Calcul des parités moyennes déclarées
Calculer les parités moyennes, et , des femmes de chaque groupe d’âge [x,x+5) aux dates des deux recensements (t1 et t2), pour x = 15, 20 … 45. Pour faciliter l’exposé, nous désignons la parité moyenne dans chaque groupe d’âge i au temps t par où i=(x/5-2). Les parités moyennes tirées du premier recensement ou enquête sont donc notées P(i,1) et celles tirées du second par P(i,2).
Etape 2: Calcul des parités moyennes pour une cohorte fictive
Le mode de calcul des parités dépend de la longueur de l’intervalle intercensitaire.
a) Intervalle de cinq ans
Si l’intervalle entre les deux séries de données est de cinq ans, les survivantes du groupe d’âge i au premier recensement appartiennent au groupe d’âge i+1 au deuxième, et l’accroissement de parité entre les deux recensements est égal à P(i+1,2) - P(i,1). Ces accroissements peuvent être calculés pour chaque groupe d’âge, et les parités de la cohorte fictive sont alors obtenues par cumul des accroissements successifs. Ainsi, si on désigne par l’accroissement de parité pour la cohorte du groupe d’âge i aux premier recensement, et par P(i,s) la parité du groupe d’âge i dans la cohorte fictive (où s renvoie à ‘synthétique’), on a pour i=1,…, 6, et donc
On considère que l’accroissement de parité pour le groupe d’âge le plus jeunes (i = 0) est égal à P(1,2), en supposant que P(0,1), parité moyenne des femmes de 10-14 ans au premier recensement, est nulle. Si la fécondité évolue rapidement, cette valeur de reflète donc des taux du moment plus proches de l’enquête que du milieu de l’intervalle, donnant un poids une peu exagéré à l’évolution de la fécondité.
b) Intervalle de dix ans
Si la période entre les recensements ou les enquêtes est de 10 ans, les survivantes de la cohorte appartenant au groupe d’âge i lors de la première enquête seront dans le groupe d’âge (i+2) lors de la seconde. Les parités de la cohorte fictive sont alors obtenues en cumulant deux séries parallèles d’accroissements de parité. Une fois encore, pour les groupes d’âge les plus jeunes, on considère que est égal à P(1,2) et que est égal à P(2,2). Les autres accroissements de parité sont égaux à pour i=1,…, 5.
Les parités de la cohorte fictive pour les groupes d’âge ayant un numéro pair sont obtenues en cumulant les accroissements de parité pour les groupes d’âge ayant un numéro pair, alors que ceux pour les groupes d’âge ayant un numéro impair sont obtenus en cumulant les accroissements de parité pour les groupes d’âge ayant un numéro impair. Donc
Etape 3: Calcul des taux de fécondité actuels
La méthode de calcul des taux, notés f(i), où i désigne les groupes d’âge comme précédemment, dépend des données disponibles.
a) Données tirées d’un système d’enregistrement à l’état civil
Une procédure possible consiste à calculer les taux de fécondité par âge se rapportant à peu près à la première et à la dernière année de la période entre les deux recensements en utilisant les données sur le nombre de naissances déclarées l’année précédant chaque recensement. Dans ce cas, on divise le nombre de naissances déclarées pour chaque groupe d’âge de la mère par le nombre de femmes recensées au même âge. On obtient ensuite les taux de fécondité par âge pour la période intercensitaire en faisant la moyenne arithmétique des taux par âge des deux années.
Une autre méthode consiste à calculer un taux moyen de fécondité par âge pour l’ensemble de la période à partir des taux de chaque année si ceux-ci sont disponibles à partir de l’état civil. Il s’agit alors de faire la somme des naissances déclarées pour chaque groupe d’âge de la mère et de la diviser par le nombre de personnes-années vécues (en faisant la moyenne de l’effectif des groupes d’âge au début et à la fin de l’intervalle, et en la multipliant par le nombre d’années au cours de la période intercensitaire).
Les taux de fécondité par âge obtenus à partir de l’état civil sont, par définition, classés par âge de la mère au moment de son accouchement.
b) Données tirées des recensements (enquêtes) ayant servi au calcul des parités moyennes à l’étape 2
Si les données sont tirées des déclarations que les femmes ont faites des naissances qu’elles ont eues au cours de l’année précédant le recensement qui a servi à calculer les parités moyennes, la moyenne arithmétique des deux séries de taux est à nouveau utilisée comme estimation de la fécondité de la période intercensitaire. Toutefois, la distribution des taux de fécondité ainsi calculés résulte d’une classification des mères selon leur âge au recensement et non selon leur âge à la naissance de l’enfant, en moyenne six mois auparavant. On doit tenir compte de ce décalage dans les âges lors de l’application du modèle relationnel de Gompertz.
Le processus d’ajustement du modèle relationnel de Gompertz aux données a déjà été décrit dans la section consacrée au modèle. Les seuls points de différence sont les suivants :
- Les estimations s’appliquent au point médian de la période, c’est-à-dire 2,5 ou 5 ans avant le second recensement.
- La feuille de calcul porte seulement sur l’application conventionnelle du modèle relationnel de Gompertz, les parités servant à fixer le niveau et la distribution de la fécondité pour la période servant à déterminer la forme de la courbe de fécondité.
- Si les données sont classées par âge de la mère à la date du recensement (c’est-à-dire que les données sur la fécondité récente ont été obtenues à partir du recensement ou de l’enquête qui a aussi fourni les parités moyennes, et non à partir de l’état civil), le dossier Excel joint vaut seulement pour le cas où les données sur la fécondité récente couvrent les 12 mois précédant le recensement ou l’enquête.
Les étapes pertinentes sont rappelées ci-dessous.
Etape 4: Choix du standard de fécondité à appliquer dans le modèle
Par défaut, le standard de fécondité est celui de Booth, légèrement modifié par Zaba (1981). Il est approprié dans le cas des populations à fécondité moyenne et élevée ; il est exprimé sous forme d’un schéma normalisé de fécondité cumulée (c’est-à-dire avec une fécondité totale égale à un). Les valeurs standards de Ys(x) sont déterminées en prenant les gompits de la distribution. Les valeurs des parités standards, Ys(i), sont les gompits des parités associées au schéma standard de fécondité. Le choix du standard détermine les valeurs de g() et e() utilisées dans les procédures d’ajustement par régression.
Etape 5: Evaluer la représentation graphique des P-points et des F-points
Les représentations graphiques de z(x) - e(x) en fonction de g(x), et z(i) - e(i) en fonction de g(i) sur le même système d’axes permettent de faire apparaître des erreurs communes et des tendances dans les données, comme on l’a vu en présentant le modèle relationnel de Gompertz.
Etape 6: Ajustement du modèle par sélection des points à utiliser
Au départ, tous les points doivent être inclus dans le modèle, sauf si la parité moyenne dans un groupe d’âge est supérieure à celle dans le groupe d’âge suivant. Dans ce cas, le gompit n’est pas défini et le modèle ne peut pas être ajusté en utilisant ce point (une telle situation ne peut pas survenir dans une cohorte réelle, mais elle peut être observée à cause d’erreurs dans les données ou dans une cohorte synthétique au cours d’une période où la fécondité évolue rapidement).
Si les données de parité et de fécondité sont mutuellement cohérentes, les représentations graphiques des z() - e() en fonction de g() doivent être alignées. Les P-points et les F-points qui font s’écarter la représentation d’une droite doivent être exclus du modèle. Une régression par les moindres carrés ordinaires est utilisée pour ajuster des droites sur les P-points et les F-points et pour identifier, séquentiellement, les points qui ne se situent pas nettement sur une droite. Il s’agit de chercher la combinaison la plus large de P- et F-points (à peu près) alignés, et d’utiliser ceux-ci pour ajuster le modèle.
On retient ou on exclut des points en respectant les instructions suivantes :
- Une série de points contigus doit être incluse dans le modèle. Seuls des points extrêmes peuvent être exclus. (La raison est que chaque point sur le graphique est le résultat d’un calcul de ratio entre les valeurs de données adjacentes. Si l’analyse conduit à considérer une donnée comme non fiable en tant que dénominateur, il n’est pas logique de l’accepter comme numérateur du ratio suivant.)
- Il vaut mieux éliminer des P-points que des F-points, car les données de parité moyenne sont davantage sujettes à des erreurs liées à l’âge que les données de fécondité.
- Les P-points qui s’écartent de l’alignement construit sur les autres P-points, ainsi que les F-points qui s’écartent de l’alignement construit sur les autres F-points, doivent être éliminés dès le début du processus d’ajustement.
- Il vaut mieux éliminer les P- et les F-points aux âges avancés plutôt qu’aux jeunes âges car les données y sont généralement moins fiables et présentent moins de cohérence entre descendance et fécondité récente. Les données relatives aux femmes de moins de 20 ans font cependant exception, car elles reposent sur des nombres faibles d’événements, ce qui rend souvent peu fiables les estimations des parités moyennes ou de la fécondité cumulée.
- Un ajustement réalisé sur davantage de points est préférable à celui réalisé sur moins de points, même s’il est légèrement moins bon. La feuille de calcul produit l’écart quadratique moyen (root mean squared error : RMSE)
à partir des points utilisés pour ajuster le modèle. Cette statistique peut aider à déterminer le nombre optimal de points sur lesquels réaliser l’ajustement, s’il y a un doute dans le choix à faire entre deux modèles concurrents. Dans ce cas, on peut choisir celui qui a le plus faible écart quadratique.
Etape 7: Evaluer la qualité des paramètres estimés
Les valeurs de α et β, qui représentent la droite de meilleur ajustement joignant les P-points et les F-points restants, nécessitent un contrôle pour vérifier qu’elles ne s’éloignent pas de leurs valeurs centrales de manière telle que le choix du standard serait mis en cause. Un bon ajustement est obtenu si -0,3 < α < 0,3, et si 0,8 < β < 1,25.
Si les paramètres se situent en dehors de ces intervalles, une au moins des séries de données sous-jacentes pose problème ou le standard est inadéquat. Il convient alors d’essayer un autre standard (voir plus loin) ou de modifier la sélection des points avant de poursuivre. Si les paramètres restent en dehors des intervalles ci-dessus, il faut considérer que la méthode est inappropriée.
Etape 8: Taux de fécondité par âge et indice synthétique de fécondité ajustés
Une fois estimés les deux paramètres du modèle, ceux-ci peuvent être appliqués au standard des parités pour fournir des valeurs ajustées, .
Celles-ci sont ensuite ramenées à des mesures de la proportion cumulée de fécondité réalisée par groupe d’âge i, grâce à la transformation anti-gompit. Les anti-gompits fondés sur les distributions de parité indiquent la proportion de fécondité réalisée dans le groupe d’âge. En divisant la parité observée dans chaque groupe d’âge par ces proportions, on obtient une série d’estimations de l’indice synthétique de fécondité. La moyenne de ces valeurs calculée sur le sous-ensemble des groupes d’âge qui ont été utilisés pour estimer α et β donne l’estimation ajustée de l’indice synthétique de fécondité,.
En appliquant les mêmes α et β aux gompits standards pour les âges qui bornent les groupes d’âge conventionnels (c’est-à-dire 20, 25 …50 ans), en appliquant la transformation anti-gompit, et en multipliant par , on obtient une distribution de fécondité cumulée aux différents âges. En faisant la différence entre les estimations successives de la fécondité cumulée et en la divisant par cinq, on obtient un schéma de fécondité ajusté pour les groupes d’âge conventionnels (15-19, 20-24 etc.), même si le classement des données initiales englobait un décalage d’une demi-année.
Exemple
L’exemple utilise les données recueillies lors des deux recensements du Kenya, réalisés à dix ans d’écart en 1989 et 1999. Les deux recensements incluent des questions sur la descendance et sur les naissances au cours de l’année passée. La méthode est mise en application dans le dossier Excel joint.
Etape 1: Calcul des parités moyennes déclarées
Une correction d’el Badry a été appliquée aux données du recensement de 1989. De toute évidence, les résultats du recensement de 1999 ont été corrigés : il n’y a pas de données manquantes sur la parité. Les parités moyennes tirées des deux recensements figurent aux deux premières colonnes du tableau 1. La descendance des femmes âgées a reculé d’environ 0,6 enfant au cours de la décennie. Mais l’accroissement de la descendance des adolescentes est un peu surprenant.
Etape 2: Calcul des parités moyennes pour une cohorte fictive
La période intercensitaire est de 10 ans (entre 1989 et 1999). Nous suivons donc la procédure décrite à l’étape 2(b) pour calculer les parités moyennes des cohortes, qui figurent dans la dernière colonne du tableau 1.
Tableau 1 Parités moyennes par groupe d’âge, Kenya, recensements de 1989 et 1999
Groupe d’âge |
1989 |
1999 |
Parité de la cohorte fictive P(i,s) |
15-19 |
0,2416 |
0,2848 |
0,2848 |
20-24 |
1,5247 |
1,3640 |
1,3640 |
25-29 |
3,2138 |
2,6073 |
2,6505 |
30-34 |
4,7602 |
4,1432 |
3,9825 |
35-39 |
6,2390 |
5,3867 |
4,8234 |
40-44 |
7,1204 |
6,3818 |
5,6041 |
45-49 |
7,5103 |
6,9143 |
5,4987 |
Comme indiqué à cette étape, et , alors que
On voit aisément que d’importantes omissions ont dû affecter les parités aux âges élevés puisque la parité dans la cohorte fictive à l’âge le plus élevé est inférieure à la parité des femmes dans la cohorte fictive intercensitaire âgée de 40-44 ans.
Etape 3: Calcul des taux de fécondité actuels
Les données disponibles sont issues des déclarations par les femmes du mois et de l’année de leur dernière naissance au cours de l’année précédant chaque recensement. Comme on l’a vu dans la section sur l’évaluation de la qualité des données sur la fécondité récente, ces déclarations peuvent être converties en estimations des taux par âge et de l’indice synthétique de fécondité, en supposant que toutes les naissances déclarées le mois du recensement ont eu lieu avant la date de celui-ci et en répartissant au prorata les naissances déclarées dans le mois un an avant la date du recensement. En procédant ainsi on obtient les estimations directes des taux par âge et de l’indice synthétique de fécondité présentées au tableau 2. Dans la dernière colonne, l’estimation de la fécondité intercensitaire est la moyenne des taux pour 1989 et 1999 dans chaque groupe d’âge.
On notera que la qualité des déclarations de fécondité dans les deux recensements est médiocre. Ces données impliquent des niveaux de fécondité nettement plus bas que ceux tirés des parités des cohortes synthétiques ou que la valeur de l’indice synthétique de fécondité de 5,3 enfants par femme dans l’Enquête Démographique et de Santé réalisée au Kenya en 1993.
Tableau 2 Estimations directes des taux par âge et de l’indice synthétique de fécondité, Kenya, recensements de 1989 et 1999
Groupe d’âge |
1989 |
1999 |
Fécondité moyenne |
15-19 |
0,0679 |
0,1107 |
0,0893 |
20-24 |
0,2179 |
0,2381 |
0,2280 |
25-29 |
0,2309 |
0,2124 |
0,2217 |
30-34 |
0,1908 |
0,1728 |
0,1818 |
35-39 |
0,1458 |
0,1193 |
0,1326 |
40-44 |
0,0764 |
0,0583 |
0,0673 |
45-49 |
0,0351 |
0,0203 |
0,0277 |
Indice synthétique de fécondité |
4,82 |
4,66 |
4,74 |
Etape 4: Choix du standard de fécondité à appliquer dans le modèle
Par défaut, le standard de fécondité est celui de Booth, légèrement modifié par Zaba (1981). Il n’y a pas d’autre standard de fécondité féminine validé.
Etape 5: Evaluer la représentation graphique des P-points et des F-points
Nous commençons en ajustant des modèles sur l’ensemble de P-points et des F-points. Les résultats figurent sur la feuille des Graphiques diagnostiques du dossier Excel joint.
Etape 6: Ajustement du modèle par sélection des points à utiliser
En suivant les instructions rappelées plus haut, nous éliminons des points les uns après les autres du modèle afin d’obtenir une plus grande congruence des P-points et des F-points. Le meilleur ajustement est réalisé avec les P-points de 20-39 ans et les F-points de 20-44 ans (Figure 1).
Etape 7: Evaluer la qualité des paramètres estimés
Dans cette application, les valeurs ajustées de α (-0,0286) et β (1,0042) sont bien à l’intérieur de l’intervalle des valeurs admissibles.
Etape 8: Taux de fécondité par âge et indice synthétique de fécondité ajustés
L’indice synthétique de fécondité tiré du modèle ajusté est de 5,56 enfants par femme (Tableau 3) ; Il vaut approximativement pour août 1994, le modèle ayant tenu compte du décalage dû au classement des âges des mères. Ce niveau est à peu près cohérent avec l’estimation de 5,3 enfants par femme tirée de l’EDS du Kenya en 1993, et avec les estimations obtenues par application de la méthode relationnelle de Gompertz séparément à chaque série de données.
Tableau 3 Taux de fécondité par âge estimés sur la base des accroissements de parité dans une cohorte fictive, Kenya 1989-1999
Groupe d’âge |
Taux de fécondité par âge |
15-19 |
0,139 |
20-24 |
0,267 |
25-29 |
0,261 |
30-34 |
0,213 |
35-39 |
0,153 |
40-44 |
0,070 |
45-49 |
0,009 |
Indice synthétique de fécondité |
5,56 |
Description détaillée de la méthode
La méthode décrite ici est une variante du modèle relationnel de Gompertz qui, au lieu d’utiliser des données de parité et de fécondité recueillies en un point du temps, élabore une distribution de fécondité ‘moyenne’ à partir des déclarations de descendance et de fécondité récente en deux points du temps. L’exposé mathématique du modèle relationnel de Gompertz a été fait précédemment.
Autres lectures et références
La méthode a d’abord été décrite par Zlotnik et Hill (1981) puis reprise aux pages 41-46 du Manuel X (Division de la Population des NU 1984). La présente mise à jour reste conforme à l’original, à ceci près qu’elle est présentée comme une variante du modèle relationnel de Gompertz où les parités utilisées sont les parités intercensitaires tirées des deux enquêtes, et les taux de fécondité sont les estimations pour la période séparant les deux recensements.
Division de la Population des NU. 1984. Manuel X. Techniques indirectes d’estimation démographique. New York : Nations Unies, Département des affaires économiques et sociales internationales, ST/ESA/SER.A/81. https://unstats.un.org/unsd/demographic/standmeth/handbooks/Manuel_X-fr.pdf
Zaba B. 1981. Use of the Relational Gompertz Model in Analysing Fertility Data Collected in Retrospective Surveys. Centre for Population Studies Research Paper 81-2. London: Centre for Population Studies, London School of Hygiene & Tropical Medicine.
Zlotnik H and KH Hill. 1981. "The use of hypothetical cohorts in estimating demographic parameters under conditions of changing fertility and mortality", Demography 18(1):103-122. doi: https://dx.doi.org/10.2307/2061052
- Printer-friendly version
- Log in to post comments